english  login  

forum
  • 시맨틱 네트워크 패키지 사용자를 위한 사전 데이터

  • Author : Admin   Date : 2017-03-10 13:53:34
  • link copyURL 복사
  • 비정형 텍스트 데이터에서 보다 정밀하게 정제하고 정확한 단어를 추출하려면 사용자 사전을 적절하게 구축할 필요가 있습니다.  

    NetMiner의 시맨틱 네트워크 패키지를 이용하시는 고객 분들을 위해, 한글 텍스트 데이터를 분석할 때 유용하게 사용할 수 있는 사전 데이터를 소개합니다. 

     

    1. 한국정보화진흥원 빅데이터 센터의 형태소 사전

     

    한국정보화진흥원에서 국립국어원의 '우리말샘'과 SNS분석기업 '인사이터'에서 자체 보유한 사전을 기반으로 형태소 사전을 공개했습니다. 
    그 중 인물명(한글), 고유명사, 브랜드, 장소, 제품명 으로 분류된 단어들을 각각 추출하여 사전으로 제작하였습니다. 

    사전 파일은 위에 첨부된 Niadic.zip 을 클릭하시면 다운로드 하실 수 있습니다. 

    각 사전은 NetMiner의 File > Import Unstructured Text Data 메뉴에서 Filter&Dictionary - Defined Words 로 불러와서 텍스트 분석 시에 적용할 수 있습니다. 

    한국정보화진흥원에서 공개한 전체 데이터가 필요하다면 다음 링크를 클릭하세요!

     

    한국정보화진흥원 빅데이터 센터 바로가기→

     

    2. 국립국어원 데이터베이스

     

    국립국어원 홈페이지에서 한글과 관련된 데이터베이스를 다운로드 하실 수 있습니다. 

    설교, 강연, 방송 등 분석 샘플로서 활용할 수 있는 말뭉치 파일과 사용자 사전으로 활용할 수 있는 전자사전 파일(예. 고유명사)이 게시되어 있으니
    관심이 있으시다면 다음 링크를 클릭하세요!  

     

    국립국어원 바로가기→

     

     

     

     

     

     

     

     

     

     

  • list