top of page

[회사 소식] 유펜솔루션, 에트리(ETRI)로부터 자연어 처리 (NLP) 기술 이전

  • jj5832
  • 2022년 12월 6일
  • 1분 분량


유펜솔루션이 에트리 (한국전자통신연구원, ETRI)로부터 자연어 처리 기술인 엑소브레인 한국어 언어분석 툴킷 V4.0을 이전 받았습니다.


엑소브레인 한국어 언어분석 툴킷 4.0은 한국어 문어체 텍스트에 대하여 형태소 분석, 개체명 인식, 구문 분석, 동음이의어/다의어 분석, 의미역 인식의 언어 분석을 수행하고, 언어분석된 결과를 전달해 주는 기술이 집약된 툴킷입니다.


유펜솔루션은 아래 두 기술을 집중적으로 이전 받았습니다.


[1] 형태소 분석 관련

문장을 형태소 단위로 분리시키는 작업이 한국어 문어체 텍스트를 분석하는 첫 과정이라고 할 수 있습니다. 단위 품사 (용언, 부사, 단일 명사, 어간+어미) 1,378,374개와 복합명사 1,320, 495개가 망라된 말뭉치 사전을 통해 빠르고 정확하게 한국어 문장을 형태소 단위로 분리할 수 있습니다.


형태소 분석 예시



에트리가 체계화한 21세기 세종 계획의 세종 태그셋 일람표



[2] 개체명 인식 관련

개체명 (entity name) 이란 인명, 지명, 기관명 등 이름이 붙은 고유한 개체를 의미합니다. 에트리의 개체명 인식 기술에는 머신러닝 모델 (SSVM)이 채택되었으며, 사용자 사전을 통해 개체명 오류 및 미인식을 수정할 수 있습니다.


개체명 세부 분류 일람표 : 15개 대분류 및 146개 세부 분류 (1/2)



개체명 세부 분류 일람표 : 15개 대분류 및 146개 세부 분류 (2/2)



크롤링 기술을 통해 데이터를 수집하는 서비스에서 자연어 처리 기술을 활용하여 데이터를 전처리하고 분석하는 서비스까지, 유펜솔루션은 이번 기술 이전을 통해 데이터 수집, 전처리, 분석, 시각화 원스톱 서비스 플랫폼으로 한층 더 성장하겠습니다.




Comments


© 2024 UpennSolution. All rights reserved.

bottom of page