top of page

[회사 소식] 유펜솔루션, 에트리(ETRI)로부터 자연어 처리 (NLP) 기술 이전



유펜솔루션이 에트리 (한국전자통신연구원, ETRI)로부터 자연어 처리 기술인 엑소브레인 한국어 언어분석 툴킷 V4.0을 이전 받았습니다.


엑소브레인 한국어 언어분석 툴킷 4.0은 한국어 문어체 텍스트에 대하여 형태소 분석, 개체명 인식, 구문 분석, 동음이의어/다의어 분석, 의미역 인식의 언어 분석을 수행하고, 언어분석된 결과를 전달해 주는 기술이 집약된 툴킷입니다.


유펜솔루션은 아래 두 기술을 집중적으로 이전 받았습니다.


[1] 형태소 분석 관련

문장을 형태소 단위로 분리시키는 작업이 한국어 문어체 텍스트를 분석하는 첫 과정이라고 할 수 있습니다. 단위 품사 (용언, 부사, 단일 명사, 어간+어미) 1,378,374개와 복합명사 1,320, 495개가 망라된 말뭉치 사전을 통해 빠르고 정확하게 한국어 문장을 형태소 단위로 분리할 수 있습니다.


형태소 분석 예시



에트리가 체계화한 21세기 세종 계획의 세종 태그셋 일람표



[2] 개체명 인식 관련

개체명 (entity name) 이란 인명, 지명, 기관명 등 이름이 붙은 고유한 개체를 의미합니다. 에트리의 개체명 인식 기술에는 머신러닝 모델 (SSVM)이 채택되었으며, 사용자 사전을 통해 개체명 오류 및 미인식을 수정할 수 있습니다.


개체명 세부 분류 일람표 : 15개 대분류 및 146개 세부 분류 (1/2)



개체명 세부 분류 일람표 : 15개 대분류 및 146개 세부 분류 (2/2)



크롤링 기술을 통해 데이터를 수집하는 서비스에서 자연어 처리 기술을 활용하여 데이터를 전처리하고 분석하는 서비스까지, 유펜솔루션은 이번 기술 이전을 통해 데이터 수집, 전처리, 분석, 시각화 원스톱 서비스 플랫폼으로 한층 더 성장하겠습니다.




Comments


bottom of page