최근 다양한 산업 분야에서 텍스트 데이터의 가치에 주목하고 있습니다. 예를 들어 고객의 리뷰를 분석하여 개선 사항에 대한 통찰력을 얻을 수 있습니다. 또한 잠재 고객들의 니즈를 파악해 마케팅에 활용할 수도 있겠죠!
그동안 텍스트를 분석하는 전통적인 방법은 ‘내용 분석’이나 ‘프레임 분석’, ‘담론 분석’ 등이 있었습니다. 사람이 직접 텍스트를 읽고 특정 기준에 따라 분석하거나 통찰력을 도출해내는 방식이죠. 하지만 인적 오류(human error)가 발생할 수 있다는 것이 큰 한계점으로 지적받아 왔습니다. 또한 텍스트 데이터의 양이 방대해짐에 따라 기존의 방식으로는 데이터를 처리하는 것이 어려워졌습니다.
이러한 상황에서 수학, 통계학, 데이터 과학 등을 이용한 텍스트 분석방법이 각광받고 있습니다. 보통 텍스트 마이닝(text mining)이라 통칭되는데요. 텍스트 마이닝이란, 자연어 처리 기술을 활용하여 텍스트 데이터를 정형화하고 유의미한 정보, 개념, 특성들을 추출하는 데이터 분석 및 처리 방법을 말합니다.
하지만 텍스트 데이터는 숫자와 달라서 문맥에 따라 의도하는 바가 다르고, 추상적인 의미를 해석해야 하는 등 객관적인 결과 도출이 쉽지 않기 때문에 딱 하나의 방법론이 정형화되어 있는 것이 아니라, 다양한 방법론을 시도하고 있습니다. 그럼 텍스트 마이닝 분석 방법들을 몇 가지 소개해보겠습니다.
| 텍스트 마이닝 분석 방법
■ 형태소 분석
가장 기본적이고 보편적인 분석으로, 품사 태깅, 단어 식별(tokenization) 기법 등을 활용합니다. 데이터의 전체적인 이해와 흐름을 살펴보기 위한 기초 분석으로 단어 출현 빈도 등을 워드 클라우드 등의 형태로 시각화해 구현할 수 있습니다.
■ 연관 분석
상호 관련성이 있는 단어들을 분석하고 핵심 어구를 추출하는 방법으로, Word2vec 등의 통계적 방법으로 유사도를 산출하여 활용합니다.
■ 벡터 공간 모델
문서와 단어를 각각 벡터와 차원에 대응시켜 통계적 가중치를 구하는 방법입니다. 문서 내에 특정 단어가 포함되어 있다면 해당 차원은 특정한 값을 갖게 됩니다. TF-IDF, 코사인 유사도 등을 통해 단어 분포의 중요도에 따라 문서의 유사도를 구할 수 있습니다.
■ 동시 출현 단어 분석
문서 또는 문장 등 기준이 되는 단위 내에서 두 단어가 동시 출현하는 빈도를 구하여 유의미한 단어 쌍을 추출해 내는 방법입니다. 텍스트 네트워크의 연결 관계를 파악하는데 활용할 수 있습니다.
■ 의미 연결망 분석
동시 출현 단어들의 빈도와 거리 등을 바탕으로 텍스트를 행렬과 네트워크 형태로 표현하는 분석 방법으로, 단어들의 구조적 관계를 통해 텍스트의 의미를 도출하는 방법입니다.
■ 감성 분석
감성 사전을 바탕으로 텍스트에 내포된 감성 비율을 정량화하는 기법입니다. 일반적으로 긍정, 중립, 부정 등으로 분류됩니다.
■ 토픽 모델링
단어들의 동시 사용 패턴을 바탕으로 유사한 단어들의 집합을 카테고리화하여 대량의 텍스트에 숨어있는 주제를 발견하는 추론 알고리즘으로, LDA(Latent Dirichlet Allocation) 기법이 주로 활용됩니다.
이렇듯 다양한 텍스트 분석 방법을 통해 비즈니스 영역에서는 뉴스, 블로그, 커뮤니티 게시판 등 온라인에서 생성된 텍스트를 분석하여 고객들의 다양한 의견과 감정을 살펴볼 수 있을 것입니다. 또한 고객 리뷰 및 피드백의 패턴화를 통해 자동화된 응답을 구상해 답변 시간을 줄여 고객의 애로사항을 보다 빠르게 해결해드릴 수 있습니다.
| 한계와 효용
텍스트 마이닝은 텍스트를 보다 거시적인 관점에서 바라보기 때문에 텍스트의 의미를 정교하게 파악하는 것이 쉽지 않다는 한계를 가집니다. 또한 데이터의 양이 많다고 해서 그것이 일반화의 근거가 되어주진 못합니다. 따라서 데이터 정제와 인간의 통찰력을 바탕으로 지속적으로 결과물을 다듬어나가는 것이 텍스트 마이닝을 통한 데이터 분석의 가치를 낳는다고 할 수 있습니다. 텍스트 마이닝을 이용하여 텍스트 데이터를 보다 넓은 관점에서 바라보고 인사이트를 얻어 실무에 활용해 보세요!
Comments