워드 클라우드 (Word Cloud) 를 아시나요?
사전적으로는 "글에서 언급된 핵심 단어를 시각화하는 기법"으로 요약할 수 있습니다.
기본적으로 많이 언급된 단어를 크게 표현하여 한 눈에 들어오게 하는 방식이며, 방대한 양의 정보를 다루는 빅데이터를 분석할 때 데이터의 특징을 도출해내기 위한 목적에 부합하지요.
워드 클라우드는 데이터 수집, 정제, 시각화의 과정 및 기술로 데이터에서 의미와 가치를 발견하는 데이터 사이언스의 한 사례라 할 수 있겠습니다.
웹크롤링
아래의 내용대로 워드 클라우드 작성을 위한 데이터 수집을 위해 웹크롤링을 시행했습니다.
· 크롤링 대상 : 270여개 뉴스 기사의 1380여개 해시 태그
· 대상 사이트 : 중앙일보 (https://joongang.joins.com/)
· 검색어 : 현대자동차
· 기간 : 2018년 11월 ~ 2019년 1월 (2개월 기사 전체)
데이터 정제
현대자동차라는 검색어를 통해 검색된 중앙일보 기사에 달린 1388개의 해시 태그를 아래와 같이 정제하였습니다.
· 데이터셋을 원하는 용도에 맞게 사용할 수 있도록 처리
· 불일치 및 오류 수정
· 기계 판독이 불가능한 요소 제거
· 적합한 파일 포맷으로의 전환
데이터 분석
사용 빈도가 높은 상위 300개 단어를 추출하여 분석하였습니다.
· 형태소 분석기로 명사만 추출
· 역문서 빈도를 계산하여 사용 빈도가 낮은 단어의 특정성 파악
· 단어 벡터 모델을 활용해 컴퓨터가 텍스트를 숫자로 인식하게끔 변환
· 유클리디안 유사도를 통해 단어간의 유사도 파악
결과
아래와 같이 멋진 워드 클라우드가 만들어졌습니다.
단어들이 현대자동차 로고의 형상을 이루도록 조직하였으며, 단어들의 컬러도 현대자동차의 블루 컬러에 맞추었습니다. 수 백 개의 기사, 수 천 개의 해시 태그 단어들을 일일이 다 읽지 않아도, 언론 기사에 표현된 현대자동차 관련 주요 키워드가 무엇인지 한 눈에 파악할 수 있습니다.
컬러를 다채롭게 하여 9개의 이미지를 통합한 워드 클라우드도 아래와 같이 마련해 보았습니다.
수집, 정제, 시각화의 기술을 거치면 데이터가 더욱 쉽고, 재미있고, 가치있는 것이 됩니다.
웹크롤링과 데이터 시각화는 꼭 스파이더킴과 상의해 주세요!
=========================
웹크롤링, 웹스크래핑, 웹데이터 수집, 빅데이터에서 최고의 서비스를 제공합니다.
지금 바로 홈페이지를 방문하셔서, 문의 요청해 주십시오!
Comments