들어가는 말
매년 3백만명이 넘는 미국인이 우울증 진단을 받는다고 합니다. 우울증은 가라앉은 기분이 계속되거나 의지가 현격히 저하되어 일상생활에까지 지장을 줍니다. 아래의 인용문에서 알 수 있듯이 우울증을 예방할 수 있는 백신은 바로 좋은 글귀입니다.
"좋은 글은 인류가 갖는 가장 강력한 무기 입니다. 격려의 말로 힘을 낼 수 있도록 도와주고, 절망의 언어로 아픔을 표현할 수도 있습니다. 좋은 글은 도움을 주고, 치유에 속도가 내게 할 수 있지만, 방해하고, 상처를 주고, 해를 입히고 굴욕을 줄 수도 있습니다."에후다 베르그 Yehuda Berg
이번 포스팅에서는 GoodReads 사이트를 크롤링 하여 수집된 데이터를 분석하여 사람들에게 힘을 주는 좋은 글에 사용되는 단어에 대한 인사이트를 얻어보고자 합니다.
데이터 수집
GoodReads (https://www.goodreads.com/quotes) 웹사이트를 크롤링 하여 데이터를 수집하였습니다. 유머, 영감, 인생, 사랑 카테고리에서 수집된 데이터 셋의 용량은 3MB 였습니다. 수집한 데이터의 목록은 다음과 같습니다.
● 저자 이름
● 명언의 길이
● 좋아요 수
● 카테고리 이름
● 태그
● 명언
웹크롤링으로 웹데이터를 수집 한 후, 여러 프로세스로 데이터를 정제하고 포맷을 정리했습니다. 그리고 카테고리를 정의하기 위해 데이터의 URL도 같이 추출하였습니다. 또한 명언과 저자 텍스트에서 따옴표를 제거하고 줄바꾸기 기호를 잘라내었습니다. 마지막으로 '좋아요' 받은 수를 숫자형식으로 변환하였습니다.
데이터 분석
첫번째로 명언이 '좋아요'를 받은 갯수와 명언 텍스트 길이에 대한 상관관계를 알아보기 위해 분석을 하였습니다. '좋아요' 수와 '명언'의 길이를 그리프로 표현해 본 결과 상관관계가 있어 보이지는 않았습니다.
다음으로 '좋아요' 수와 '명언'의 길이를 로그변환한 후 선형 회귀를 실행하였습니다. 분석 결과 R제곱 값은 0.0553, p값은 0.99로 약간의 상관관계는 을지 모르지만 상관관계가 있다고 결론짓기에 충분히 높은 값은 아니었습니다.
두번째는 명언의 저자에 관해 분석해 보았습니다. SNS 영향력 정도, 팔로워수, 명언의 동기부여 여부를 인기있는 명언 평가 기준에 추가 하였습니다. 마지막으로 25명의 명언가를 선정하여 아래와 같이 그래프를 그려 보았습니다. 로이 베넷 Roy Bennett (476), 스티브 마라볼리 Steve Maraboli (212), 카산드라 클레어 Cassandra Clare (210), 조앤 롤링 J.K Rowling (153) 및 릭 라이어던 Rick Riordan (152) 순입니다.
마지막으로 명언과 관련된 가장 인기있는 태그가 무엇인지 알아보고 싶었습니다. 명원과 관련되 인기태그들을 추출해 내어 다음과 같이 워드 클라우드로 표현해 보았습니다.
추가적으로, 어떤 태그를 붙이면 어느정도 인용이 될 것인지에 대한 예측 결과를 추가 모델링을 통해 계산해 낼 수 있을 것입니다.
결론
수집된 데이터들을 사전 분석 하였을 경우에는 변수들 간의 관계가 일부 있는 것으로 관찰 되었지만, 유의한 상관관계는 발견되지 않았습니다. 다른 부가 자료나 변수를 추가하여 상관관계를 분석해 본다면 더 의미있고 흥미있는 결과과 나올 수 있을 것입니다.
향후 명언의 태그나 키워드를 가지고 정확한 인용수 예측을 하기 위한 변수들를 찾아내는 분석을 진행해 보려고 합니다.
留言