안녕하세요 여러분 벌써 12월이 오고 2021년이 마무리 되어가네요. 이맘때쯤 빠질 수 없는게 크리스마스 행사잖아요! 행복한 분위기와 캐롤 그리고 ‘크리스마스 영화’! 항상 뻔한 내용이지만 그 클리셰가 마음에 안정감과 행복을 불어넣어줍니다. 대도시에서 직장 생활에 지친 여자주인공이 고향으로 돌아가고, 그 곳에서 진정한 사랑과 자아를 찾고 행복한 크리스마스를 보내는 뻔하지만 행복한 내용의 영화, 크리스마스가 오면 괜시리 그리워지진 않으신가요? 오늘은 크리스마스 영화의 클리셰를 LDA 토픽 모델링으로 분석해보았습니다!
LDA 토픽 모델링
토픽 모델링이란 다양한 문서에서 추상적인 “주제(topic)”를 발견해내는 통계학적 모델링 기법의 하나입니다. Latent Dirichlet Allocation (잠재 디리클레 할당)의 준말인 LDA는 특정 주제에 맞게 텍스트를 분류하는 데 쓰이는 하나의 모델이며, 문서 모델 당 하나의 주제를, 주제 모델 당 단어들을 생성합니다. 오늘 우리는 이 기법을 크리스마스 영화들의 줄거리에 적용하여 주제와 키워드를 추출해보려고 합니다. 모든 크리스마스 영화의 줄거리를 분석하여 어떤 주제가 가장 빈번하게 나왔는지, 크리스마스 영화의 클리셰에는 어떤 것들이 있는 지 알아봅시다!
데이터 가져오기
위키피디아에 대표적인 크리스마스 시리즈 제작사인 ‘Hallmark’의 제작 목록이 등재되어 있기 때문에 이 내용을 스크랩 해왔습니다. 목록에 있는 각 영화들의 줄거리는 ‘The Movie Databse project’ 페이지에서 가져왔습니다. 총 260개의 영화와 그 줄거리를 수집하였어요.
위키피디아 : https://en.wikipedia.org/wiki/List_of_Hallmark_Channel_Original_Movies
The Movie Databse project : https://www.themoviedb.org/
변수 가공
분석을 위해 변수 가공(feature engineering) 과정을 거칩니다. 변수 가공은 데이터 분석에서 그대로 사용하기에는 어려운 데이터의 변수를 가공하여 데이터를 비교적 간단명료하게 만드는 것을 말합니다. 주인공의 이름은 중요치 않으니 <male>, <female>로 표준화하고, 마을의 이름은 <small town>, <big city> 등으로 표준화를 해주었습니다.
이 과정에서 Spacy를 사용하여 품사에 태그를 지정했는데요. Spacy는 장소 이름, 개인 이름 및 고유 명사를 포함하여 각 단어에 태그를 지정하는 유용한 NLP 라이브러리입니다. 예를 들어 캐릭터 이름의 경우 Genderize를 통해 각각의 이름들을 female, male로 토큰화할 수 있는 거죠. 이 과정을 통해 주요 인물, 위치 및 관계 유형이 토큰화된 플롯으로 데이터를 정제할 수 있었습니다.
빈도 분석 및 토픽 모델링
이제 이 분석의 핵심인 토픽 모델링 과정입니다. 이 프로젝트에서는 Gensim 라이브러리를 사용하여 분석을 진행했는데요. 줄거리 요약에서 감지된 다양한 휴일 테마를 찾는데 이용할 수 있었습니다.
모델을 훈련, 학습시킨 결과 크리스마스 영화의 클리셰 총 8가지 유형을 추출할 수 있었습니다.
"크리스마스 영화 8가지 클리셰"
1. Setback : 일/사랑에 지친 여성, 치유를 위해 작은 마을로 이사
2. Boss : 냉소적인 사업가가 파티, 연회를 개최할 목적으로 발랄하고 유쾌한 여성을 고용
3. Mixup : 착오/사고로 인해 안 맞는 사람들과 함께 지내게 됨
4. Alt-life : 산타, 요정에 의해 소원이 이루어지고 주인공에게 다른 삶이 시작됨. 시간여행 포함
5. Takeover : 작은 마을에서 가족이 운영하는 기업을 위협하는 악덕 대기업
6. Rivals : 사이가 좋지 못한 두 라이벌이 하나의 목표를 위해 힘을 합쳐야 하는 상황
7. Imposter : 드라마틱한 아이러니; 주인공이 자신의 정체를 속이거나 기억상실증에 걸려 자신이 누군지 모르는 상황에서 벌어지는 에피소드
8. Family crisis : 가족의 위기로 인해 어쩔 수 없이 집으로 돌아가게 된 여성
위의 8가지 클리셰가 크리스마스 영화의 대표적인 테마였습니다. 홀마크 채널의 영화는 8가지 유형이 모두 고르게 제작되었음도 알 수 있었습니다.
결론
예상은 하고 있었지만 전형적인 클리셰가 딱 8개로 나오고 그 내용이 전부 알만 하다는게 재밌네요. 이번 크리스마스에는 또 어떤 영화가 개봉해서 우리의 휴일을 즐겁게 해줄까요? 정말 기대가 되네요! 그럼 다음에는 더 재밌는 분석으로 돌아오겠습니다.
[출처 : https://nycdatascience.com/blog/student-works/can-a-computer-write-a-hallmark-holiday-movie/ ]
데이터를 바탕으로 연구해보고 싶은 분야가 있으신가요? 스파이더킴을 통해 간편하게 원하는 데이터를 수집해보세요!
Comments