봉준호 감독의 '기생충'에 이어, 최근 정이삭 감독의 '미나리'가 화제의 중심이 되고 있습니다.
웹 크롤링을 활용해 해외 리뷰를 수집하고, 텍스트 전처리 과정의 여러 방법들을 활용하여 영화 '미나리'의 해외 리뷰들을 분석해보고자 합니다.
이번 분석에는 'IMDB / Metacritic의 영문 리뷰'를 대상으로 하였으며, 파이썬을 활용해 데이터를 수집하고 분석했습니다. 함께 게시하는 소스 코드를 활용해 다양한 영화 리뷰를 분석해 보세요!
| 데이터 수집
IMDB 관람객 리뷰 중 추천 수가 높은 상위 25개의 리뷰, Metacritic에 등록되어 있는 평론가 리뷰 44개를 각각 파이선으로 크롤링 하였습니다.
| 데이터 전처리
이후, 데이터 전처리를 시행하였습니다. 구체적으로 소문자 변환, 정규 표현식을 활용한 노이즈 데이터 제거, 불용어 제거, 토큰화, 표제어 추출 등을 진행하였습니다.
● 먼저, 분석에 필요하지 않은, 반복된 문장 및 문자열을 제거합니다.
● 그 다음으로 정규 표현식을 활용하여 반복되는 문장을 제거합니다.
● 특수문자를 제거하고, 소문자로 변환합니다.
● 불용어를 제거하고 토큰화를 시행합니다.
● 마지막으로 표제어를 추출합니다.
| 데이터 분석
토큰화한 데이터를 바탕으로 영화 리뷰를 분석합니다.
● 표제어 빈도수 확인하기
● 워드클라우드 만들기
| 데이터 시각화
영화 <미나리> 리뷰에 나타난 표제어들을 분석한 결과, 다음과 같은 워드클라우드로 시각화해 볼 수 있었습니다.
-IMDB 관람객 리뷰 분석
-Metacritic 평론가 리뷰 분석
| 결론 및 시사점
우선, IMDB 사용자와 Metacritic 평론가 리뷰의 공통 키워드가 영화 전체를 정확하게 관통하는 세 개의 키워드라는 점은 주목할 만합니다. 위 프로젝트를 통해 유의미하게 드러나는 것은 '일반 관객과 평론가들의 시선 차이'입니다. IMDB의 일반 관객들의 경우, '미나리'의 리뷰를 작성함에 있어 '주관적인 감정'과 '이야기'를 중시하는 경향을 띕니다. 실제로, 빈도수 분석 결과를 보더라도 개인의 감정을 암시하는 키워드가 많았으며, 이야기 내적 요인, 즉 배우의 연기나 가장 인상 깊었던 지점을 암시하는 키워드가 많았습니다. 구체적으로, 상위 15개 키워드를 보면 'good', 'like', 'much' 등 개인의 감정을 드러내는 표현이 다수 포함되어 있으며, 'performance', 'acting', 'character' 등 배우의 연기에 대한 평가를 암시하는 표현이 많고, 'end' 등 개인이 인상 깊었던 장면을 짚는 표현 또한 상당하다는 것을 알 수 있습니다. 반면 Metacritic의 평론가들의 경우, '미나리'의 리뷰를 작성함에 있어 다른 어떤 요인보다도 '감독' (혹은 '연출')에 집중하는 경향을 보입니다. 물론, 'immigrant', 'family', 'story' 등 작품의 주제를 관통하는 키워드도 다수 포함되어 있지만, 그 외에 대다수의 키워드가 감독을 의미하는 단어들이었습니다. 구체적으로 'chung', 'chungs', 'issac', 'lee' 4개의 키워드는 감독의 이름을 나타내는 표현들입니다. 다시 말해, 평론가들은 '미나리'라는 작품의 내적인 요인보다 감독 (혹은 연출)에 중점을 두고 있다고 볼 수 있습니다. 뿐만 아니라 일반 관객의 리뷰와 달리 평론가들의 리뷰에서는 '주관적인 표현'이 배제되는 경향성이 짙습니다. 실제로 상위 15개 키워드에 주관적인 표현은 찾아볼 수 없었고, 키워드가 전부 중립적인 단어들로 구성되어 있는 것을 확인할 수 있습니다. 물론 위 프로젝트는 '미나리'라는 한 작품에 대한 단편적인 분석에 불과하지만, 그럼에도 불구하고 리뷰 작성 시 영화를 바라보는 평론가들과 일반 관객의 시선 차이를 단적으로 보여준다는 점에서 의의가 있다고 할 수 있습니다.
------------
다양한 영화 리뷰 분석을 해보고 싶지만, 아직 파이썬으로 웹 데이터 크롤링을 하기엔 어려우시다고요? 스파이더킴을 사용하면 파이썬을 사용하지 않고도 영화 리뷰를 쉽게 수집할 수 있습니다.
프로그래밍을 전혀 몰라도 가능합니다.
스파이더킴으로 웹 크롤링을 시도해보시는 건 어떨까요?
Comments