top of page

[데이터 분석] 영화 '미나리' 해외 리뷰 분석 (파이썬으로 웹 크롤링 하기)


봉준호 감독의 '기생충'에 이어, 최근 정이삭 감독의 '미나리'가 화제의 중심이 되고 있습니다.


웹 크롤링을 활용해 해외 리뷰를 수집하고, 텍스트 전처리 과정의 여러 방법들을 활용하여 영화 '미나리'의 해외 리뷰들을 분석해보고자 합니다.


이번 분석에는 'IMDB / Metacritic의 영문 리뷰'를 대상으로 하였으며, 파이썬을 활용해 데이터를 수집하고 분석했습니다. 함께 게시하는 소스 코드를 활용해 다양한 영화 리뷰를 분석해 보세요!



| 데이터 수집


IMDB 관람객 리뷰 중 추천 수가 높은 상위 25개의 리뷰, Metacritic에 등록되어 있는 평론가 리뷰 44개를 각각 파이선으로 크롤링 하였습니다.







| 데이터 전처리


이후, 데이터 전처리를 시행하였습니다. 구체적으로 소문자 변환, 정규 표현식을 활용한 노이즈 데이터 제거, 불용어 제거, 토큰화, 표제어 추출 등을 진행하였습니다.


● 먼저, 분석에 필요하지 않은, 반복된 문장 및 문자열을 제거합니다.



● 그 다음으로 정규 표현식을 활용하여 반복되는 문장을 제거합니다.



● 특수문자를 제거하고, 소문자로 변환합니다.


● 불용어를 제거하고 토큰화를 시행합니다.



● 마지막으로 표제어를 추출합니다.

| 데이터 분석


토큰화한 데이터를 바탕으로 영화 리뷰를 분석합니다.


● 표제어 빈도수 확인하기


● 워드클라우드 만들기



| 데이터 시각화


영화 <미나리> 리뷰에 나타난 표제어들을 분석한 결과, 다음과 같은 워드클라우드로 시각화해 볼 수 있었습니다.


-IMDB 관람객 리뷰 분석


-Metacritic 평론가 리뷰 분석


| 결론 및 시사점




우선, IMDB 사용자와 Metacritic 평론가 리뷰의 공통 키워드가 영화 전체를 정확하게 관통하는 세 개의 키워드라는 점은 주목할 만합니다. 위 프로젝트를 통해 유의미하게 드러나는 것은 '일반 관객과 평론가들의 시선 차이'입니다. IMDB의 일반 관객들의 경우, '미나리'의 리뷰를 작성함에 있어 '​주관적인 감정'과 '이야기'를 중시하는 경향을 띕니다. 실제로, 빈도수 분석 결과를 보더라도 개인의 감정을 암시하는 키워드가 많았으며, 이야기 내적 요인, 즉 배우의 연기나 가장 인상 깊었던 지점을 암시하는 키워드가 많았습니다. 구체적으로, 상위 15개 키워드를 보면 'good', 'like', 'much' 등 개인의 감정을 드러내는 표현이 다수 포함되어 있으며, 'performance', 'acting', 'character' 등 배우의 연기에 대한 평가를 암시하는 표현이 많고, 'end' 등 개인이 인상 깊었던 장면을 짚는 표현 또한 상당하다는 것을 알 수 있습니다. 반면 Metacritic의 평론가들의 경우, '미나리'의 리뷰를 작성함에 있어 다른 어떤 요인보다도 '감독' (혹은 '연출')에 집중하는 경향을 보입니다. 물론, 'immigrant', 'family', 'story' 등 작품의 주제를 관통하는 키워드도 다수 포함되어 있지만, 그 외에 대다수의 키워드가 감독을 의미하는 단어들이었습니다. 구체적으로 'chung', 'chungs', 'issac', 'lee' 4개의 키워드는 감독의 이름을 나타내는 표현들입니다. 다시 말해, 평론가들은 '미나리'라는 작품의 내적인 요인보다 감독 (혹은 연출)에 중점을 두고 있다고 볼 수 있습니다. 뿐만 아니라 일반 관객의 리뷰와 달리 평론가들의 리뷰에서는 '주관적인 표현'이 배제되는 경향성이 짙습니다. 실제로 상위 15개 키워드에 주관적인 표현은 찾아볼 수 없었고, 키워드가 전부 중립적인 단어들로 구성되어 있는 것을 확인할 수 있습니다. ​​ 물론 위 프로젝트는 '미나리'라는 한 작품에 대한 단편적인 분석에 불과하지만, 그럼에도 불구하고 리뷰 작성 시 영화를 바라보는 평론가들과 일반 관객의 시선 차이를 단적으로 보여준다는 점에서 의의가 있다고 할 수 있습니다.


------------


다양한 영화 리뷰 분석을 해보고 싶지만, 아직 파이썬으로 웹 데이터 크롤링을 하기엔 어려우시다고요? 스파이더킴을 사용하면 파이썬을 사용하지 않고도 영화 리뷰를 쉽게 수집할 수 있습니다.

프로그래밍을 전혀 몰라도 가능합니다.

스파이더킴으로 웹 크롤링을 시도해보시는 건 어떨까요?







Comments


bottom of page