서론
세계 최대 비디오 스트리밍 서비스 기업, 넷플릭스! 다들 이용하고 계시죠? 넷플릭스는 2019년 당시 7,787개 이상의 콘텐츠를 보유하고 있으며 전세계 1억 3천 5백만 명의 유료 고객들과 계약을 맺었다고 발표한 바 있는데요. 많은 사람들이 넷플릭스를 이용하고 있는 만큼, 수 년간의 넷플릭스 트렌드를 파악하는 것은 곧 현대인들의 트렌드를 파악할 수 있는 방법이라 여겨집니다. 따라서 이번 글에서는 넷플릭스 영화와 TV 쇼 타이틀의 데이터 세트를 분석해 몇 년 동안 어떤 경향이 있었는지 알아보려 합니다. 이 글을 통해 넷플릭스가 어떠한 방식으로 빅데이터를 수집, 분석하고 사용자 기반 서비스를 확장해왔는지 알 수 있을 것입니다.
데이터 세트
데이터세트는 데이터 분석 플랫폼인 kaggle에서 획득했으며 추가적으로 다양한 변수를 포함했는데요. 영화 및 TV 프로그램의 제목과 함께 감독, 출연진, 날짜, 개봉 연도, 설명, 기간 등을 추가했습니다. 이러한 변수를 사용하여 보다 다양하게 관찰하고 시각화 결과를 만들 수 있었습니다.
분석
이 차트를 보면 영화 제목 수가 TV쇼보다 더 많은 것을 알 수 있습니다. 하지만 2020년이 다가오면서, 영화 개수는 떨어지고 TV쇼가 증가합니다. 왜 그럴까요?
유력한 원인 중 하나는 바로 코로나19의 유행입니다. 코로나19의 유행으로 인해 영화산업이 축소된 것이죠. 또 동시에 넷플릭스 오리지널 시리즈는 흥행하면서 TV쇼는 확대된 것으로 분석해볼 수 있어요.
이 두 차트는 2010년부터 2020년까지 매달 추가된 콘텐츠 수와 월 평균 타이틀 수를 보여줍니다. 보시다시피, 2월에 추가된 콘텐츠의 양이 제일 적으며, 10월이 가장 많습니다.
이 box plot에서는 상위 11개국의 넷플릭스 영화 상영시간을 볼 수 있습니다. 주목할 만한 것은 2001년 119분에서 2020년 90분으로 수 년동안 평균 상영시간이 감소했다는 것입니다.
이 차트에서는 등급별 영화/TV쇼 제목 수와 출연진의 반복 횟수를 볼 수 있습니다. R등급의 영화와 발리우드 배우들이 많이 나타나고 있는 것을 볼 수 있네요.
넷플릭스 제목에서 가장 많이 나타난 단어들을 워드클라우드로 만들어보면 다음과 같습니다. 사랑과 크리스마스에 관한 주제가 많은게 눈에 띄네요!
결론
넷플릭스가 성공한 핵심 요인 중 하나는 바로 빅데이터의 활용에 있습니다. 고객의 이용 정보 및 패턴을 수집하고, 그들이 다음엔 무슨 콘텐츠를 보면 좋을지 추천해주죠. 넷플릭스는 이러한 형태의 데이터 수집 및 분석을 계속 진행함으로써 매년 더 발전할 수 있었습니다. 세계 어느 지역에 어떤 콘텐츠를 추가할지 파악하고, 계속해서 사용자 기반 서비스를 향상시키는 데 있어 그들이 수집한 빅데이터는 매우 중요하게 작용했을 것입니다.
데이터 활용, 넷플릭스 같은 기업만 가능하다고요? 아닙니다! 우리도 충분히 많은 양의 데이터를 수집하고, 이를 분석해 다양한 분야에 적용할 수 있습니다. 스파이더킴에서 원하는 정보를 빠르게 수집해보세요!
출처: nycdatascience https://nycdatascience.com/blog/r/eda-on-netflix/
Comments