오늘날 뉴스는 가장 풍부하고 중요한 데이터의 한 종류라 해도 과언이 아닐 것입니다.
미국 주요 언론사의 헤드라인을 크롤링으로 수집하고, 자연어 처리 기법을 통해 가공하여, 어떤 언론사가 어떤 주제를 다루는지 비교 분석한 사례를 소개합니다.
기간 : 2022년 8월 11일부터 2022년 8월 18일까지
헤드라인 : 1,387건
언론사 : 9개
- 진보 성향 : CNN, NBC News, New York Times, Washington Post
- 보수 성향 : Fox News, Washington Times, Washington Examiner
- 중도 성향 : Wall Street Journal, Reuters
구축된 데이터 셋의 예시는 아래와 같습니다. 헤드라인이 상단, 중간, 하단에 위치하는 정도에 따라 가중치를 적용하여 각 헤드라인에 주목도 점수 (attention score)를 부여했습니다.
아래의 시각화 결과물은 주제별 기사 수 비율, 각 주제에 대한 언론사별 기사 수 비율을 잘 보여 줍니다.
첫 번째 그래프는 9개 언론사 전체에서 가장 많은 기사로 다루어진 주제가 살만 루시디 피습에 관한 것임을 보여줍니다. 두 번째 그래프는 살만 루시디 피습에 대해 가장 많은 기사로 다룬 로이터를 비롯하여 9개 중 8개 언론사가 공통적으로 이 주제를 비중 있게 다루고 있음을 보여줍니다.
언론사의 성향에 따라, 각 언론사가 어떤 주제를 비중 있게 다루는지 주목도 점수를 통해 비교 분석한 결과입니다.
[1] 강성 진보 성향의 CNN (짙은 블루)과 강성 보수 성향의 Fox News (짙은 레드)를 비교한 그래프입니다. 양 사가 FBI의 트럼프 전 대통령 마러라고 자택 압수수색과 살만 루시디 피습에 대해서는 공통적으로 다루고 있지만, 그 외에는 양 사가 비중 있게 다루는 주제가 확연히 다름을 알 수 있습니다.
[2] 온건 진보 성향의 New York Times (옅은 블루)와 중도 및 온건 보수 성향의 Wall Street Journal (옅은 레드)을 비교한 그래프입니다. New York Times는 친 민주당, 반 트럼프 성향의 주제를, Wall Street Journal은 투자 수익이나 아람코의 석유가격 등과 같은 경제적인 주제를 비중 있게 다루고 있음을 알 수 있습니다.
[3] 강성 진보 성향의 CNN (짙은 블루)과 온건 진보 성향의 New York Times (옅은 블루)를 비교한 그래프입니다. 양 사가 모두 진보 성향의 언론사이지만, CNN은 친 민주당, 반 공화당 성향의 주제에 집중하는 반면, New York Times는 대법원의 낙태권 폐기, 민주당의 기후변화 사회정책 법안, 우크라이나 전쟁 등의 주제도 다루고 있음을 알 수 있습니다.
[4] 강성 보수 성향의 Fox News (짙은 레드)와 중도 및 온건 보수 성향의 Wall Street Journal (옅은 레드)을 비교한 그래프입니다. 양 사가 모두 보수 성향의 언론사이지만, Fox News는 주로 정치적인 주제에, Wall Street Journal은 주로 경제적인 주제에 집중하고 있음을 알 수 있습니다. Fox News가 엘비스 프레슬리에 대한 신간 소개, Wall Street Journal이 WWE 최고 경영자 빈스 맥마흔을 다루고 있는 점도 흥미롭습니다.
마지막으로 각 언론사가 얼마나 다양한 주제를 기사로 다루고 있는지를 측정한 다양성 점수 (News Coverage Divergence Score)를 시각화한 그래프입니다. 중도 또는 보수 성향의 Wall Street Journal, Washington Times, Reuters, Fox News가 진보 성향의 언론사보다 상대적으로 다양한 주제를 기사로 다루는 것으로 평가되었습니다.
다소 막연했던 언론사의 성향과 어젠다 세팅이 데이터 분석을 통해 더욱 명확해졌습니다. 독자들이 세상을 보는 시각도 한층 넓어질 것으로 기대합니다. 뉴스 데이터의 수집과 분석은 유펜솔루션과 상의해 주세요!
(본 포스팅은 https://www.reddit.com/r/dataisbeautiful/comments/wrn6xp/oc_topic_coverage_comparison_for_nytimes_vs_wsj/ 의 데이터, 분석 기법, 시각화 결과물을 활용하여 재구성하였습니다.)
Comments