top of page

[웹크롤링] 트럼프 vs. 바이든 : 2020 미국 대선 뉴스 기사 크롤링과 감성 분석



언론이 2020년 미국 대선 도널드 트럼프와 조 바이든의 선거 캠페인을 어떻게 다루고 있는지에 대한 유의미한 트렌드를 파악하기 위해 웹 크롤링으로 데이터를 수집해 보았습니다. 1,500개의 미국 언론사 웹사이트를 크롤링 하여 50,000건의 뉴스 기사를 수집하고 분석했습니다.


[이미지 출처 : import.io]

뉴스 기사에 대한 몇 가지 분석

2020년 9월 29일, 오하이오 주 클리블랜드에서 2020 미국 대선 1차 TV 토론이 개최되었습니다. 이 토론회에서 트럼프는 바이든에게 이렇게 이야기했습니다.

“언론은 당신에게는 우호적이지만 내게는 적대적입니다. 유감스럽게도 항상 그런 식이었죠.”

뉴스 기사를 분석해 본 결과, 이 말은 어느 정도 사실입니다. 요약해보면 트럼프는 바이든에 비해 부정적인 기사가 많았지만, 뉴스 기사 건수 기준으로 보면 5배 이상입니다. 트럼프 진영은 “나쁜 뉴스라도 많이 노출될수록 좋다”라는 전통적인 미디어 전략을 구사하고 있는 것으로 추정됩니다.


특정 사건에 따른 뉴스 기사 감성 분석 추이

트럼프, 바이든 두 후보에 대한 미디어의 태도는 “부정적 중립”이라고 할 수 있으며, 특정 사건에 따라 등락폭이 큽니다. 언론은 1차 TV 토론에 대해서는 두 후보 모두에게 부정적인 평가를 내렸습니다. 분석에 따르면 트럼프의 코로나 확진은 트럼프에 대한 긍정적인 기사가 많아지는 효과가 있었으나, 백악관에 조기 복귀한 것은 오히려 부정적인 평가를 받았습니다.


[이미지 출처 : import.io]

주요 사건 정리

- 9월 3일 (바이든 관련) : 전 공화당 소속 주지사의 바이든 공개 지지

- 9월 4일 (트럼프 관련) : 참전용사 비하 발언

- 9월 12일 (바이든 관련) : 미국 코로나 바이러스 사망자 수 인용 오류

- 9월 17일 (트럼프 관련) : 에이미 도리스의 성추행 주장

- 9월 19일 (트럼프 관련) : 전 대법관 긴즈버그에 대한 칭송

- 9월 24일 (트럼프 관련) : 대선 결과 불복 시사

- 9월 26일 (트럼프 관련) : 배럿 판사, 대법관 후보 지명

- 9월 30일 (공통) : TV토론에 대한 양 후보 공통 비판

- 10월 2일 (트럼프 관련) : 코로나 확진

- 10월 6일 (트럼프 관련) : 백악관 조기 복귀


트럼프에 대한 부정적인 언론 태도

전반적으로 트럼프에 대한 뉴스 기사는 바이든에 대한 뉴스 기사보다 부정적입니다. 게다가 트럼프에 대한 뉴스의 태도는 긍정과 부정의 진폭이 매우 큽니다.


[이미지 출처 : import.io]

뉴스 기사 분량에서는 트럼프가 우위

2020년 9월 이래로, 트럼프에 대한 뉴스 기사의 수가 바이든에 대한 것보다 2배 많습니다. 두 후보를 공통으로 언급한 뉴스를 제외하면, 트럼프만 언급한 기사가 바이든만 언급한 기사보다 5배 많은 것을 알 수 있습니다.


[이미지 출처 : import.io]

2020년 10월 첫째 주 현황

9월 29일부터 시작한 10월 첫째 주는, 대선이나 트럼프, 바이든과 관련하여 많은 수의 기사가 쏟아져 나왔다는 심리적인 경험과는 달리, 9월 4주의 평균보다 1.7배 많은 뉴스 기사가 게재되었습니다.


[이미지 출처 : import.io]

감성 분석의 방법론

트럼프, 바이든, 또는 두 후보를 모두 언급한 뉴스 기사 기초 데이터는 2020년 9월부터 2,135개의 영어권 뉴스 사이트에서 71,252건 기사를 크롤링 하는 방식으로 수집되었습니다. 미국 이외의 뉴스 웹사이트나 단순히 링크를 모은 (예를 들면 Reddit 같은 사이트) 사이트는 제외하였습니다. 이러한 과정에 의해 중복을 제외하고 총 1,571개의 미국 뉴스 웹사이트로부터 수집된 49,682건의 기사를 바탕으로 감성 분석을 진행하였습니다.


감성 분석 진행


속성 레벨 (entity-level) 감성 분석은 49,682건 기사의 제목+요약문을 대상으로 구글 자연어 API를 활용하여 진행했습니다. 먼저 텍스트에서 속성을 인식한 후 각 속성에서 감성 점수를 계산합니다. 감성 점수는 각 뉴스 문장에서 그 속성이 얼마나 긍정적인가 또는 얼마나 부정적인가의 등급을 매기고 -1 (부정 방향)과 1 (긍정 방향) 사이의 십진법 숫자로 수치화됩니다. 트럼프에게는 부정적이고 바이든에게는 긍정적인 아래의 뉴스 제목과 요약문의 경우를 예로 들어 보겠습니다.


[이미지 출처 : import.io]

구글 자연어 API는 트럼프와 바이든이 언급된 위 뉴스 기사에서 트럼프는 매우 부정적인 것 (도덕적인 절제가 없는 불량배)으로, 바이든은 중립에 가까운 긍정 (예의를 회복시킬 것)으로 판별하고 있습니다.

(구글 자연어 API는 위키피디아를 속성 메타데이터로 활용하고 있습니다. 유사한 url로 인한 혼란을 회피하기 위해 

트럼프는 https://en.wikipedia.org/wiki/Donald_Trump 내용만, 

바이든은 https://en.wikipedia.org/wiki/Joe_Biden 의 내용만, 속성 및 관련 감성 점수 계산에 활용합니다)


뉴스 출처의 선택

사람의 편향이 반영되는 것을 방지하기 위해, 뉴스 출처의 선택은 임의적으로 이루어지도록 했습니다. 대신에 소셜 미디어와 뉴스 편집 사이트를 모니터링하여 기존 뉴스 출처와는 다른 새로운 기사가 발견되면 이를 분석에 포함시켰습니다. 소셜 미디어와 뉴스 편집 사이트에서 트럼프와 바이든이 언급된 기사를 크롤링하는 것은 기존 뉴스 기사 데이터를 보완하는 좋은 방식이라는 것이 저희 판단입니다.

개별 언론사가 특정 후보에 대한 긍정 또는 부정 태도를 갖고 있다는 것이 금번 분석의 잠정적 결론 중의 하나입니다. 뉴욕 타임스, 폭스 뉴스, 블룸버그가 두 후보에 대해 어떤 태도를 보이는지 아래 차트를 통해 확인할 수 있습니다.

[이미지 출처 : import.io]


데이터셋


최종 데이터셋은 아래 이미지와 같이 샘플을 확인할 수 있고, 다음의 링크에서 엑셀 파일로 다운로드 할 수 있습니다.


[이미지 출처 : import.io]





Comments


bottom of page