top of page

[데이터 분석] 트위터 해시태그를 통한 코로나 이후 아시안 혐오 범죄 인식 추세 분석


코로나 이후, 아시안에 대한 반감과 혐오가 온-오프라인 모두에서 노골화되면서 언어폭력을 넘어선 물리적 폭력, 즉 혐오 범죄가 전 세계 곳곳에서 자행되고 있습니다.

코로나 창궐 직후 시작되었던 여러 형태의 혐오 범죄들은 2020년 말을 거치며 격심해졌고, 2021년 초부터 이와 같은 현실에 경각심을 촉구하며 영미권을 중심으로 #StopAsianHate #StopAPPIHate라는 해시태그가 등장하기 시작했습니다.

이번 포스팅에서는 #StopAsianHate #StopAPPIHate을 중심으로 아시안 혐오 범죄에 대한 트위터리안들의 인식 추세를 다각적으로 분석해보도록 하겠습니다.



| 주요 방법론 개괄


1. 데이터 수집


#StopAsianHate, #StopAPPIHate 가 포함된 트윗을 월별로 구분해 크롤링 합니다. 월별로 구분해 크롤링을 하는 이유는 여론 변화의 흐름을 더 잘 보기 위해서입니다.

구체적으로 아래와 같은 수의 트윗들을 크롤링 하였습니다.




2. 텍스트 전처리


이 경우 텍스트는 '트윗'이라는 특수한 형태를 가진다. 트윗에는 링크, 해시태그, 계정명 등 다른 텍스트와는 다른 요소를 포함하고 있고, 따라서 일반적인 방식으로 특수문자를 모두 제거하는 등의 데이터 정제 과정을 거치면 의미가 훼손될 가능성이 있다고 판단하였다.

그러한 이유로 본 프로젝트에서는 # , @ 등 트위터에서 사용하는 고유의 특수문자들은 제거하지 않은 상태에서 트윗에 적합한 토큰화 방식을 제공하는 NLTK의 twittertokenize 모듈을 사용해 토큰화를 진행하였으며, 그 결과물을 NLTK의 WordNetLemmatizer을 사용해 표제어 추출해 주었습니다.

또한, 모듈을 사용하여 불용어를 제거해 주지 않고, 정규 표현식을 활용하여 3글자 이하의 짧은 단어들만을 제거해 주었습니다.

3. 텍스트 분석


'감정 분석', '워드 클라우드와 빈도수 분석', '언어 detection 및 언어권 분포 분석' 등 간단한 텍스트 분석을 진행한다.



-------



​(위 해시태그를 포함한 트윗은 2월부터 본격적으로 등장한 듯합니다. 1월 데이터를 크롤링 했을 때 빈 리스트가 나타났습니다.)


1. 빈도수 분석



2. 워드클라우드



2월의 경우, 영어와 더불어 독일어와 한국어가 유독 눈에 띕니다. 참고로 'sind gegen' 은 독일어로 '반대하다'라는 뜻이고, rassismus는 '인종주의'라는 뜻입니다. (2021년 2월에는 Bayern3 라디오 진행자가 BTS에 대한 인종차별 발언을 해 이슈가 되었습니다. https://www.yna.co.kr/view/AKR20210226131800009?input=1195m


이에 따라 BTS의 팬들을 중심으로 Bayern3의 사과를 촉구하는 목소리가 높아졌던 바 있습니다. 빈도수 분석과 워드 클라우드에서 확인할 수 있는 다수의 독일어 단어들과, @Bayern3 계정은 그런 이슈가 반영된 결과가 아닐까 생각합니다.




3월의 경우, #StopAsianHate , #StopAPPIHate 와 더불어 #StopAsianHateCrime이라는 해시태그가 등장하는 것을 확인할 수 있었습니다. 또한, 'copiem colem tag abaixo marque máximo pessoas possíveis'이라는 포르투갈어 구절이 토큰화된 것이 눈에 띕니다. 이는 '가능한 최대 인원 표시 아래에 태그 복사 붙여 넣기'라는 의미이다. 아마 #StopAsianHate라는 해시태그를 널리 퍼뜨리기 위한 트윗이 아니었을까 생각합니다. 왜 유독 포르투갈어 트윗이 많이 감지된 것인지 원인을 규명하려 했으나 명확한 원인을 찾지는 못하였습니다.


- #StopAsianHate - 4월


4월의 경우,

'@bts_twt'가 눈에 띕니다. 3월 30일, BTS는 공식 계정을 통해 아시안 혐오 반대 트윗을 올린 바 있습니다.



이때 #StopAsianHate , #StopAPPIHate 두 해시태그 모두를 사용하면서, 위 해시태그들과 함께 BTS의 공식 계정을 멘션한 팬들의 트윗이 급증한 것으로 보입니다.

3. 감정 분석



감정 분석을 위해 활용한 모듈인 vaderSentiment의 최종 점수가 compound인데, compound 값이 0.05 이상이면 긍정, 0.05보다 작고 -0.05보다 크면 중립, -0.05보다 작으면 부정으로 판단합니다.

위 결과를 통해, #StopAsianHate 이 포함된 트윗들의 compound 수치가 꾸준히 -1에 수렴하는 수치임을 확인할 수 있습니다. 또한 이는 #StopAsianHate 가 포함된 트윗들에 주로 부정 감정이 실려있음을 보여줍니다.



4. 언어 detection - 언어권 분포


- 2월-3


-3월


-4월



언어 분포를 그래프로 나타내보았습니다. 구체적인 지표 하나하나를 보지 않더라도, 감지된 언어의 수가 점점 증가함을 알 수 있습니다.




언어권 분포를 알아보기 위해 100개 이상의 트윗이 작성된 언어 리스트와, 전체 언어 중 영어가 차지하는 비율을 계산해보았습니다.구체적인 지표로, 감지된 언어의 수가 점점 증가함을 확인할 수 있습니다.


---------



​(위 해시태그는 1월에 존재하기는 하였으나, 크게 확산되진 않은 상태였던 것으로 보입니다.)


1. 빈도수 분석



2. 워드클라우드


-#StopAPPIHate - 1월


1월의 경우,

워드클라우드에 APPI 자체에 대한 설명 키워드가 많음을 알 수 있습니다(참고로 APPI는 Asian American and Pacific Islander의 준말입니다).

실제로 #StopAPPIHate 가 포함된 1월 트윗들을 보면, #StopAPPIHate를 하나의 캠페인으로 진행하고자 하는 움직임을 확인할 수 있습니다.

구체적으로, 'Hate against Asian American Pacific Islander AAPI populations have risen during the COVID19 pandemic. Together we can stop it. Learn how and report a hate incident in your language at https://t.co/rkkiQQDv6d #Respond2Racism #StopAAPIHate https://t.co/xzyCMc7aWk'과 같은 내용의 트윗이 반복적으로 올라온 것을 확인할 수 있었습니다.

이런 내용의 트윗은 유저들이 자연스럽게 올린 트윗이라고는 생각하기 어렵습니다. 오히려, 목적성을 가지고 해시태그의 확산을 위해 노력한 결과라고 보는 것이 자연스럽습니다.



- #StopAPPIHate - 2월


2월의 경우,

워드클라우드 군데군데에 한국어 단어들이 포진되어 있는 것과, #neinzurassismus라는 독일어 해시태그가 빈도수 상위에 랭크되어있는 것을 통해 독일 Bayern3의 인종차별 이슈와 연관됨을 파악할 수 있으나, #StopAsianHate의 경우보다는 'American', 'community' 등 미국 국내의 상황과 연관되는 키워드들이 많음을 확인할 수 있습니다.

아무래도 APPI라는 용어 자체가 Asian American and Pacific Islander의 준말이다 보니, 다소 국지적으로 쓰일 수밖에 없다는 한계가 있는 듯합니다.



- #StopAPPIHate - 3월


3월의 경우에도,

워드 클라우드 곳곳에서 'american', 'asian american' 등 미국 국내의 상황과 연관되는 키워드들이 많음을 확인할 수 있습니다. 또한 #StopAsianHateCrime이라는 해시태그가 등장하기 시작하는 것도 확인할 수 있습니다.



-#StopAPPIHate - 4월


4월의 경우, ​#StopAsianHate의 경우와 동일하게, @bts_twt가 눈에 띕니다. 3월 30일, BTS가 올린 아시안 혐오 반대 트윗에서 #StopAsianHate , #StopAPPIHate 두 해시태그 모두를 사용했기에 위 해시태그들과 함께 BTS의 공식 계정을 멘션한 팬들의 트윗이 급증한 것으로 보입니다. 3. 감정 분석


위에서 언급했듯, vaderSentiment에서는 compound 값이 0.05 이상이면 긍정, 0.05보다 작고 -0.05보다 크면 중립, -0.05보다 작으면 부정으로 판단합니다. 위 결과를 통해, #StopAPPIHate 이 포함된 트윗들의 compound 수치가 꾸준히 -1에 수렴하는 수치임을 확인할 수 있습니다. 또한 이는 #StopAPPIHate 가 포함된 트윗들에 주로 부정 감정이 실려있음을 보여줍니다. 4. 언어 detection - 언어권 분포



-1월


-2월


-3월




-4월




구체적인 지표 하나하나를 보지 않더라도, 감지된 언어의 수가 점점 증가함을 알 수 있습니다.




언어권 분포를 알아보기 위해 100개 이상의 트윗이 작성된 언어 리스트와, 전체 언어 중 영어가 차지하는 비율을 계산해보았습니다(다만, 1월과 2월의 데이터 수가 적었기 때문에 1월과 2월은 50개 이상 트윗 3월과 4월은 100개 이상 트윗이 작성된 언어를 추려내었습니다).

구체적인 지표로, 미국에서만 쓰였던 국지적인 해시태그가 점차 세계적으로 쓰이기 시작함을 알 수 있었습니다.



| 결론


1. 빈도수 분석

월 별 빈도수 분석을 통해 알 수 있었던 것은, 각 달에 가장 이슈가 되었던 아시안 혐오 범죄 이슈였습니다.

2월에 있었던 BTS를 향한 Bayern3 라디오 진행자의 인종차별 발언, 그리고 3월 30일 BTS가 올린 아시안 혐오 범죄 반대 트윗이 두 이슈에 대한 사람들의 반응이 빈도수 분석과 워드 클라우드를 통해 여실히 드러났습니다.

2. 감정 분석




#StopAPPIHate #StopAsianHate의 positive, nagative, neutral 항목 모두 시간에 따른 지표 변화는 거의 없습니다.


다만, 전체적인 감정 분석을 해보았을 때, #StopAPPIHate #StopAsianHate의 compound 수치가

꾸준히 -1에 수렴하는 수치임을 확인할 수 있습니다.

이는 #StopAPPIHate #StopAsianHate 가 포함된 트윗들에 주로 부정 감정이 실려있음을 드러냅니다.


3. 언어권 분포 분석


위 두 그래프를 통해 #StopAPPIHate#StopAsianHate를 태그한 트윗들의 언어가 시간이 지남에 따라 다양화되었음을 알 수 있습니다.




| 시사점


수집한 데이터 수가 50만 건이 채 안 되기 때문에 유의미한 인사이트를 얻는 데에는 한계가 있으나, 위 분석 결과는 코로나 이후 아시안 혐오 범죄 이슈들이 해당 해시태그들과 함께 빠르게 퍼져나간다는 점, 본래 영어권에서 시작된 해시태그가 전 세계 곳곳에서 쓰이기 시작했다는 점, 그리고 대다수의 트윗에 부정적인 감정이 실려있다는 점에서 '코로나 이후 아시안 혐오 범죄'라는 이슈가 세계 각국에서 공론화되고 있고, 해당 사안의 심각성이 인식되고 있다고 해석할 수 있습니다.

트위터 해시태그를 이용하여 다양한 사회 현안을 분석하고 싶으시다면, 스파이더킴을 이용해 보다 쉽게 트위터 데이터를 수집해보세요!







Yorumlar


bottom of page