소개
코로나19 팬데믹은 우리가 기존에 알고 있던 세상을 변화시켰습니다. 2년 넘게 생물학자, 데이터 과학자, 정치인 및 기타 많은 사람이 바이러스를 억제하고 확산을 막거나 줄이기 위해 노력해 왔습니다. 이러한 노력은 봉쇄, 마스크 의무화, 백신 등, 광범위한 연구의 형태로 이루어졌습니다. 이 연구 중 일부는 바이러스 확산과 특정 인구 통계 사이에 상관관계가 있는지를 확인하기 위해 여러 지역 및 도시의 인구 통계 분석을 포함했습니다. 그리고 이러한 잠재적인 관계를 더 자세히 연구하기 위해 R의 탐색적 데이터 분석(EDA) 기술을 사용하고 Shiny를 사용하여 연구 결과를 표시하고 사용자가 이를 검토할 수 있는 대화형 앱을 만들기 위해 미국의 뉴저지주를 선택해 분석을 진행했습니다.
데이터 (The Data)
먼저 Act Now Coalition에서 주(State)와 카운티(County) 분류로 뉴저지의 COVID-19 시계열 데이터를 얻었습니다. 데이터 수집은 2020년 3월 1일에 시작되었으며 이후 매일 업데이트를 통해 진행했습니다. 파일에는 2022년 3월 1일까지의 데이터가 포함되어 있어 정확히 2년 치 분량의 COVID-19 데이터를 분석할 수 있었습니다. 데이터 세트에는 검사 양성 비율과 사례 밀도, 예방 접종률, 잠재적 위험 수준 등에 이르기까지 필요로 했던 것보다 더 많은 변수의 데이터가 포함되어 있었습니다. 첫 데이터를 수집하며 가지고 있던 질문에 가장 적합하기 위해 감염률, 예방 접종 개시 비율, 완전 예방 접종 비율, 완전 예방 접종 및 부스트 비율, 1,000명당 총사례, 1,000명당 사망자 수 등 총 6개의 COVID-19 통계 데이터로 좁혀왔습니다.
그다음으로는 2020년 인구 조사에서 ‘뉴저지 인구 통계’ 데이터가 포함된 Kaggle의 데이터 세트를 찾았습니다. 이전 데이터 세트와 마찬가지로 이 데이터 세트에는 한 프로젝트에 사용할 수 있는 것보다 더 많은 인구 통계 정보가 있었기에 선택 범위를 좁혀야 했습니다. 그래서 다시 한번 6가지의 통계 데이터를 선택하여 고등학교 졸업자 비율, 학사 학위를 소지한 25세 이상의 성인 비율, 건강 보험이 없는 비율, 가계 중위 소득, 빈곤율, 그리고 인구 밀도 비율로 정하게 되었습니다.
분석 (Analysis)
다양한 인구통계학적 데이터와 COVID-19 통계 간의 상관관계를 확인하기 위해 x축에 인구통계학적 값을 배치, y축에는 COVID-19 통계가 있는 대화형 산점도를 배치하여 만들었습니다. 또한 그래프 위에 상관 계수를 인쇄하여 사용자가 값들의 관계를 그래픽으로 볼 수 있도록 하고, 선형 관계가 얼마나 강한지 알려주는 메트릭도 제공했으며, 사용자가 서로 다른 변수 간에 생성할 수 있는 총 36개의 다른 산점도 또한 제공했습니다.
매우 강한 상관관계 (Very Strong Correlation)
모든 산점도 중에서 가장 강력한 선형 상관관계는 코로나19 추가 예방접종을 받은 인구 비율과 학사 학위를 보유한 25세 이상의 성인 비율 사이였습니다. 그래프를 보면 두 변수 사이에 양의 선형 상관관계가 있음을 알 수 있습니다. Pearson 상관 계수는 0.904로 매우 강한 양의 상관 관계를 나타냅니다. 학사 학위를 가진 성인의 비율은 예방접종을 시작한 인구의 비율 및 완전히 예방접종을 받은 비율과 강한 상관관계가 있었고, 부스터와 관련해서는 그 상관관계가 더욱 강해졌습니다. 학사 학위가 있는 것이 추가 예방 주사를 맞도록 하는 직접적인 원인은 아닐 가능성이 크므로 우리는 이 상관관계로 이어지는 다른 기본 요인이 있다고 가정할 수 있었습니다.
강한 상관관계 (Strong Correlation)
앞의 예시만큼 강력하지는 않지만 총 COVID-19 사망자와 건강 보험이 없는 인구 비율 사이에는 상관관계가 있었습니다. 위의 그래프를 보면 무보험자 비율이 증가할수록 1,000명당 사망률도 함께 증가함을 알 수 있습니다. 상관 계수는 0.779로 변수 간의 강한 양의 선형 관계를 나타냅니다. 또한 건강 보험이 없는 전체 사례와 비율 사이에는 강한 양의 선형 관계가 있었습니다. 다른 인구통계학적 통계에서 전체 사례와 선형 관계가 있을 때는 총사망자와 짝을 형성할 때 관계가 더 강해졌으며 건강 보험이 없는 비율도 같았습니다. 건강 보험이 없는 것이 사망률 증가의 직접적인 원인이라는 증거는 없었지만, 추측할 수 있었습니다. 그리고 이러한 상관관계에 영향을 주는 다른 기본 요인도 있을 가능성이 큽니다.
약한 상관관계
모든 인구통계에서 COVID 통계와 상관관계가 없는 것은 바로 인구밀도였습니다. 예를 들어, 위 그림과 같이 총사례 대 인구밀도를 보았을 때 실질적인 선형 회귀는 없었습니다. 상관 계수는 0.282로 약하게 선형 관계를 나타냈습니다. Hudson 카운티가 약간 이상하다는 점은 주목할 가치가 있습니다, 왜냐하면 인구밀도는 다음으로 높은 카운티보다 두 배 이상이므로, Hudson 카운티의 극도로 높은 인구밀도가 아니었다면 더 강했을 수 있는 선형 회귀를 최소화할 수 있었습니다.
요약
위의 표는 모든 인구통계학적 통계와 COVID 19 통계 사이의 상관관계 매트릭스 그리고 각 선형 상관관계의 강도를 표시한 표입니다. 보시다시피 가장 강력한 상관관계는 코로나바이러스 부스터샷 통계입니다. 일반적으로 코로나19 환자와 사망률은 건강보험이 없는 인구의 비율이 증가할수록 증가하는 반면, 중위 가구 소득은 증가할수록 환자 및 사망률이 감소했습니다. 마찬가지로 사망률은 빈곤 인구의 비율이 증가할수록 증가하고 성인의 고등학교 졸업 비율이 증가할수록 감소했습니다.
또한, 성인중 학사 학위 소지자 비율이 증가함에 따라 백신 예방 접종자, 백신 접종 완료자, 그리고 추가 백신 접종자의 인구 비율이 증가하게 되었습니다. 또한, 고등학교 졸업 성인 비율이 증가하거나, 가계 중위 소득이 증가할때 추가 접종 인구 비율은 증가했지만 반대로 저소득층 인구 비율이 증가할수록 백신접종률은 감소했습니다. 이로써, 인구 밀도와 감염률이 다른 통계와 강한 상관관계가 없다는것을 알게되었습니다.
추가 분석
더 많은 시간과 데이터가 주어진다면 인종 및 정치 성향에 따른 사례, 사망률 및 예방 접종률을 분석하고, 비교하며, 다른 주의 카운티를 연구하여 인구 통계와 COVID-19 통계 간의 연관성을 국가 차원에서 계속 연구할 것 같습니다.
코로나는 우리가 기존에 알고 있던 세상을 많이 변화시켰습니다. 하지만 그긴 2년이란 시간도 이제 마지막을 향해 가는 것 같아 기대가 큰 거 같습니다. 코로나의 영향으로 기존 우리 삶 속에서 찾을 수있었던 데이터들도 많이 변했습니다. 변화된 데이터 그리고 새로운 데이터를 바탕으로 연구해보는건 어떨까요? 스파이더킴을 통해 간편하게 원하는 데이터를 수집해보세요!
Comments