서론
어렸을 때 포켓몬, 다들 한번쯤은 보셨죠? 시즌을 거듭하면서 수많은 포켓몬들이 등장했는데요! 포켓몬 도감에 몇 마리의 포켓몬이 등록되있는지, 어떤 타입의 포켓몬이 가장 많은지, 여러 가지 궁금증이 생긴 적은 없으셨나요? 지금부터 포켓몬 도감을 분석해서 여러 이야기를 나눠봅시다.
데이터 수집
Pokemon Database에 있는 800개의 포켓몬을 대상으로 프로젝트를 진행했습니다.
[참고 : https://pokemondb.net/pokedex/all ]
Null, 즉 결측치가 Type 2에서 386이 나왔는데요. 이는 2가지 타입(속성)을 가진 포켓몬도 있지만 단일 타입의 포켓몬도 있기 때문입니다. 우리 데이터에서 단일 타입의 포켓몬이 386개라는 거죠. 예를 들어 이상해씨는 독, 풀 타입 포켓몬으로 두가지 타입에 속합니다. 한편 파이리는 불 타입, 피카츄는 전기 타입으로 단일 속성이죠. 그래서 이 type 2의 결측치는 오류가 아니므로 type 1과 같은 값을 복사하고 분석을 하겠습니다.
어떤 타입이 가장 흔할까?
포켓몬 세계에서 어떤 타입이 가장 흔하고, 또 어떤 타입이 가장 희귀할까요? 주요 타입인 타입1의 비율을 측정해보았습니다.
물(water) 속성이 15.5%로 가장 흔하고 비행(flying) 속성이 0.5%로 가장 희귀했습니다. 비행 속성의 경우 단일 속성이 비행이거나 1속성이 비행인 경우가 흔치 않았고 주로 2속성으로 표시되는 속성이기 때문이었는데요. 우리가 잘 아는 리자몽, 쥬뱃 같은 포켓몬도 타입2가 비행 타입이랍니다.
상관관계 분석하기
각 포켓몬에게는 고유의 스택이 있습니다. Hp, 공격력, 방어력, 스피드 등에 해당하는 점수를 합산하여 total 값이 부여되는 데요. 카테고리 간의 상관관계를 분석해봅시다!
_Attack(공격력), Defense(방어력), Sp.Atk(특수공격력), Sp.Def(특수방어력), Generation(세대)
HP-공격력, 공격력-방어력, 방어력-특수방어력, 특수공격력-특수방어력, 특수공격력-스피드 등의 상관관계 값이 0.4 이상으로 유의미한 상관관계를 갖고 있습니다. Hp가 높으면 공격력도 높을 수 있다는 것을 의미합니다.
그래프를 이용한 다양한 분석
‘matplotlip’이라는 시각화 툴을 이용해 여러 분석을 해 볼 수 있었습니다.
1, 2번 그래프는 타입 별 점수 분포도입니다. 드래곤 타입은 평균적으로 높은 점수, 벌레 타입은 낮은 점수네요. 아무래도 드래곤 타입에 전설의 포켓몬이나 강한 포켓몬이 많기 때문이겠죠. 3번 그래프는 타입 별 방어력 점수 분포도인데요. 역시 강철/바위 타입이 비교할 수 없는 높은 방어력을 자랑하네요.
세대별로 분석
1-3세대보다 4-6세대 때 점수 평균값이 많이 올라갔습니다. 하지만 전 세대에 걸쳐 고르게 값이 분포되어 있고, 편차가 큰 세대가 보이지 않는걸 보니 제작사에서 아직까지 세심하게 관리를 하는 것 같습니다.
위 그래프는 세대별 타입 분포도인데요. 6세대 때 출시된 포켓몬 수가 적어져 전체적으로 하향하는 그래프입니다. 다만 이 특이점을 제외하고도 물 타입의 점유율은 낮아지고 풀 타입은 높아진다는 것을 확인할 수 있었습니다.
결론
포켓몬도감을 데이터로 분석한 걸 보니 느낌이 또 색다르죠? 어떤 관심사든 데이터만 모을 수 있다면 재미있는 분석결과를 도출해볼 수 있답니다. 여러분도 ‘스파이더킴’ 홈페이지를 방문해 원하는 데이터를 수집하고 이를 분석하는 재미를 느껴보세요!
[출처 : https://medium.com/deep-dive-into-exploratory-data-analysis/eda-pokemon-visualization-58102b68e2d7 ]
데이터를 바탕으로 연구해보고 싶은 분야가 있으신가요? 스파이더킴을 통해 간편하게 원하는 데이터를 수집해보세요!
Comments