현재 출판 시장에서 독자들의 가장 큰 관심 분야는 무엇일까요? 출판사는 도서 가격을 얼마로 책정하는 것이 적당할까요? 어떤 제목이 독자들의 구매욕을 자극할 수 있을까요? 이 모든 것을 알기 위해서는 먼저 출판 시장의 트렌드를 분석해야 합니다.
| 스파이더킴으로 웹 크롤링 하기
먼저 '스파이더킴'을 활용하여 YES24 국내 도서 베스트셀러의 제목, 저자, 출판사, 가격 그리고 카테고리를 웹 크롤링 하였습니다.
결과물은 엑셀 파일로 다운로드했습니다.
| 데이터 분석 및 시각화
이번 프로젝트에서는 베스트셀러 100권의 카테고리별 개수를 확인해보고, 현재 독자들이 어떤 분야에 많은 관심을 보이는지 트렌드를 살펴볼 것입니다. 또한 도서 가격의 분포와 베스트셀러의 책 제목으로 어떤 단어들이 많이 사용되는지도 분석한다면 책을 출판할 때 많은 도움이 될 것입니다. 분석과 결과물 도출은 모두 Python으로 진행했습니다. 먼저, 각 카테고리 별 베스트셀러의 개수를 그래프로 시각화해 보았습니다. 경제/경영 분야가 28권으로 25% 이상의 비율을 차지했습니다. 다음으로는 에세이, 소설/시/희곡, 국어/외국어 사전 분야에 베스트셀러가 많았습니다. 이 결과를 통해 현재 독자들이 가장 관심있어 하는 분야는 경제/경영 분야임을 확인할 수 있었습니다.
다음으로는 책의 가격 분포를 시각화해보았습니다.
베스트셀러 100권의 평균 가격은 16,927원으로 나타났지만 box plot을 벗어나는 이상치들이 존재하기 때문에 평균보다 중위수인 15,900원이 더 의미 있는 수치라고 판단했습니다. 따라서 베스트셀러 100권을 바탕으로 분석한 결과, 평균 도서 가격은 15,900원임을 알 수 있습니다.
더 자세한 분포를 알기 위해서 도서 카테고리별 산점도를 그려보았습니다.
밀집도를 용이하게 파악하기 위해 점의 투명도를 낮춰 진행했습니다. 점이 진할수록 더 많은 책들이 분포한다는 것이고 각 카테고리별로 가격의 분포를 파악할 수 있기 때문에 가격을 산정하는 데에 이 분포가 유용하게 쓰일 것입니다.
마지막으로 베스트셀러의 제목에는 어떤 단어들이 많이 쓰이는지 살펴보기 위해서 도서 제목으로 워드클라우드를 구성해보았습니다.
“토익”, “해커스”와 같은 학습서가 꾸준히 판매되는 것들을 고려하면 “나의”, “돈의”, “부의”가 높은 빈도수를 보였습니다.
각 단어를 포함한 책의 제목들을 확인해 보았습니다.
먼저 “나의 첫 투자 수업”, “나의 하루는 4시 30분에 시작된다”, “나의 한국현대사 1959-2020”과 같이 자신의 경험, 이야기를 독자들에게 전달해 주는 것을 강조하는 제목이 많았습니다. 또한 “돈의 시나리오”, “돈의 속성”, “부의 진리”, “부의 추월차선” 과 같이 돈과 부를 짧고 간결하게 강조하는 제목도 많이 사용되었습니다.
이 결과물은 독자들의 관심을 사로잡을만한 책 제목을 결정하는 데에 용이하게 사용할 수 있을 것이라고 생각합니다.
위 프로젝트는 책을 출판하기 전 트렌드를 파악하고, 가격을 산정하고, 제목을 결정하는 데에 웹 크롤링 기술이 선행된다는 것을 보여줍니다.
스파이더킴 서비스를 통해 평소에 궁금하던 정보들을 쉽게 도출해 보시기를 바랍니다.
Comments