웹 크롤링하는 한과장
'오픈마켓에서 어떤 강아지 사료를 팔면 좋을까?'
웹 크롤링을 활용한 시장조사
어느날 한과장은
자신이 키우는 강아지 토니가 사료를 먹는 모습을 보며 생각한다.
우리 토니를 모델로 하는 강아지 사료를 만들어 팔면 좋겠다!!
“어떤 강아지 사료들이 판매되고 있을까?”
강아지 사료 만들기에 돌입하기 전,
언제나처럼 시장조사를 시작하는 한과장
사료의 종류는 매우매우 다양하다.
사료에 대한 정보는 '상품명'과 '상세정보'에 각각 혼합되어 있다!!
'181개 아이템에 대한 데이터를 빠르게 수집하고
원하는 정보만 뽑아낼 수 있을까?'
한과장은 데이터를 수집과 정제를 시도해본다!
"특정 온라인 플랫폼에서 원하는 정보만 수집해보자!!"
스파이더킴 웹 크롤러를 활용해보자
1 오늘은 특정 사이트를 웹 크롤링해주는 '전용 크롤러'를 활용해보려고 한다.
원하는 플랫폼을 선택한 후, 수집하고자 하는 카테고리, 데이터 항목을 선택한다!! 데이터를 쇼핑하는 기분으로~~ 클릭클릭!!
2
프로젝트가 등록된 후,
기다려보면~~~ 왔다!!
추출이 완료되었다는 메일!!!
이것은 마치 택배가 도착했을 때의 기분
주문하신 데이터 왔습니다~~
3
그럼 이제 수집 된 데이터 중 '상품명'과 '기타정보' 항목을 활용하여
원하는 정보를 추출해보자!!
알아보고자 하는 정보는
(1) 어떤 목적과 특징의 사료들이 있는가
(2) 주원료가 무엇인가
(3) 가격대는 어떻게 되는가
4
"
어떤 목적과 특징의 사료들이 있는가?!
"
'상품명'에 숨어있는 목적과 특징들을 찾아본다. 주요 단어들은 '전연령', '시니어', '건식사료', '어덜트', '다이어트' , '유기농' 등등 Extract list of values!! 해당되는 단어들을 [list의 형태로] 뽑아본다.
5
"
주원료가 무엇인가?!
"
같은 방법으로 '기타정보'에서 주원료를 뽑아내어 본다 '연어', '치킨', '생선', '오리', '소고기' 등등 쓰윽쓰윽 드래그해준당
6
"
가격대가 어떻게 되는가
"
가격을 5,000원 단위로 바꾸어 주원료별로 어느 가격대의 상품이 가장 많은지 확인해본다
7
위 내용의 결과를 알아보자!!
"웹 크롤링과 데이터 정제 프로그램으로 해결!!"
[사료의 목적 및 특징]
전연령 혹은 어덜트용 사료가 많고
건식 사료가 습식 혹은 소프트보다 많다
다이어트와 건강을 위한 유기농 사료도 꽤 보인다
[주원료]
주원료로는 소와 생선(연어)가 특히 많다
[주원료별 가격] 주원료별 평균 가격도 확인해본다.
결론!!
한과장은 너무 비싸지 않지만 많이 선호되고 있는
생선(연어)를 주원료로 하는 사료를 만들려고 한다.
타겟은 조금 좁히기 위해 어덜트 멍뭉이들이다
기다려 멍뭉이들아 *_*
우리 토니는 표지 마델 ♥
Comments