배경
열렬한 와인 애호가이신가요? 아니면 저와 같은 와인 초보자입니까? 어느 쪽이든 상관없습니다, 잘 오셨습니다! 이제 막 와인을 즐기고 배우기 시작한 사람으로서, 너무 비싸지 않으면서도 여전히 높은 평가를 받는 최고의 와인을 선택하기 위해 더 많은 데이터와 인사이트를 수집하고 싶었습니다. 저의 선택은 Vivino 웹사이트를 웹 스크래핑이였습니다.
비비노는 온라인 와인 마켓플레이스로 사람들이 다양한 와인을 구매하고 마셨던 와인들의 기록을 확인할 수 있는 와인 전용 앱입니다. 비비노는 처음 덴마크 코펜하겐에서 설립되었으며 2011년부터 iPhone 및 Android용 앱을 출시했습니다. 그 이후로 Vivino는 성장을 위해 여러 차례 투자를 받아 현재 1,300만 이상의 다양한 와인과 5,000만 이상의 사용자가 포함된 데이터베이스를 보유하는 회사로 성장했습니다. 개인적으로 저는 비비노 앱에 매우 만족했기 때문에 해당 웹사이트를 스크랩하기로 마음먹었습니다.
웹 스크래핑 과정
Beautiful Soup, Scrapy, Selenium 등 Python을 사용하여 웹사이트를 긁는 방법은 다양합니다.
이 프로젝트에서는 Vivino가 활용하는 무한 스크롤과 호환되는 Selenium을 사용하기로 했습니다. 데이터베이스 크기 때문에 전체 Vivino 웹사이트를 스크랩할 수 없었기 때문에 스크랩한 데이터는 약 45,000개 레코드인 450달러 미만의 레드 와인으로 제한되었습니다. 스크랩한 부분들은 다음과 같습니다:
가격: 와인 가격(USD)
연도: 와인이 만들어진 연도
국가: 와인이 만들어진 국가
전체 평점: 평균 평점(5점 만점)
전체 평점 개수: 전체 평점 개수
와인 노트(와인 풍미 및 아로마 지수):
- 라이트 볼드
- 스무스 타닉
- 드라이 스위트
- 약산성
여기서 한 가지 주의할 점은 와인 노트를 긁는 데 사용되는 Xpath의 값이 막대의 왼쪽 끝값이었고 전체 막대 100개 중 15개 길이였습니다. 그래서 막대의 중간값을 얻기 위해서 일단 긁어낸 후에는 순서대로 7.5를 추가해야 했습니다.
데이터 분석
첫 번째로, 와인 가격이 전체 평점과 비교해보고 싶었습니다. 그림 1과 같이 각 가격에 대해 스크랩한 모든 와인 데이터의 전체 등급을 나열시켰습니다. 당연하게도 등급이 높은 와인은 더 비싸거나 그 반대의 경우도 마찬가지였습니다. 더 비싼 와인은 더 높은 등급을 받았습니다. 흥미로웠던 부분은 약 100개의 와인이 3.0 미만의 등급을 받은 것이었습니다, 이는 대부분 사람이 그림 2에서와같이 3.0 미만의 등급을 부여하지 않는 경향이 있다는 점을 고려했을 때 좋지 않기 때문입니다. 많은 와인이 완벽하지는 않지만(5.0), 끔찍하지도 않다고(3.0 미만) 가정했을 때 4.0 평점의 와인영역이 가장 많이 집중되어있는 이유였을 수도 있습니다.
입문 와인 애호가로서 먼저 초점을 맞춘 부분은 와인이 좋은 평가(4.5 이상)를 받았지만 저렴한 편($100 미만)에 있는 영역으로, 그림 1에서와같이 녹색 상자로 표시하였습니다. 그림 3에서 볼 수 있듯이, 국가별 최고 가치 와인에 대한 가격 대 등급을 나열했는데 최고 가치 와인 부문에서는 미국이 압도적이었습니다.
그림 4와 같이 전체 스크랩 데이터로 돌아가서 Vivino에서 $450 미만 와인의 상위 10개 원산지 국가를 살펴보았습니다. 대부분은 9,000개 이상의 와인으로 미국, 프랑스, 이탈리아에서 제조된 것으로 보였습니다. 이어서 스페인, 아르헨티나, 호주, 포르투갈, 칠레에서는 각각 1,000개 이상의 와인을 보유하고 있었습니다. 그래서 해당 8개국에 대해 더 자세히 알아보기로 했습니다.
먼저 그림 5와 같이 8개 국가의 가격을 비교하기 위해 박스플롯을 만들었습니다. $200 이상인 와인은 박스플롯이 매우 희소하고 가치를 추가하지 않았기 때문에 박스플롯에서 제외되었습니다. 프랑스, 이탈리아, 미국의 중간값 및 3사분 위수 와인 가격은 $40-$50 범위에, 다른 국가에 비해 약 $25에 더 높았습니다. 또한, 국가별 와인의 평균 가격을 살펴보았을 때 프랑스, 미국, 이탈리아의 3대 평균 가격이 비슷한 경향을 보였습니다.
그런 다음, 그림 6과 같이 상위 8개 국가에 대한 유사한 박스플롯을 그려 전체 등급에 대해 설명했습니다. 위의 그림 2에서 볼 수 있듯이 4.0 범위 주변에 등급이 집중적으로 있기 때문에 처음에는 흥미로워 보이지 않습니다. 그러나 중간 등급이 서로 다른지 확인하기 위해 여러 국가 간에 몇 가지 t-검정을 실행했을 때 모든 국가의 p-값이 0.05보다 훨씬 낮아 유의한 차이가 있는 걸 확인했습니다.
가장 높은 것은 p-value가 0.01인 포르투갈과 스페인 사이였으나 대부분 둘의 조합은 매우 작았습니다.
데이터 관찰하기
그런 다음 각 와인 노트를 살펴보고 어떤 스케일이 가장 좋은 가격과 평가를 받았는지 확인했습니다. 와인 노트는 와인 맛과 아로마의 뉘앙스이며 Vivino는 이를 4가지의 카테고리인 라이트볼드(light-bold), 부드러운 탄닌(smooth-tannic), 드라이-스위트(dry-sweet), 부드러운 신맛(soft-acidic)으로 나누었습니다. 각 와인 노트를 설명하기 전, 아래 분석은 Vivino에서 스크랩한 데이터($450 미만 레드 와인)로 제한되며 각각 해당 그룹을 대표하는 것임을 강조합니다.
각 와인 노트를 살펴보면서 발견된 부분들입니다:
Light-bold: 그림 7에서 볼 수 있듯이 밝은 것보다 볼드한 와인이 훨씬 더 많았습니다. 볼드한 와인들의 가격이 더 비쌌지만, 한편으로는 볼드한 쪽에 와인의 갯수가 더 많아서였을 수도 있습니다.
Smooth-tannic:그림 8에서 볼 수 있듯이 와인은 Tannic 방향 쪽을 향하여 약간의 왜곡을 가지고 더 퍼져있습니다.
Dry-Sweet: 레드 와인은 일반적으로 단맛보다는 드라이하기 때문에(이미 와인을 좋아하는 사람들에게는 당연한 사실), 그림 9의 스케일은 희소성 때문에 70+도 되지 않습니다.
Soft-Acidic: 이 노트는 훨씬 더 퍼져 있었지만 그림 10에서 볼 수 있듯이 여전히 산성 쪽으로 치우쳐 있습니다.
가성비 와인의 데이터
마지막으로 11 그림과 같이 x축이 약산성, y축이 부드러운 탄닌, z축이 옅은 볼드 스케일로 가장 가치 있는 와인($100 미만 및 4.5 이상)을 살펴보았습니다. 스크래핑된 데이터에서 대부분의 레드와인이 드라이로 분류되어 Dry-Sweet의 스케일은 제외됐습니다. 3D 산점도에는 다음과 같이 가장 가치 있는 와인의 큰 클러스터가 두 개 있었습니다:
클러스터 1:
Light-bold: 60-70
Smooth-tannic: 20-40
Soft-acidic: 60
클러스터 2:
Light-bold: 90
Smooth-tannic: 60
Soft-acidic: 60
결론
$450 미만의 Vivino에서 스크랩한 레드와인 데이터를 살펴보면 좋은 와인을 즐기기 위해 실제로 수백 달러를 지급할 필요가 없다는 것을 알 수 있습니다. 저처럼 와인에 입문한 사람이라면 평점이 4.5 이상이고 100달러 미만인 최고의 와인을 찾고 있다면 다음 특성들을 보시면 될 거 같습니다:
미국산
Light-bold scale > 80
50에서 70 사이의 Smooth-tannic 스케일
Dry-sweet 스케일 < 15
50에서 70 사이의 약산성 스케일
그 기준에 따라 아래에서 새로운 와인 애호가들이 시작할 수 있는 4가지 와인을 선택했습니다. 각 사람의 미뢰에 가장 잘 맞는 노트 세트를 찾기 위해 다른 와인 노트 스케일을 가진 와인을 시도하는 것이 좋습니다. 당신이 마시는 와인을 추적하는 훌륭한 기능):
덕혼 하웰 마운틴 카베르네 소비뇽 2016
베어 카베르네 소비뇽 2015 추구
Orin 스위프트 빠삐용 2018
코스타 브라운 소노마 코스트 피노 누아 2017
Vivino는 이 분석의 정보를 사용하여 "와인에 대한 다년간의 경험"을 기반으로 할인 및/또는 추천을 생성할 수 있습니다. 하지만 이러한 목적으로 사용되기 위해서는 이 분석을 확장하여 다른 유형의 와인을 통합하여 와인 노트의 훨씬 더 다양한 변형이 가능하도록 해야 합니다. 데이터가 너무 커지면 분석이 더 저렴한 와인($100 또는 $200 미만)으로 제한될 수 있으므로 웹 스크래핑에 오래 걸리지 않습니다.
크롤링, 웹 데이터의 수집과 분석은 유펜솔루션과 함께 하세요!
Comments