top of page

[데이터 분석] 스타벅스 고객 세분화를 통한 데이터 기반 광고



인트로

Starbucks는 미국에 15,000개 이상의 매장을 보유한 수십억 달러 규모의 회사로 연간 수천만 명의 고객에게 서비스를 제공합니다. 스타벅스는 단순히 커피, 스낵, 가벼운 식사를 제공하는 곳이 아닙니다. 이 상태를 유지하기 위해 스타벅스는 브랜드 신용 카드, 디지털 결제 옵션(예: 'Apple Pay') 및 휴대폰 앱을 비롯한 다양한 결제 옵션을 제공합니다. 이러한 대체 지불 방법은 젊은 고객을 유치할 뿐만 아니라 현금 및 일반 신용 카드에는 없는 사용자의 인구 통계 데이터를 수집할 수 있습니다.


이 인구 통계 및 거래 정보를 활용하여 수익과 브랜드의 충성도를 높일 수 있습니다. 고객 행동에 영향을 미치는 가장 직접적인 방법 중 하나는 타겟 광고 및 제안을 사용하는 것입니다. 이 프로젝트를 위해 약 15,000명의 Starbucks 앱 및 신용 카드 사용자와 한 달 동안의 구매를 수집하여 샘플을 세분화하고, 각 클러스터의 행동을 분석, 타겟 광고를 생성하여 고객 참여 및 판매를 늘리는 것을 목표로 수집했습니다.


데이터 탐색

성별



전체 표본의 성별 분포

이 데이터 세트에는 남성이 과도하게 표시되어 있으며 다른 고객으로 식별하는 고객은 소수(1% 미만)입니다.


나이

전체 표본의 나이 분포

이 데이터는 일반적인 스타벅스 고객보다 나이가 많은 고객을 나타냅니다. 이는 스타벅스 신용 카드 소지자의 데이터를 사용하여 얻은 결과일 가능성이 큽니다.


소득

전체 표본의 소득 분포

이 고객들의 대부분은 괜찮은 소득생활을 하고 있습니다. 연간 소득이 100,000달러가 넘는 소수의 사람들이 분포도가 있습니다. 가장 큰 영역은 '중산층' 소득자를 나타내며 상당한 부분의 저소득 고객이 있습니다.


총 지출

전체 표본의 총 지출 분포

지금까지 대부분의 고객은 한 달에 약 20달러만 지출 했지만, 어떤 고객은 한 달 동안 스타벅스 매장에서 수백 달러를 지출하기도 했습니다.


제안 설명

한 달 동안 여러 제안과 광고가 각 고객에게 전송되었습니다. 이 부분은 세 가지 나뉩니다.

  • 제안: 1+1 (BOGO)

  • 제안: 할인

  • 정보 제공


각 제안에는 다음과 같은 네 가지 측정항목이 연결되어 있습니다.

  • 기간 : 0 - 7 (쿠폰이 유효한 일수)

  • 난이도 : 0 - 10 (제안 자격을 갖추는 데 필요한 금액 스케일)

  • 보상 : 0 - 10 (할인 또는 무료 아이템의 금액 스케일)

  • 채널 : 모바일, 웹, 이메일, 소셜(고객에게 전달되는 방법, 중복 가능)


데이터 랭글링

이 모든 정보를 단일 데이터 프레임으로 컴파일하면 다음을 포함하여 각 고객에 대한 자세한 정보를 얻을 수 있습니다.

  • 성별

  • 나이

  • 연도별 수입

  • 앱 사용자가 된 연도

  • 받은 BOGO 제안 수

  • 수신된 할인 제안 수

  • 수신된 정보 제공의 수

  • 수신된 모든 제안의 평균 보상 가치

  • 수신된 모든 제안의 평균 난이도

  • 수신된 모든 제안의 평균 기간

  • 각 채널(모바일, 웹, 이메일 또는 소셜)에서 수신한 오퍼 수

  • 오퍼 수, 수신, 조회 및 완료

  • 가장 최근 거래 이후 시간

  • 총 지출 금액

  • 구매 횟수

이 데이터는 각 고객의 자세한 행동과 그들이 스타벅스 앱과 상호 작용하는 방식을 보여줍니다.


클러스터링

클러스터링의 첫 번째 단계는 차원 축소입니다. 주요 목표는 사용자를 별개의 범주로 묶는 것이로 해석 가능성은 높은 우선 순위가 아닌 주성분 분석을 통해 데이터를 단순화하는 방식입니다.


명목 변수를 수치적으로 인코딩하고 sklearn의 표준 스케일러를 사용하여 P.C.A를 시작할 수 있습니다.

데이터를 더 작은 차원 공간에 투영한 후 원래 데이터에 24개의 기능이 있음에도 불구하고 분산의 ~90%가 10개의 주성분으로 설명된다는 것을 알 수 있습니다.


다음 단계는 최적의 클러스터 수를 결정하기 위해 K-Means Clustering을 수행한 후 팔꿈치 및 실루엣 테스트를 사용하는 것입니다.

순수한 수학적 관점에서 볼 때 높은 실루엣 점수와 왜곡 그래프의 '팔꿈치'는 이상적인 클러스터 수로 두 개를 나타냅니다. 그러나 두 개의 클러스터로 세분화를 수행한 후에는 비즈니스 관점에서 이 세분화를 정당화할 수 있는 조치가 충분하지 않습니다. 두 개의 클러스터 세그먼트는 주로 인구 통계학적 라인으로 나뉩니다. 나이, 성별, 소득. 이것은 유효한 클러스터링이지만 물리적 특성보다는 행동으로 클러스터를 분리하는 것이 바람직합니다.


몇 가지 실험을 거친 후 타겟 광고를 생성하기 위한 최적의 수는 4개의 클러스터인 것 같습니다.


그룹 이해하기

RFM

고객 가치에 대한 전반적인 관점을 얻는 간단한 방법은 RFM 분석입니다. 이 데이터의 경우 메트릭에 대해 각 고객에게 0에서 5까지의 점수가 부여됩니다. Recency(고객이 구매한 후의 기간), Frequency(고객이 구매한 빈도) 및 Monetary(고객이 구매한 총 가치).

각 클러스터의 RFM 점수

위의 그래프는 각 클러스터의 평균 RFM 점수를 보여줍니다.


클러스터 0과 2, 클러스터 1과 3은 비슷한 점수를 갖는 경향이 있습니다. 그룹 0과 2는 RFM 지표에서 다른 두 그룹보다 점수가 낮습니다.


고용

이 그래프는 각 클러스터가 보고 완료된 오퍼의 백분율을 보여줍니다.

  • 클러스터 0: 대부분의 제안을 보고 완료합니다.

  • 클러스터 1: 거의 모든 제안을 보지만 30%만 완료합니다.

  • 클러스터 2: 대부분의 제안을 보고 완료합니다.

  • 클러스터 3: 제안의 절반 이상을 조회하지만 적은 비율만 완료합니다.

지금까지의 간략한 분석에서 클러스터 0과 2, 클러스터 1과 3은 핵심 비즈니스 상호작용(RFM 및 제안 참여)에 대해 충분히 유사하므로 이들을 분리하는 요소를 이해하기 위해 함께 그룹화하는 것이 유용합니다. 의미 있는 그룹으로


클러스터 0과 2의 분석

성별

이 두 그룹은 전체 표본보다 여성 대표 비율이 더 높으며, 클러스터 2는 남성 비율이 약간 더 높습니다.


소득

클러스터 0은 클러스터 2보다 약간 더 풍부합니다.


나이

클러스터 0은 클러스터 2보다 약간 오래되었습니다.


수익

클러스터 0은 클러스터 2보다 더 많이 지출하지만 덜 자주 사용합니다.


거래 빈도

이전 그래프는 클러스터 0과 클러스터 2의 각 고객에 대한 트랜잭션 간의 시간 수를 보여줍니다. 위 그래프에서 주목해야 할 가장 흥미로운 점은 72, 96 및 169시간(3, 5, 7일)에서의 급증입니다. . 이 두 그룹은 3일, 5일 또는 7일마다 스타벅스 매장에서 정기적으로 쇼핑하는 많은 고객과 유사한 행동을 보입니다. 이러한 종류의 일상적인 패턴은 이 두 클러스터에서 높은 수준의 브랜드 충성도를 나타냅니다. 이 두 그림에서 가장 눈에 띄는 차이점은 군집 0이 하루에 한 번 이상 구매할 가능성이 훨씬 더 높다는 것입니다. 이 다중 일일 구매 및 정기 구매 빈도는 클러스터 0이 "포착된" 인구 통계라는 것을 나타내며, 이는 이미 높은 수준의 브랜드 충성도를 가지고 있음을 의미합니다.




요약: 클러스터 0 및 2 설명

유사점

  • 낮은 RFM

  • 저소비자

  • 여성이 과도하게 대표됨

  • 스타벅스 앱에 참여


차이점









클러스터 1 및 3 분석

성별

남성은 이 두 군집에서 과도하게 대표되며 '기타' 성별의 가장 큰 비율이 군집 1에 있습니다.


소득

그러나 이 두 그룹의 수입은 비슷합니다. 클러스터 1은 전체 소득이 약간 더 높습니다. 클러스터 1의 분포 그래프는 약 $65,000에서 정점을 이루고 클러스터 3의 수입은 $70,000입니다.


연령

소득과 매우 유사합니다. 이 두 그룹의 연령은 전체 표본을 대표하는 약 55세의 분포 피크로 매우 유사합니다.


수익

이 두 클러스터에는 매우 다른 지출 습관이 있습니다. 두 그룹 모두 이전 두 그룹보다 더 많이 지출했지만 클러스터 1의 대부분은 이 한 달 동안 약 $200를 지출한 반면 클러스터 3은 $125를 지출했습니다.




거래 빈도

이 그래프는 이전 두 클러스터와 유사한 동작을 보여줍니다. 구매 빈도는 72, 96, 168시간에 급증하지만 이전 그룹만큼 뚜렷하지는 않습니다. 가장 관련성이 높은 결론은 이 두 그룹이 매일 자주 구매한다는 것입니다. 이 고객의 대부분은 이전보다 6시간 이내에 최소 한 번 이상 구매했습니다.


요약: 클러스터 1과3의 설명

유사점

  • 중간 소득

  • 평균 연령

  • 높은 RFM

  • 스타벅스 앱에 참여하지 않음

  • 남성이 과도하게 대표됨




차이점






문맥 이해

이 한 달 동안 여러 제안이 이러한 고객에게 전송되었습니다. 타겟 광고를 만들기 전에 고객의 행동과 이미 보낸 제안과의 관계를 이해하는 것이 중요합니다.

위의 그래프는 각 클러스터로 전송된 오퍼의 평균 난이도, 보상 및 기간을 보여줍니다(참고: 기간은 제안이 유효한 일 수, 보상은 제안의 조정된 달러 가치, 난이도는 조정된 달러입니다. 제안을 받기 위해 지출해야 하는 금액)


4개의 클러스터에 대한 각 메트릭의 분포는 몇 가지 주목할 만한 예외를 제외하고는 비교적 균일합니다.

  • 클러스터 0 : 평균보다 높은 보상, 난이도 및 지속 시간으로 제안을 받았습니다.

  • 클러스터 2: 가장 어렵고 가장 오래 지속되는 제안을 받았습니다.

  • 클러스터 1: 가장 낮은 보상, 난이도 및 기간 제안을 받았습니다.




문맥 분석

클러스터 0과 2는 가장 높은 난이도의 제안을 받았고 가장 높은 비율의 전송된 제안을 완료했습니다. 이것은 제안의 어려움이 이러한 고객에게 덜 단점이 있음을 의미합니다. 따라서 초기 구매가 더 높은 대상 제안을 보내는 것이 전환율에 영향을 미치지 않고 수익을 증가시킬 것이라고 가정하는 것이 합리적입니다.


클러스터 0은 평균보다 약간 높은 난이도를 받더라도 대부분의 제안을 활용합니다. 그러나 그들은 하루에 여러 번 구매하는 고객의 비율이 높음에도 불구하고 모든 그룹 중에서 두 번째로 적은 비용을 지출합니다. 이 두 가지 사실은 초기 구매(난이도)가 약간 높고 보상이 낮은 목표 제안이 이 그룹에서 더 많은 수익을 창출할 수 있음을 시사합니다.


클러스터 1은 모든 그룹 중 제안 완료율이 가장 낮고 수익이 가장 높습니다. 이 그룹은 또한 가장 낮은 난이도의 제안을 받기 때문에 제안 전환을 높이려면 더 큰 보상이 필요합니다.


클러스터 2는 지출이 가장 적은 그룹과 일주일에 한 번 구매할 가능성이 가장 높은 그룹을 나타냅니다. 그들은 또한 높은 비율의 제안을 완료했는데, 이는 더 짧은 기간의 제안이 이 그룹이 스타벅스 매장을 더 자주 방문하도록 유도할 수 있음을 의미합니다.


클러스터 3은 제안의 작은 비율만 보고 더 적게 완료하며 두 번째로 높은 수익 및 빈도 브래킷을 나타냅니다. 클러스터 3에서 판매를 늘리려면 이들과의 커뮤니케이션 가시성을 높여야 합니다.


제안 매개변수의 간단한 조정은 클러스터 0과 2의 수익을 늘리기에 충분할 수 있지만 다른 그룹과의 참여를 늘리려면 더 미묘한 접근이 필요할 수 있습니다.



제안 유형

클러스터 1의 완료율은 매우 낮습니다. 전송되는 오퍼 유형을 변경해야 할 수도 있습니다.

현재 클러스터 1의 평균 회원은 한 달 동안 4개의 BOGO 제안, 3개의 할인 제안 및 1개의 정보 전단지를 받습니다. 현재 구성에 응답하지 않기 때문에 난이도가 높은 할인 제안을 더 많이 보내면(초기 구매가 많을수록) 지출과 완료가 늘어날 수 있습니다.


클러스터 3은 낮고 균등한 양의 BOGO 및 할인 제안을 받고 비교적 균등하지만 낮은 비율로 둘 다 완료합니다. 이것은 실제로 실행 가능한 것을 나타내지 않으므로 다른 곳을 찾아야 합니다. 제안의 초기 시청률이 낮기 때문에 제안을 배포하는 데 사용되는 방법이나 채널을 검토하면 더 나은 결과를 얻을 수 있습니다.




배포 방법
각 클러스터의 각 고객이 한 달 동안 각 유통 채널에 대해 받은 평균 오퍼 수

흥미롭게도 4개의 클러스터 모두 동일한 패턴을 보여줍니다. 각 연속 클러스터는 이전보다 채널당 더 적은 제안을 받았습니다. 이 패턴에는 클러스터 3이 클러스터 2보다 더 많은 웹 제안을 받는 한 가지 주목할 만한 예외가 있습니다.


유통 채널 시각화의 최종 목표는 클러스터 3의 제안 시청률 및 완료율을 높이는 방법을 결정하는 것입니다. 현재 그들은 주로 이메일과 모바일 제안을 수신하고 잘 응답하지 않습니다. 이 클러스터에 대한 웹 기반 및 소셜 미디어 지원에 초점을 맞추는 새로운 전술이 결과를 낳을 수 있습니다.


새로운 제안 제안
새로운 제안의 제안된 측정항목

정당성


클러스터 0: 이 그룹은 모든 클러스터 중 완료율이 가장 높지만 평균적으로 두 번째로 적은 비용을 지출합니다. 이 그룹에서는 난이도는 문제가 아니지만, 낮은 보상을 제공하지만 높은 난이도(초기 지출)는 수익을 증가시킬 수 있습니다. 그들은 동일한 양의 BOGO 및 할인 제안을 받고 균일한 속도로 완료합니다. 수익 증대가 목표라면 할인이 역효과를 내는 것처럼 보입니다. 클러스터 0은 가장 인기 있는 제안 배포의 모든 다양한 방법에 참여하고 있으며 BOGO는 신중한 것 같습니다.


클러스터 1: 가장 많은 지출을 하는 그룹이지만 매우 적은 비율의 제안을 완료하지만 여전히 그들과 함께 더 많은 수익을 얻을 수 있는 기회가 있습니다. 그들은 이미 가장 낮은 난이도 제안을 받았습니다. 대안적인 전술은 더 높은 보상을 제공하는 평균 난이도입니다. 그들은 이미 더 많은 BOGO 제안을 받았고 전환하지 않고 있습니다. 이 그룹과 함께 더 많은 할인 제안을 시도할 때입니다. 그들은 이미 대부분의 제안을 보고 있으므로 동일한 배포 채널을 유지할 것입니다.


클러스터 2: 보기에 매우 높은 비율의 보상을 완료했지만 가장 적게 지출하고 가장 자주 방문하지 않는 고객을 나타냅니다. 그들은 또한 이미 가장 어려운 제안을 받고 완료했으며, 어려움은 이 그룹의 장벽이 아닙니다. 더 낮은 기간의 제안으로 방문 빈도를 높이는 것은 매력적인 전술이 될 것입니다. 이전에 받았던 것과 같은 난이도와 보상을 유지하면 더 자주 방문하도록 쉽게 전환할 수 있습니다.


클러스터 3: 두 번째로 높은 수익 그룹이지만 제안 참여도는 가장 낮습니다. 새로운 제안은 그들이 받고 있는 것과 다른 채널을 시도할 것입니다. 이러한 고객은 이미 스타벅스 매장을 자주 방문하므로 새 제안의 평균 기간을 사용하는 것이 좋습니다. 물을 테스트하고 다음 달 데이터를 다시 평가하기 위해 낮은 난이도와 낮은 보상 제안을 시도합니다. 이미 균등한 할인과 BOGO 오퍼를 받고 있는 클러스터 3의 오퍼 유형을 선택하는 것은 더 어렵습니다. 전체 월의 데이터에서 할인 제안의 완료 비율이 약간 더 높습니다. 이것은 할인 제안이 완료 가능성이 약간 더 높다는 결론으로 ​​이어집니다.


예측 및 검증

스타벅스 포트폴리오에 새로운 제안을 추가하기 전에 그것이 얼마나 효과적인지 아는 것이 현명할 것입니다.


새로운 제안과 감독된 기계 학습을 사용하여 고객이 제안된 제안을 보거나 완료할 가능성이 있는지 예측하기 위해 여러 번 시도했습니다. 그러나 각 클러스터의 상대적으로 작은 샘플 크기(3,000~4,000명의 고객)는 모델 훈련에 방해가 되는 것으로 판명되었습니다.


이 데이터 세트의 개별 동작은 트리 기반 모델, 선형 회귀 및 K개의 최근접 이웃과 같은 간단한 도구를 사용하여 어느 정도의 정확도로 예측하기에는 너무 무작위입니다. 다항식 커널이 있는 지원 벡터 머신을 사용하여 성공의 일부 힌트가 발견되었습니다. 한 교차 검증된 모델은 65%의 정확도를 달성했지만 과도한 계산 시간(단일 모델을 훈련하고 교차 검증하는 데 36시간 이상)은 신뢰할 수 있는 수학적 예측에 대한 극복할 수 없는 장벽으로 판명되었습니다.


제안된 제안의 효과를 검증하는 보다 실용적인 방법은 A/B 테스트를 사용하는 것입니다.


특정 비율의 무작위 고객에게 대상 제안을 보내고 기준 데이터와 전환율을 비교합니다. 완료율의 측정 가능한 증가는 제안 효능에 대한 일화적인 증거를 제공할 것입니다.


결론 및 다음 단계

실제 데이터는 소비자가 주요 브랜드들과 어떻게 상호 작용하는지 흥미로운 통찰력을 제공했습니다. 인구 통계의 편향된 특성에도 불구하고(나이가 많고 신용 카드를 소지한 소비자) 사람들의 반복적이고 습관적인 행동을 보는 것은 여전히 매력적인거같습니다. 특히 '트랜잭션 사이의 시간' 그래프가 만족스럽게 생성되었습니다. 특정 고객의 반복적인 특성을 시각화할 수 있다는 것은 놀라운 일이였습니다.


고객 세분화 분석은 시간이 많이 걸린만큼 가치가 있었습니다. 인구를 세그먼트로 클러스터링하는 알고리즘 예측은 어려웠고 일반적으로 나타나는 놀라운 차이점을 확인했습니다.


수입과 제안 완료 비율 및 월 지출 사이의 높은 양의 상관 관계가 예상되었으며(이는 클러스터 2에서 잘 설명됨) 이를 시각화하는 것은 만족스러웠습니다.


정확한 예측 모델 생성을 방해하는 하드웨어 제한은 실망스러웠습니다. 특히 생성 능력에 대한 자신감을 고려할 때 그렇습니다. 앞으로 더 많은 프로세서 주기를 사용할 수 있으므로 이 모델을 다시 만들려고 합니다.


웹 데이터의 수집과 활용을 통한 데이터 시각화 그리고 데이터의 크롤링과 분석은 유펜솔루션과 상의해 주세요!



(본 포스팅은 https://nycdatascience.com/blog/student-works/data-driven-ads-by-starbucks-customer-segmentation/ 의 내용을 번역, 재구성하였습니다)




Comments


bottom of page