top of page

[데이터 분석] 뉴욕의 CitiBike 공급 및 수요



리밸런싱이란?

국내 최대의 자전거 공유 프로그램인 씨티바이크는지하철과 택시 서비스에 비해 훨씬 저렴하고 지속할 수 있는 대안을 마련했습니다. 뉴욕시와 뉴저지 전역의 1,500개 스테이션에 25,000대 이상의 자전거 네트워크가 분산된 씨티바이크의 운영은 매일 다양한 위치에서 변화하는 수요를 맞춥니다. 고객이 역에서 역으로 이동함에 따라 씨티바이크는 다양한 전술을 사용하여 필요한 곳에 충분한 자전거와 충분한 거치대가 있는지 확인합니다. 이러한 소위 "재조정" 노력을 관리하기 위해 씨티바이크는 일련의 예측 알고리즘을 사용하여 자전거를 운송할 스테이션 장소와 시간대를 결정합니다.


예측 알고리즘을 사용하지 않는 이 분석은 뉴욕의 주변 자전거 이동 패턴을 조사합니다. 뉴요커들은 언제 어디서 씨티바이크를 타고 이동하는지? 자전거에 대한 수요는 시간과 요일 및 위치에 따라 어떻게 다른지? 이러한 수요 변화에 발맞추기 위해 씨티바이크는 언제 어디서 재조정 노력을 기울여야하는지?




고객 여행 트렌드

이 분석은 2020년 6월부터 180만 건의 개별 여행을 자세히 설명하는 오픈 소스씨티바이크 시스템 데이터에서 가져옵니다. 각 관찰에는 여행 시작 날짜 및 시간, 총 여행 기간, 여행의 출발지 및 목적지 스테이션 ID, 스테이션 위도 및 경도가 포함됩니다. 지리 공간적 시각화를 쉽게 하기 위해 뉴욕시의 오픈데이터의 우편 번호 셰이프파일도 사용합니다.


자전거의 수요와 공급을 이해하기 위해 시간별, 요일별로 총운행 횟수를 시각화했습니다. 요일에 상관없이 저녁 시간대에 가장 많은 이동량이 발생했습니다. 주중에는 오후 5시와 아침 8시에 가장 많은 사용량이 있었습니다. 그러나 주말에는 오후 시간대에의 사용량이 고르게 분포되어있는 걸 확인했습니다.

지리적 수요도 상당히 다양합니다. 아래는 우편번호별로 집계된 여행을 시각화한 것입니다. 이러한 단계구분도는 도시의 여러 지역에 걸친 사용자 행동의 차이를 나타냅니다. 각 우편번호에서 시작하는 자전거 여행의 경우 왼쪽 지도는 평균 여행 시간을 나타내고 오른쪽 지도는 원래 여행의 총횟수를 나타냅니다. 왼쪽 지도에서 볼 수 있듯이, 맨해튼하부에서 시작하는 여행은 더 짧은 경향이 있지만, 맨해튼 중심부에서 멀리 떨어진 우편번호에서 시작하는 여행은 더 긴 경향이 있음을 알 수 있습니다. 오른쪽 지도에서 우리는 가장 많은 양의 여행이 로어 맨해튼의 우편번호에서 시작되는 것을 볼 수 있습니다.







씨티바이크의 방향

라이드의 94%가 자전거를 픽업한 곳과 다른 스테이션에서 끝나고 79%의 라이드가 시작 위치와 다른 우편번호에서 끝난다는 점을 고려할 때 이러한 자전거의 움직임은 재조정의 기초합니다. 이동은 우편번호 또는 역별로 자전거의 시간당 흑자 및 적자로 나타낼 수 있습니다. 출발하는 자전거가 도착하는 자전거보다 많은 역이나 우편번호는 전체 숫자의 적자이며, 도착하는 자전거보다 출발하는 자전거 수가 적은 역이나 우편번호는 전체의 흑자로 표시됩니다.


우편번호별로 승차를 집계하면 하루 중 각 시간 동안 하나의 우편번호에서 발생하는 최대 흑자 및 적자를 확인할 수 있습니다. 이른 아침 시간을 제외하고는 종일지속해서 발생하는 상당한 흑자와 적자가 있음을 확인할 수 있습니다. 이것은 자전거가 우편번호 라인과 같이 이동하지 않고, 특정 우편번호만 더 많은 트래픽을 수신하고 다른 우편번호는 더 많은 트래픽을메일 수신하고 있음을 볼 수 있습니다. 가장 큰 흑자 적자는 오전 5시에서 오전 10시 사이와 오후 4시에서 오후 9시 사이에 발생했습니다.




우리는 아침과 저녁 최고조 시간대에 어느 지역에서 가장 많이 들어오고 나가는 트래픽을 받는지 시각화할 수 있습니다. 아래 시각화에서 파란색 음영은 초과 자전거(출발하는 자전거보다 도착하는 자전거가 더 많음)를 나타내고 빨간색 음영은 자전거 부족(도착하는 자전거보다 출발하는 자전거가 더 많음)을 나타냅니다. 왼쪽에서 우리는 아침 최고조 시간에 맨해튼 미드타운의 우편 번호에 자전거가 과잉이지만 이스트 빌리지에는 적자가 있는 것을 볼 수 있습니다. 오른쪽 지도는 저녁 최고조 시간대에 센트럴 파크와 어퍼 이스트 사이드가 자전거 부족이 가장 크지만 이스트 빌리지는 흑자가 가장 많다는 것을 보여줍니다.




이것은 온종일 도시 전역에서 자전거의 움직임에 대한 방법론적인 아이디어를 제공합니다. 그러나 재조정을 효과적으로 달성하기 위해 씨티바이크는온종일 다른 지점에서 자전거를 추가하거나 빼는 개별 스테이션에 더 많은 관심을 기울입니다. 이 시각화에서는 하루 중 각 시간에 개별 스테이션의 최대 흑자 및 적자를 볼 수 있습니다. 5개의 선은 흑자 또는 적자가 가장 큰 다섯 개의 스테이션을 나타냅니다. 파랑 선은 오전 6시에 자전거가 많이 유입되고 오후 4시에 자전거가 유출되는 등 모든 정류소 중 흑자 폭과 적자 폭이 가장 큰 구간입니다. 이것은 어퍼 이스트 사이드의 역인 파란색 점에 해당합니다. 이 스테이션과 지도에 표시된 다른 스테이션은 자전거 재조정이 필요합니다.







결론 및 다음 단계

데이터에서 이러한 흑자 및 적자의 존재는 씨티바이크의 리밸런싱 노력의 증거라고 볼수있습니다. 데이터는 고객 이용한 자전거의 경로만 묘사할뿐, 그 뒤에 가려진 부분에 있어서는 설명하고 있지 않습니다. 그러나 데이터의 스테이션 흑자는 스테이션이 수용할 수 있는 용량보다 더 많은 사용자가 도착하는 순간을 나타내고있습니다. 조정 없이 스테이션 잉여 또는 적자는 불가능합니다. 스테이션은 도킹 스테이션이 있는 만큼의 자전거만 수용할 수 있고 사용 가능한 만큼의 자전거만 제공할 수 있기 때문입니다. 따라서 각 스테이션의 잉여 또는 적자는 수요를 충족하기 위해 CitiBike가 자전거를 움직인다는 증거입니다.


추가 분석을 위해 여행 목적지를 예측하기 위해 CitiBike의 재조정 알고리즘을 근사화하는 모델을 구축합니다. CitiBike 알고리즘의 세부 사항을 모르면 로지스틱 회귀를 시도하여 여행이 동일한 위치에서 시작되고 끝나는지 여부를 분류할 수 있습니다. 또한 k-평균 클러스터링을 시도하여 공유 기능별로 여행을 그룹화하고 다른 목적지의 가능성을 결정합니다.


데이터를 수집하여 가공하면 알지 못했던 인사이트를 얻을 수 있습니다. 웹 데이터 크롤링과 분석은 유펜솔루션과 함께 하세요!



(본 포스팅은 https://nycdatascience.com/blog/python/citibike-supply-and-demand-in-nyc/ 의 그래프를 유펜솔루션이 재구성한 것입니다)




Comments


bottom of page