top of page

[데이터 분석] 머신 러닝으로 부동산 가치와 주택세 예측하기

Original Article by Steven Jongerden, I-Peng Liu, Jing Wang, Huanghaotian Fu (NYC Data Science Academy Blog)

Translated by JJ Hwang



배경과 동기


​주택을 구매한 캘리포니아 사람들은 재산세 고지서를 받을 때 어마어마한 액수에 놀라는 경험을 합니다. 부동산 관련 세금이 이렇게 급증한 이유는 1978년 ‘캘리포니아 주민발의 13’의 집행 때문인데요, 이는 부동산 과세를 위한 감정 가격을 매입가와 동일하게 보는 것입니다. 부동산 가격이 오르는 국면에서는 당연히 과세 가치가 가파르게 상승합니다. 과세 가치와 시장 가치를 같게 하는 법이 공정하다는 의견이 있는 반면, 매년 평가를 갱신하지 않으면 여러 주체들에게 아래와 같은 단점들이 발생한다는 의견도 있습니다.


​1. 주택을 구매한 새 집주인은 더 높은 실효세율을 적용하여 세금을 내야한다. 부동산 과세 가치가 가장 최근의 시장 가치에 의거하여 산출되었기 때문이다. 이는 집을 오래 보유할 수록 세금 면에서 유리하다는 것을 의미한다.

2. 부동산 가격이 내리는 국면에서는, 주택의 시장 가치가 과세 가치보다 낮다. 이는 과세 가치가 조정되지 않기 때문에 실제보다 과다한 세금 부담이 발생함을 의미한다.

3. 부동산 가격이 오르는 국면에서는, 매년 과세 가치가 조정되지 않으면 과세 주체인 지방자치단체는 세수입의 손실이 발생한다.​


문제의 핵심은 주택 소유자와 지방자치단체 모두에게 불이익이 발생한다는 점입니다. 생각해봄직한 해법은 과세 가치와 시장 가치를 일치시키기 위해 매년 모든 주택의 가치를 새로 평가하는 것입니다만, LA에만 3백5십만 채 이상의 집이 있다는 사실을 감안하면 이는 매우 다루기 힘들고 시간이 많이 걸리는 비효율적인 일입니다. 따라서 과세 가치와 시장 가치의 일치라는 목적을 염두에 두었을 때, ‘머신 러닝 알고리즘이 부동산의 과세 가치를 예측하는 데 기여하여 납세자의 세금 부담과 지방자치단체의 세수입 손실 사이의 불균형을 조정할 수 있을까’ 라는 주제를 생각하게 됩니다.


방법론


​과세 가치를 예측하는 모델을 만들기 위해서는 시장에 대한 정보와 데이터가 필요합니다. Kaggle이 제공한 3개 카운티 2백9십만 채의 주택 데이터 가운데 하나가 LA이며, 이 지역 주택을 분석의 대상으로 삼았습니다.


결과물 일반화

일반화란 수많은 지표에 관하여 하나의 표본이 모집단으로부터 현저하게 다르지 않다는 것을 의미합니다. 또한 통계적 검증을 위해서 표본을 무작위적으로 선택했다는 것도 의미합니다. 미국 통계국이 표본과 모집단의 지표 비교에 관하여, 주택의 건축 년도와 그 주택의 평가 가치에 대해 카이 스퀘어 테스트를 실시했으나 해당 분석은 별 관련성이 없다고 발표했습니다. 설령 관련성이 어느 정도 있다고 해도 완벽한 것은 아닐 것입니다. 집을 고르기 위해서 주택의 거래 정보를 활용했기 때문에 그 데이터가 적절하게 추출된 표본이라고 주장하는 것은 데이터의 일반화 가능성을 양도성으로 축소시킵니다. 즉, 표본 데이터셋으로부터 추출한 결론이 모집단에 활용될 수 있지만, 표본 데이터셋의 양이 증가한다고 해서 그것이 꼭 모집단에 근접해간다는 것은 아니라는 이야기입니다.


데이터셋 정제

머신 러닝 예측의 높은 정확도는 투입되는 데이터의 품질이 핵심 요소 중 하나입니다. 데이터 품질을 높이기 위해 아래의 작업을 수행했습니다.​


1. 각 변수 (지표)마다 소실된 데이터의 양 (비율) 계산

2. 결측치 대체

3. 각 변수가 올바른 데이터 형식을 취하고 있는지 검증

4. 이상치의 탐색과 윈저 보정​


먼저 결측치에 대해서는, 관측 결과의 약 41.3%가 손실되었음을 확인할 수 있었습니다. 결측치에서 가장 높은 수치로 표현되는 변수들은 건물 등급, 층수, 지하실 크기, 정원 크기였습니다. 단, 지하실과 정원의 결측치는 부분적이었고, 건물 등급 같은 경우는 전반적이었습니다. 기계의 선형 알고리즘이 결측치를 다루지 못하기 때문에, 머신 러닝에서 정보를 처리하기 위해서는 이러한 결측치가 꼭 대체되어야 합니다.​


대체의 방법론과 데이터 형식에 관해 정확한 결정을 내리기 위해, 각 변수를 Kaggle의 규정과 비교하였고 논리적 추론을 활용했습니다. 아래와 같은 처리 과정도 이루어졌습니다.​


1. 결측치의 99%에 해당하는 변수는 유용한 정보가 부족하다는 판단으로 삭제했음

2. 수치 변수는 중앙값으로 대체했음

3. 계승 변수는 0이나 최빈값으로 대체했음

4. 수영장과 지하실 크기 같은 변수들은 0으로 대체했음. 이는 그 집에 수영장이나 지하실 같은 시설이 없어서 0으로 표기된다는 추론에 근거함

5. 전반적인 결측치 변수들은 최빈값으로 대체했음. 이는 요소 변수 사이의 추가적인 수준이 발생하는 것을 방지하려는 목적임.​


다음으로 모든 수치 변수에 대해 윈저 보정 기법을 사용했습니다. 이상치들이 예측 모델에 끼칠지 모를 부작용들을 제거하기 위해서입니다. 즉, 97.5분위 이하와 2.5분위 이상의 관측치들을 모두 평균값으로 대체했습니다.


데이터 사전 분석

데이터 분석에는 사전적인 데이터 탐구 작업이 선행됩니다. 데이터를 머신 러닝 모델에 투입하기 전에 검토하고 이해하는 단계이지요. 이는 (1) 종속 변수 분석 (2) 독립 변수 분석 이라는 두 과정으로 나누어집니다.


<종속 변수>

부동산 과세 가치의 두 개의 주요 종속 변수 중 첫번째는 토지에 부과되는 세금인데 이는 두번째 항목인 건물에 부과되는 세금과 크게 다릅니다. 토지에 부과되는 세금은 거의 0에 수렴하는데, 아파트나 토지의 가치가 매우 낮은 주택이 그 좋은 예입니다. 부동산 과세 가치를 예측하며 겪게 되는 문제는 데이터가 정규 분포를 이루지 않는다는 것입니다. 따라서 토지에 부과되는 세금과 건물에 부과되는 세금을 분리하여 각각 예측하는 것이 바람직합니다. 그러나 범위와 길이를 줄이기 위해 본 포스팅은 건물에 부과되는 세금, 즉 주택세에 집중합니다.


토지세 가치와 주택세 가치

<독립 변수>

​본 포스팅에서는 50 가지가 넘는 독립 변수 중에서 몇몇 항목들만 다룹니다. 예를 들어, 종합 부동산 과세 가치는 15만 달러에서 20만 달러 사이에 집중되어 있습니다. 두번째로, 데이터셋 내의 주택들은 이후 몇 년 간 총 지어진 주택수가 조금 줄어들긴 했지만, 대부분 1959년 이전에 지어졌습니다.


인구통계학적 비교

또 하나의 재미있는 변수는 이용가능한 주변 공간입니다. 데이터를 통해 보면 대부분의 주택들이 1,500제곱피트 정도의 활용가능한 공간을 보유하고 있음을 알 수 있습니다. 추가적으로 데이터는 주택 주변의 이용가능 공간의 면적이 200제곱피트에서 2,400제곱피트 사이에 분포하고 있음을 보여줍니다.


이용가능한 주변 공간

이러한 사전적인 데이터 탐구를 통해 가설 수립이 가능합니다.

군집화를 통한 새로운 변수의 생성

​예측을 위해 데이터셋이 필요하지만, 앞에서 이야기한 바와 같이 많은 수의 결측치들이 정보가 담겨있어야 할 많은 수의 칼럼들을 공란으로 남겨두게 되는 결과를 야기합니다. 이를 방지하기 위해 8개의 그룹이 정의되는 K-평균 군집화를 활용하여 군집 분석을 수행합니다. 이러한 그룹들은 군집 내 변이와 군집의 개수의 함수의 기울기 환산을 유지함으로써 결정됩니다. 급격한 변곡점이 없을 때는 이러한 과정이 매우 임의적으로 진행되기 때문에, 군집 내 변이의 환산은 각기 다른 K에서 수행되어 8의 K로 귀결됩니다. 새로운 변수에 대한 분석을 좀 더 심화하면 과세 가치라는 주제와 관련하여 각 그룹들이 상당히 다른 차이를 보이기 때문에, 현재의 변수들로는 분석되지 않는 추가적인 정보를 얻을 수 있습니다. 이렇게 새로 만들어낸 변수들을 부동산 세금 예측 모델에서 활용할 수 있는 것입니다.


인과 관계 모델

가설 수립과 검증

데이터셋의 정제와 검토가 완료되면 가설을 수립하여 시험해 볼 수 있습니다. 난이도가 있는 만큼, 통계적 의미의 인과관계 분석을 하고 상관관계 검증을 시행합니다. 여러 개의 가설을 수립하여 2변량 분석을 통해 검증합니다. 가설을 검증하기 위해 피어슨 상관계수, 웰치 두 표본 t 검정, 크루스칼-왈리스 순위 합 검정을 사용했습니다.


세금의 상위 등급으로 가정했던 건물의 품질 유형 가설은 세금과 부(不)의 관련성이 있는 것으로 분석되었습니다. 따라서 영가설을 기각할 수 없고, 인과 관계 측면에서 보았을 때 정합성이 없기 때문에 이 변수를 모델에 추가할 수 없습니다. 다른 가설들은 영가설의 기각을 허용하는 중요한 연관들을 보여주고 있기 때문에, 이 변수들은 다양한 머신 러닝 모델에 투입될 것입니다.

머신 러닝 모델과 주택세의 예측


​머신 러닝 모델을 수립하려면 연구수행자가 많은 선택지들을 갖고 있기 때문에 초반에 선택을 결정해야 합니다. 이 선택의 첫번째 과정은 예측에 도움이 되는 변수의 유형을 고르는 것입니다. 본 포스팅에서는 수치 변수였는데 이는 곧 회귀의 문제로 귀결됩니다. 회귀는 선형 회귀, 라소 회귀, 랜덤 포레스트, 부스티드 랜덤 포레스트 등 다양한 모델들이 있습니다. 부동산 세금을 가장 정확하게 예측할 수 있는 간결 모델을 만드는 목적이라면, 이러한 4개의 머신 러닝 모델이 활용되어야 할 것입니다.


다중 선형 회귀

​다중 선형 회귀 분석은 가우스-마르코프 가설 하에서 최적의 선형 불편추정량을 찾는 것을 목적으로 하는 모델입니다. 이 모델에서 다변수는, 독립변수와 종속변수의 관계가 선형을 이룬다는 가정 하에서, 하나의 특정한 결과를 예측하도록 하나로 합쳐질 수 있습니다. 부동산 과세 가치가 집의 크기, 건축 년도, 토지 형질, 방과 화장실의 개수, 냉방 방식, 수영장 개수 및 앞서 설명한 군집 변수들에 의해 결정된다는 전제 하에, 선형 회귀 분석에서 획득한 1차적인 결과는 해당 데이터 내 분산의 66.4%를 예측할 수 있음을 보여주며, 이는 중위적인 수준이라고 할 수 있습니다. 그러나, 가우스-마르코프 가설의 조건 검증은 등분산 가정이 추정량의 심각한 신뢰 의심과 과다 적합 모델을 생성할 수 있다는 문제 제기로 인해 훼손됩니다. 따라서 등분산의 이러한 훼손을 교정하는 목적이라면 박스콕스 변환이 수행되어야 합니다.​


박스콕스 변환은 종속 변수 내 왜곡도를 줄이는 목적으로 활용됩니다. 왜곡도를 줄이기 위해서는 모델 내에서 이분산의 정도를 줄여야 합니다. 결과는 R제곱이 변환 없이 66.4% 대비 60.05까지 감소하는 것을 보여줍니다. 이러한 감소는 어떤 변수가 그 의미를 잃고 모델 내 분산을 설명하는 데에 거의 기여하지 못하고 있다는 뜻입니다. 따라서 변환을 수행하지 않은 모델보다 더욱 간결한 박스콕스 변환 모델을 고려해 볼 수 있습니다.​


최고의 간결 모델을 만들기 위해 자동 변수 대체를 수행해 볼 수 있습니다. 이는 다중 선형 회귀 분석을 기반으로 하며, 베이지안 정보 지수 (BIC)가 모든 가능한 모델 조합 중 가장 간결한 모델을 결정하도록 역할을 합니다. 이 모델 기법의 단점은 모델 내에서 사용된 변수들이 더 이상 기저의 인과 관계에 의해 추동되지 않는다는 것입니다. 이는 간결하기는 하되 데이터에 과다적합한 경향을 보이는 결과로 귀결될 수 있습니다. 하지만 이 모델의 결과는, 다른 종류의 변수 조합에 의거했음에도 불구하고 박스콕스 변형 모델 만큼이나 신뢰도 높은 60.08%의 R제곱을 보여주었습니다. 결과적으로 위 세 개의 모델을 통해 본다면 박스콕스 변형 모델이 가장 신뢰할 만하고 간결하다고 할 수 있습니다.


라소 회귀

​이전 단락에서 베이지안 정보 지수 (BIC)로 변수를 대체하는 작업을 통해 변수 선택을 진행했습니다. 그러나 라소 회귀 같은 모델에 적용될 만한 다른 변수 선택 방식들이 있습니다. 라소 회귀가 예측에 사용된 변수의 수를 줄이는 동시에 오차를 최소화하는 변수 선택을 수행하려면 일반화가 필요합니다. 람다에 의해 적합도 검정과 과다적합의 방지 사이의 균형이 결정됩니다. 매개변수의 하나인 람다를 결정하기 위해서는 10-테스트 교차 검증을 수행합니다. 이 기법을 통해 평균 제곱 오차를 최소화하는 최적의 람다를 결정할 수 있습니다. 라소 회귀를 통해 예측의 품질을 향상시킬 수 있었고, 박스콕스의 60.08% 보다 8% 정도 상승한 68.1의 R제곱 수치를 얻을 수 있었습니다.


라소 회귀를 위한 교차 검증

랜덤 포레스트

​머신 러닝에 대한 이전 두 개의 접근방식의 초점은 선형적 예측을 위해 수치 변수를 활용한다는 것이었습니다. 범주 변수는 더미로 사용되는 것이지요.

그러나 지금은 데이터셋에 아주 많은 범주 변수가 포함되어 있기 때문에 랜덤 포레스트 머신 러닝 기법이 필요합니다. 랜덤 포레스트는 범주 변수로 예측을 하는, 매우 중요한 통계적 패턴 인식 기법으로 알려져 있습니다. 라소 회귀와 유사하게, 랜덤 포레스트 머신 러닝 알고리즘도 매개 변수를 결정하기 위해 교차 검증이 필요합니다. 랜덤 포레스트에 사용되는 매개 변수는 각 트리와 트리의 총 숫자에 시도된 변수의 개수입니다. 이러한 매개 변수를 기반으로 랜덤 포레스트가 01.66%라는 R제곱 정확도를 통해 예측을 수행했습니다.

각 트리당 선택된 변수의 개수에 대한 선택 프로세스

부스팅


트리의 개수에 대한 평균 제곱 오차

부동산 과세 가치의 정확한 예측을 위해 부스팅이라는 머신 러닝 모델을 활용합니다. 부스팅은 트리 배깅을 기반으로 하고 있는데, 이는 예측의 분산을 줄이는 데 활용되기도 하지만 다음 모델을 수립하기 위해 이전 모델을 덧붙여 사용하기도 합니다. 이 기법은 트레이닝 데이터셋에 대한 예측력을 높이지만, 테스팅 데이터셋에는 과다적합한 경향이 있습니다. 부스팅 모델이 더욱 정확해지기 위해서는 3개의 매개 변수를 결정해야 하는데, 수축, 트리 뎁쓰, 트리의 개수가 그것입니다. 교차 검증, 평균 제곱 오차의 계산과 부스팅 테스트 오차의 계산을 통해 매개 변수가 0.001 축소 및 4 뎁쓰로 결정됩니다. 이와 같은 매개 변수를 통해 부스팅 모델의 R제곱은 88.1%가 되는데, 이는 랜덤 포레스트 모델과 비교했을 때 상당히 개선된 수치입니다. 그러나 전술한 바와 같이 부스팅 모델은 트레이닝 데이터에 과다적합한 경향이 있기 때문에 표본으로부터의 예측에는 약한 측면이 있습니다. 결과적으로 테스팅 데이터셋에 대한 검증도는 37.8 정도의 R제곱을 나타내며, 이는 예측력이 현저하게 저하한 것이라 하겠습니다.

결론 및 한계


​본 프로젝트를 요약하면, 다양한 머신 러닝 알고리즘을 활용하여 부동산 과세 가치를 예측하는 것이었습니다. 이는 부동산 가치 평가 과정을 자동화하고 캘리포니아의 과세 체계 내에 있는 편향을 줄인다는 목적을 위함이었습니다. 랜덤 포레스트 모델이 가장 좋은 결과를 산출한 반면, 전반적 머신 러닝 모델들은 중범위적인 정확성으로 예측을 할 수 있었다는 평가를 내릴 수 있습니다. 이러한 중범위적인 적합도는 본 분석에 활용된 데이터셋의 품질이 다소 떨어졌기 때문에 그렇습니다. 결측치가 현저히 줄어든 데이터셋이었다면 더 좋은 결과를 얻을 수 있었을 것입니다.


그러나 분석 결과, 캘리포니아의 과세 체계에는 과세 가치 예측을 어렵게 만드는 근본적인 문제가 있음을 알게 되었습니다. 어느 한 주택의 과세 가치는 그 집이 팔린 순간에 결정됩니다. 이는 같은 가치로 평가된 바로 옆에 인접한 두 집이라 할 지라도 굉장한 편차를 보일 수 있다는 뜻입니다. 결과적으로 주택의 판매가에 전적으로 의존하는 데이터셋으로는 100%의 예측 정확도에 이르는 것이 거의 불가능합니다.​


종합적으로 본 프로젝트는 가치의 근거에 대한 인사이트를 제시했습니다. 캘리포니아 주에서는 많은 단점을 드러냈지만, 부동산 과세 가치의 예측 및 과세 과정의 자동화에 대한 좋은 접근법이라고 생각합니다. 차후 시장 가치를 더욱 잘 반영하는 향상된 기초 데이터의 수집을 통해 더 나은 결과물을 얻을 것으로 기대합니다.


​​=========================

웹크롤링, 웹스크래핑, 웹데이터 수집, 빅데이터에서 최고의 서비스를 제공합니다.

지금 바로 홈페이지를 방문하셔서, 문의 요청해 주십시오!




Comments


bottom of page