수집한 데이터에서 숨어있는 정보를 찾아 어떤 결론을 도출하고 패턴을 찾기 위한 목적으로 알고리즘과 수학적 처리 과정을 적용하여 통찰력(insight)을 얻는 과학적 방법을 의미한다. 즉, 데이터에서 새로운 의미와 가치를 발견하는 과학이다. 데이터 분석에서 중요한 것은 이미 알고있는 결론에서 또 다른 결론을 도출하는 과정인 추론(inference)에 있다. 예를 들어, 데이터 간에 의미있는 관계, 즉 상관관계(correlation)가 있는지 알아보기 위해 여러 데이터에 대해 알고리즘과 수학적 처리를 한다. 데이터 분석은 조직이 기존 이론이나 모델을 검증하고 반증할 뿐만 아니라 더 나은 의사 결정(decision making)을 할 수 있도록 여러 산업 분야에서 사용되고 있다. 예전에는 소수의 전문가(데이터 분석가)만이 특정 데이터를 접할 수 있었고, 고가의 분석도구를 사용해 분석하여 그 결과를 의사 결정에 반영할 수 있었다. 그러나 정보기술이 나날이 발전함에 따라 다양한 종류의 데이터가 기하급수적으로 늘어 정보의 홍수 속에 살아가게 됨에 따라 이제는 어느 누구나 손쉽게 다양한 데이터를 접할 수 있게 되었다. 또한 이제는 R이나 Weka, Octave, 또는 Python 등과 같은 데이터 분석를 무료로 사용해 누구나 데이터를 분석하고, 그 결과를 가지고 의사 결정 과정에 참여할 수 있게 되었다. R이나 Weka, Octave, 또는 Python가 같은 도구는 간단한 프로그래밍 지식이 필요하다. 여기서는 누구나 쉽게 사용할 수 있는 Microsoft의 엑셀(excel)을 사용한 데이터 분석을 목표로 한다. 실제 데이터 분석을 하기 전에 먼저 데이터 분석 과정을 알아보자.
데이터 분석 과정
데이터 분석 분석의 진행 과정은 정의하는 사람마다 다르지만 큰 맥락에서보면 별차이가 없다. 세부적으로 진행되는 과정은 거의 같기 때문이다. 여기서는 다음과 같이 6단계로 구분을 지어 설명하도록 한다.
1단계 : 문제 정의 및 목표 설정 데이터분석 프로젝트를 요청받으면 가장 먼저 할 일은 프로젝트 명세서를 작성하는 것이다. 명세서에는 다음과 같은 내용이 포함된다.
어떤 것을 조사해 분석할 것인가?
그 결과를 가지고 회사가 어떻게 이익을 낼 것인가?
어떤 데이터와 자원이 필요한가?
프로젝트 일정
프로젝트 산출물 등
특히 문제를 정의하는 과정에서 분석의 목적과 목표를 구체적으로 명확하게 하는 것이 중요하다. 일반적으로 목적은 데이터 분석을 통해 최종적으로 얻으려고 하는 것이며, 목표는 목적 달성을 위해 해야할 일을 구체화한 것이다. 따라서 하나의 목적을 위해 여러 개의 목표를 설정할 수 있다. 목적이 명확하지 않으면 이후에 해야할 일이 모호해져 프로젝트가 실패할 가능성이 높다. 실제 많은 기업에서 데이터 분석을 통해 의사결정을 내리고 싶어하지만 기업이 보유한 데이터를 가지고 의사결정에 도움이 되는 분석을 요청하지만 목적이 정해지지 않아 제대로된 분석을 할 수가 없는 경우가 대부분이다. 이로 인하여 데이터 분석에는 분석 대상이 되는 분야의 지식(domain knowledge)가 없으면 데이터 분석 결과를 제대로 해석할 수가 없다. 따라서 해당 업무의 지식을 갖춘 담당자와의 협업과 소통이 매우 중요하다. 데이터 분석을 위한 문제 정의와 그에 따른 분석 목표의 예는 다음과 같다.
2. 데이터 수집 프로젝트 명세서에 명시된 데이터를 수집하는 과정으로 다음 내용을 확인해야 한다.
분석에 사용할 데이터가 존재하는가?
데이터의 품질은 어느 정도인가?
데이터에 접근할 수 있는가?
데이터 수집에서 가장 중요한 것은 관련된 모든 데이터를 조사하고 정의하는 것이다. 당장 접근할 수 없는 데이터가 있다면 접근할 수 있는 방법을 찾아 수집하는 것이 좋다. 결국에는 접근할 수 없는 데이터를 분석해야 하는 경우가 많기 때문이다. 데이터 분석을 위해 데이터 종류별로 분류하는 것이 중요한 역할을 한다. 데이터의 종류에 따라 분석 방법이 달라질 수 있기 때문이다. 데이터는 크게 수치형 데이터(numerical data)와 범주형 데이터(categorical data)로 나눌 수 있다. 수치형 데이터에는 연속형 데이터(continuous data)와 이산형 데이터(discrete data)가 있다. 범주형 데이터에는 명목형 데이터(nominal data)와 순서형 데이터(ordinal data), 그리고 이진형 데이터(binary data)가 있다.
연속형 데이터: 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터 - 다른 이름: 구간형(interval) 또는 실수형(float) - 예: 풍속(風速) 또는 지속 시간(time duration) 등
이산형 데이터: 횟수와 같이 정수 값만 취할 수 있는 데이터 - 다른 이름: 정수형(integer) 또는 횟수(count) - 예: 사건의 발생 빈도 등
명목형 데이터: 가능한 범주 안의 값만을 취할 수 있는 데이터 - 다른 이름: 목록(enums)이나 열거(enumerated), 요인(factor), 다항형(polychootomous) - 예: TV 패널의 종류(plasma, LCE, LED 등)나 도시 이름(서울, 대전, 대구, 부산 등)
순서형 데이터: 값 사이에 분명한 순위가 있는 범주형 데이터 - 다른 이름: 정렬된 요인(ordered factor) - 예: 학점(수, 우, 미, 양, 가)
이진 데이터: 1 또는 0, 참이나 거짓 같은 두 개의 값만 갖는 데이터로 범주형의 특수한 경우 - 다른 이름: 이항형(dichotomous), 논리형(logical), 지표(indicator), 부울(boolean)
3. 데이터 준비 데이터를 수집하는 과정에서 오류가 발생하는 일지 잦기 때문에 실제 데이터 분석을 위해 데이터의 품질을 높이는 단계로 실제적인 데이터 분석의 시작이라고 할 수 있다. 데이터 준비는 다음과 같이 3단계로 구성된다.
데이터 정제(data cleaning): 데이터 출처로부터 결측값(missing value)이나 이상점(outlier), 또는 중복값( redundancy value)와 같은 거짓 데이터를 제거하고 데이터 출처 사이의 불일치를 해소하는 정제 과정 - 결측값이 있는 데이터를 삭제하거나 다른 값으로 채워야 한다. 결측값을 일반적으로 해당 변수의 평균(mean 또는 average)이나 중앙값(median), 최빈값(mode) 등의 대표값으로 채운다. - 이상점은 비정상적인 값을 의미하며, 데이터의 분포나 통계분석 등을 통해 이상점이라고 판단이 되면 값을 제거하거나 평활화(smoothing)을 해 중간값으로 대체한다. - 중복값은 여러 개의 데이터 중에서 하나만 남기고 삭제한다.
데이터 통합(data integration): 여러 데이터 출처로부터 얻은 정보를 조합하여 데이터 출처를 보충하는 통합 과정
데이터 변환(data transformation): 데이터를 분석 모델에 적합한 형태로 변환하는 과정
4. 데이터 탐색 수집한 데이터의 특성을 파악하기 위한 기본 통계 분석 과정으로 데이터를 깊이 이해하기 위해 다음과 같은 내용을 파악한다.
데이터의 분포
변수들의 상관관계
이상점의 존재
데이터 탐색을 위해서는 기술 통계학(descriptive statistics)이나 데이터 시각화(data visualization), 단순 통계모델을 주로 사용하며, 이런 과정을 탐색적 데이터 분석(EDA, Exploratory Data Analysis)라고 한다. 5. 데이터 모델링 이전 단계로부터 얻은 모델과 도메인 지식, 데이터에 관한 통찰을 가지고 프로젝트의 해답을 찾기 위한 과정으로 본격적인 데이터 분석이 이루어지는 과정이다. 이 과정에서는 통계학과 머신러닝, 경영과학(OR, Operational Research)과 같은 과학적 기법을 사용한다. 분산분석(ANOVA, ANalysis Of VAriance)이나 회귀분석(Regression Analysis), 주성분분석(PCA, Principal Component Analysis), 요인분석(Factor Analysis), 판별분석(Discriminant Analysis) 등을 위해 머신러닝이나 데이터 마이닝에 기반을 둔 모델을 만들게 된다. 모델이란 각 알고리즘이 데이터 분석을 진행하면서 생성하는 논리나 수식을 의미한다. 모델을 구축하는 과정에서 모델에서 변수를 선택하고, 모델을 실행하고, 모델을 평간하는 과정을 반복적으로 수행하여 최적화된 모델을 도출하게 된다. 6. 발표 및 자동화 데이터 분석 결과를 발표하고 공유하기 위해 발표 자료나 연구 보고서 등의 결과물을 작성한다. 이 결과물을 토대로 의사결정이 이루어진다. 결과물을 검토하고 결과를 개선해야할 경우 다시 문제를 정의한 후, 데이터 분석을 다시 진행한다. 결과물이 제대로 만들어졌다면 업무에 활용할 수 있도록 자동화하는 과정이 필요하다.
데이터 분석과 관련된 분야
Comments