top of page

[빅데이터] 데이터 정제 메뉴얼 - 1부




많은 그래프를 그리고 다양한 고도화된 알고리즘을 적용하였던 간에 데이터 분석 결과가 별로 좋지 않을 수 있습니다. 무작정 렌덤 포레스트 알고리즘을 적용하는 것은 데이터가 모든것을 망쳐버리는 결과를 가져올 수도 있지요.


데이터 분석 결과를 듣고 있던 CEO는 자신이 갖고 있는 인사이트를 바탕으로 데이터 분석 결과에 모순이 있음을 금방 알아챌 것입니다. CEO는 그 분야에 있어 데이터 분석가 보다 더 전문가 이니까요.


이러한 상황을 마주하지 않으려면 어떻게 해야 할까요?


" 부정확한 데이터로 분석된 결과는 부정확할 수 밖에 없다. "

부정확하거나 불충분한 데이터는 잘못된 결과를 가져오기 때문에 데이터 정제의 중요성을 먼저 짚고 넘어가야 할 것입니다.​


한 예를 들어 보겠습니다. 중앙 정부가 인구 조사 결과를 바탕으로 인프라와 서비스를 확충해야 하는 지역을 지정해야 하는 상황에서 바른 결정을 위해 먼저 신뢰할 만한 데이터를 확보하는 것이 무엇보다 중요합니다. 잘못된 고객 데이터가 수정되지 않는 경우, 회사는 우편물을 잘못발송하게 되어 고객을 잃거나 우편물을 다시 보내야 하는 비용이 발생하게 됩니다.​



들어가는 말

이번 포스팅부터 3주에 걸쳐 데이터 정제를 단계별로 안내하는 설명서를 작성해 보겠습니다.​


먼저, 데이터 정제의 목표는 무엇일까요? 고품질 데이터란 무엇일까요? 어떻게 고품질 데이터를 정의해야 할까요? 데이터 정제를 시작하기 전에 데이터 정제의 목표를 이해하고 설정하는 것이 무엇보다 중요합니다.


​​


● 지표:


- 데이터 품질 (유효성, 정확성, 완전성, 일관성, 균일성)

- 워크 플로우 (검사, 정제, 확인, 보고)

- 검사 (데이터 프로파일링, 시각화, 소프트웨어 패키지)

- 정제 (관련없는 데이터, 중복, 형식 변환, 오탈자 등)

- 확인

- 보고



데이터 품질

데이터 품질에 관한 위키피디아의 설명을 요약해 보도록 하겠습니다.


● 타당성

: 비즈니스 규칙 또는 제약 사항의 정도를 의미합니다.


​- 데이터 형식 제약 사항: 어떤 열의 값은 특정 데이터 형식 이어야합니다. (예 : 이진수, 숫자, 날짜 등)

- 범위 제약 사항 : 숫자 또는 날짜는 특정 범위 안에 있어야 합니다.

- 필수 제약 사항 : 특정 열은 결측값이 있으면 안됩니다.

- 중복 제약 조건 : 필드 또는 어떤 필드의 조합은 중복되어서는 안됩니다.

- 멤버쉽 제약 사항 : 필드 값이나 범위가 정해져 있습니다. (예를 들어, 개인의 성별은 남성 또는 여성입니다. 그외의 값은 없습니다.)

- 포린키 제약 사항 : 관계형 데이터베이스에서 포린키 컬럼은 연결된 프라이머리키 값에 없는 값을 가질 수 없습니다.

- 표현식 제약 사항 : 특정 형식을 갖는 텍스트 필드가 있습니다. 예를 들면 전화번호는 000-000-0000의 패턴을 갖습니다.

- 필드 간 검증 : 특정 필드 사이의 조건이 유지되어야 합니다. 예를 들어 환자의 퇴원 일은 입원 일보다 빠를 수 없습니다.


● 정확성

: 데이터가 실제 값에 가까운 정도


​데이터 값을 미리 정의하면 유효하지 않은 값을 찾아 낼 수 있지만 이 결과가 정확성을 보장하지 않습니다. 유효한 주소가 실제로는 존재하지 않을 수도 있습니다. 또한 어떤 사람의 눈동자 색깔의 컬럼 값은 유효하나 정확한 정보가 아닐수도 있습니다.


정확도와 정밀도의 차이 또한 이해해야 합니다. 어떤 사람이 '나 한국에 살아' 한다면 그 말은 사실 일지라도 정확하진 않습니다. 살고 있는 특정 주소가 주어져야 합니다.​



● 완전성​

: 필요한 데이터를 확보한 정도


여러 가지 상황으로 결측치가 발생합니다. 데이터 소스에 접근하여 이 문제를 해결할 수도 있습니다. 그러나 데이터 소스에 접근하기 어렵거나 적절한 값을 얻을 수 없을 때도 있습니다.


● 일관성​

: 같은 데이터셋 또는 복수의 데이터셋에서 데이터들이 일치하는 정도.


데이터셋의 두 값이 상충될 때 일관성이 깨집니다. 예를 들어 10세의 고객의 결혼 상태가 '이혼' 이라면 이 데이터는 일관성이 없다고 말할 수 있습니다. 그리고 동일 고객의 정보가 주소 정보의 오류로 두 고객인것 처럼 데이터가 저장될 수도 있습니다.



● 균일성

: 동일한 단위로 데이터 값을 정의하는 정도.


무게는 파운드 또는 킬로그램의 단위로 기록될 수 있습니다. 날짜는 미국과 유럽의 형식이 다릅니다. 통화는 나라마라 다르기 때문에 데이터를 단일의 측정단위로 통일해 줘야 합니다.


 

다음 포스팅에서는 데이터 정제 작업의 단계와 구체적 작업 방법에 대해 설명해 보도록 하겠습니다.








Comments


bottom of page