매일 수많은 게시물이 올라오는 세계적인 SNS, 인스타그램.
"#해시태그"를 이용해 게시물의 범주를 정하고 또한 그것을 통해 관련 분야를 검색할 수 있다는게 인스타그램의 가장 큰 특징입니다.
특정한 해시태그에 글을 게시한 이용자의 성별과 연령대를 파악할 수 있다면 굉장히 가치있는 데이터가 될 것입니다.
더 이상 기존 인스타그램 API가 제공되지 않아 그동안 사용자의 성별이 및 연령대를 파악하기 힘들었지만, “스파이더킴”에서는 이미지 처리를 통해 파악이 가능합니다!
인스타그램 웹페이지에서 "#셀카"를 주제로 검색해 본 결과, 약 6,700만개의 게시글을 볼 수 있습니다.
"스파이더킴"의 이미지 처리 기법을 통해 셀 수 없이 많은 게시글의 성별과 연령대를 파악하고 그 게시글들 중에서 보기 불쾌한 성인물 광고를 어떻게 구별해 내는지 예시를 통해 설명해드리겠습니다.
(활용 예시를 위해 유명인의 사진을 활용하였습니다.)
할리우드 유명배우 로버트 다우니 주니어와 스칼렛 요한슨의 사진입니다.
이 사진에 특정한 이미지 인식 처리 과정을 통하면 컴퓨터가 아래의 이미지처럼 눈, 눈썹, 입술, 주름, 얼굴 윤곽 및 얼굴의 특정 지점을 파악합니다.
이렇게 인식한 결과를 토대로 인물의 나이와 성별을 추정할 수 있습니다.
성별은 평균적으로 약 94%의 정확도를 보여주며 실제 배우들의 성별과 정확히 동일한 결과를 보여주었습니다.
( 나이를 추정하는데에는 한 배우당 10장의 사진을 활용하였습니다. 평균 추정 나이는 10개 결과의 평균치입니다.)
배우들의 실제 나이와 아주 동일하지는 않지만 근사한 값을 보여주는 것을 알 수 있습니다. 이 근사치를 기준으로 연령대를 파악할 경우 실제 연령대와 같은 결과를 낼 수 있습니다.
또한 위와 같은 이미지 얼굴 인식은 성별과 연령대 뿐만 아니라 세심한 부분까지 파악 할 수 있습니다. 이미지 속 인물이 입을 다물었는지, 눈은 감았는지, 머리색은 무엇인지, 수염은 있는지, 혹은 더 나아가 인물의 인종을 구별하고 심지어 간단한 감정분석까지 가능합니다.
성인물을 판별하는 것 역시 위와 같은 원리와 동일합니다.
성인물은 얼굴 인식과 동일한 과정을 거치지만, 사진의 전체적인 부분에서 신체부위 노출의 정도를 비율로 나타내 특정 이미지가 성인물인지 아닌지를 판별합니다.
성인물이 아닌 사진 5장과 성인물인 사진 5장을 각각 대입했을때 나온 결과값은 아래의 표와 같습니다.
성인물인 사진인 경우, 평균적으로 약 97.8%의 정확도를 보여주고 있습니다. 성인물이 아닌 사진(노출이 있는 사복차림 혹은 수영복 사진 등)은 평균적으로 약 47.8%의 정확도를 보여줍니다.
이렇게 인스타그램에서 특정 "#해시태그"를 게시한 게시자의 성별, 연령대 파악 및 그 과정에 나타날 수 있는 불필요한 성인물을 구별하는 "스파이더킴"의 기술을 예시를 통해 설명해드렸습니다.
=========================
데이터 수집/정제/분석/시각화에서 최고의 서비스를 제공합니다.
지금 바로 홈페이지를 방문하셔서, 문의 요청해 주십시오!
Comments