Original Article by Joseph Mata (NYC Data Science Academy Blog) Translated by JJ Hwang
서론
요가와 관련된 사진이나 동영상을 공유하는 인스타그램 계정을 운영하고 있는데, 이 계정의 팔로워 수를 늘이기 위해 무엇을 하면 좋을 지 고민하고 있었습니다.
인스타그램에서 인기있는 요가 강사들이 사용하는 해시태그가 무엇일지 알아보면 좋겠다는 생각입니다. 요가 수행자들이 인스타그램에 사진을 올리는 트렌드가 있는 듯 합니다. 어떤 날은 물구나무서기 자세가 많이 올라오고, 어떤 날은 균형잡기 자세가 많이 올라오는데, 많은 수행자들의 페이지를 방문하여 요가 자세와 포스팅에 달린 해시태그를 분석하는 것이 의미있다고 생각합니다. 이후 그러한 해시태그를 저의 포스팅에 적극적으로 활용하면 내 포스팅도 조회수와 좋아요 수가 증가할 것이라는 것이 기본 발상입니다. 해시태그 분석은 물론 웹크롤링을 활용하여 자동적으로 수집해야 하겠지요.
다음의 세 계정을 선정하여 각 계정의 최근 7개의 포스팅을 웹크롤링하였습니다.
· dylanwerneryoga(Dylan)
· seanphelpsyoga(Sean)
· kevindhofer(Kevin)
활용한 스킬 · Selenium · Python · R Studio · WordCloud2 수집 방식 (1) 내 계정 로그인을 자동화 (2) Xpath를 활용하여 대상 계정의 페이지를 찾아가도록 설정 (3) 대상 페이지 입력과 클릭을 위한 ActionChain 생성 (4) Xpath와 또 다른 ActionChain을 활용하여 가장 최근의 포스팅을 지정 클릭 이 때 해시태그가 보이지 않아 웹크롤링 할 수 없는 문제를 발견했습니다. 이유는 방문자들이 해시태그가 아닌 내용글에 집중하기 위해 계정의 주인이 해시태그를 캡션 밑에 달기 때문입니다. 이에 팔로워들이 댓글을 달면 해시태그가 “마치 사라져 보이지 않는 것 처럼” 됩니다. 해시태그가 다시 보이게 하려면 해당 포스팅에 달린 모든 댓글이 다 보여져야 합니다.
이를 해결하기 위해 while loop를 가동시켰습니다. 즉, “더 많은 댓글을 계속해서 띄우라”는 명령인 셈이죠. 이후 해시태그를 크롤링하여 csv 파일로 저장하고 R studio를 활용하여 시각화 하였습니다.
해시태그 분석
총 좋아요 수와 포스팅 하나 당 좋아요 평균 수는 아래와 같습니다.
각 7개의 포스팅에 대한 일짜별 좋아요 수는 아래와 같습니다.
Dylan은 76개의 해시태그를 사용했는데 그 중 41개는 중복없이 한 번만 사용한 것이었습니다. Dylan은 평균적으로 한 포스팅 당 11개의 해시태그를 사용합니다. Dylan이 선호하는 해시태그는 아래와 같습니다.
#yoga(7), #mensyoga(7) ,#yogainspiration(7) , #yogachallenge(5)
Sean은 78개의 해시태그를 사용했는데 그 중 49개는 중복없이 한 번만 사용한 것이었습니다. Sean은 한 포스팅 당 평균적으로 12개의 해시태그를 사용했습니다. 그의 선호 해시태그는 아래와 같습니다. #yogatips(8), #yogahelp(4), #yogafit(4), #yogabeginners(3) 그의 전략은 요가 초보자라는 것을 알 수 있습니다. 그러고 보니 Sean은 이제 막 온라인 교습 프로그램을 런칭하였군요.
Kevin은 163개의 해시태그, 그 중 84개는 중복없이 사용했습니다. Kevin은 한 포스팅 당 평균적으로 12개의 해시태그를 사용합니다. 그가 선호하는 해시태그는 아래와 같습니다. #portugal (11), #yoga(7), #yogainspiration(7), #instayoga(6) 그의 초점은 요가 자세이며 또한 포스팅한 지역이나 그 지역의 주변 풍경이라는 것을 알 수 있습니다.
정리해 보면 21개의 포스팅에 21개의 사진과 317개의 해시태그가 사용되었습니다. 그 중 156개의 해시태그는 중복없이 단발적으로 사용된 것입니다.
결론 제가 좋아하는 세 명의 요가 강사들이 가장 많이 사용하는 해시태그는 #Yogainspritation, #yoga, #menyoga 였습니다. 이 해시태그를 저의 포스팅에도 한 번 사용해보려고 합니다. 이후 알고리즘을 활용하여 저의 포스팅에서 어떤 해시태그가 검색되어 방문자가 유입되었는지 알아보도록 하겠습니다. 소스 코드는 이곳을 참고해 주세요.
========================= 웹크롤링, 웹스크래핑, 웹데이터 수집, 빅데이터에서 최고의 서비스를 제공합니다. 지금 바로 홈페이지를 방문하셔서, 문의 요청해 주십시오!
Comments