이용자수 증감에 영향을 주는 요인을 찾기 위한 통계적 방법론
|
1. 이용자수 증감에 영향을 주는 요인에 대한 과학적 검증 |
온라인 시장이 성장기를 지나 성숙기에 접어들면서, 개별 서비스의 이용자수는 경제 · 기술 · 환경 · 소비자의 선택 등의 복합적 요인에 영향을 받아 변동하게 되었고, 이에 광고 · 이벤트 · 날씨 등과 같이 이용자수 증감에 영향을 주는 요인이 무엇인지 또한 경험적 · 직관적으로 알려지게 되었습니다. 그렇지만 그 요인과 증감 추이의 특성에 대한 과학적인 접근, 즉 요인이 통계적으로 유의한지, 어느 정도의 효과가 있는지에 대한 정확한 분석은 부족한 상황입니다. 이를 위하여 통계적 접근이 필요하지만 다양한 방법론 중 어떠한 방법론을 데이터에 적용할지 선택하는 것은 쉽지 않습니다. 이번 토픽에서는 다양한 방법론 중 아래 <표1>에서 제시한 방법론을 모바일 애플리케이션의 실제 데이터에 적용함으로써, 요인이 이용자수 증감에 통계적으로 유의한지 검증하는 법을 간략히 살펴보도록 하겠습니다.
|
- 표 1. 이용자수 증감에 영향을 주는 요인을 찾기 위한 통계적 방법론 (예시) - |
|
2. 광고 효과 검증을 위한 시계열 인과추론 - 파파고 광고가 이용자수 증가에 미친 영향 |
아래 <그림 1>은 2016년 8월 9일 출시된 네이버의 인공지능(AI) 번역 애플리케이션인 파파고의 주간 이용자수 추세 입니다. 이용자수가 2016년 12월을 기점으로 크게 증가하였는데, 이 시기에
<표 2>와 같이 TV에 광고를 집행하였음을 알 수 있습니다. 이렇게 추세 데이터와 광고 집행 시기를 살펴보면 TV 광고가 이용자수 증가에 영향을 미쳤다고 해석할 수 있으나, 통계적으로 유의한지, 그 효과는 어느 정도였는지는 알 수 없습니다. 이를 위하여 적용할 수 있는 방법론으로는 시계열에서 어떤 하나의 이슈 · 사건이 개입(intervention)하여 영향을 끼쳤는지 분석하고 그 사건의 개입이 없었을 때(counter-factual series) 시계열은 현재 어떤 상태에 있었을지 분석하는 시계열 인과추론이 있습니다.
|
- 그림 1. 파파고의 주간 이용자수 추세 - |
|
- 표 2. 파파고의 월간 추정 광고비 - |
|
- 그림 2. 파파고에 대한 시계열 인과추론 분석 - |
|
파파고에 대한 시계열 인과추론 분석 결과는 <그림 2>와 같습니다. 2016년 8월부터 2017년 4월까지 광고 집행이라는 요소의 개입이 없었다면 평균적으로 85,750명의 주간 이용자수가 기대되었을 것입니다. 그러나 2016년 12월부터 2017년 1월까지 진행된 광고 집행이라는 요소의 개입으로, 주간 이용자수는 평균 732,070명까지 증가하였으며, 우연적으로 이러한 결과가 일어날 가능성은 극히 드뭅니다. ² 따라서, 네이버의 파파고 광고 집행은 실제로 이용자수 증가라는 효과가 있으며, 그 효과로는 46억여 원의 광고비를 지불함으로써 평균 646,320명의 주간 이용자수의 증가를 얻은 것이라고 할 수 있겠습니다. 파파고 광고는 같은 시기에 온라인에서도 노출이 되었으나, 자사 사이트인 naver.com 프론트 페이지를 활용한 광고이므로, 광고비 지출이 없었을 것이라 가정하여 효과 분석을 위한 전체 추정 광고비에 온라인 광고비는 포함하지 않았습니다. |
Note 2. 95% 신뢰수준에서 ± 23,585명, p값 = 0.001
|
3. 버즈량과 이용자수 사이의 선 · 후행 효과 검증을 위한 교차상관분석 - 버즈량이 레진코믹스 이용자수 증감에 미치는 영향 |
모바일 보편화를 통하여 가장 널리 사용되는 온라인 서비스인 소셜 미디어를 포함한 다양한 온라인 채널에서 구전되는 특정 서비스에 대한 버즈의 양과 해당 서비스의 이용자수는 서로 영향을 미칠 수 있습니다. 서비스 이용자수가 증감함에 따라 해당 서비스를 언급하는 버즈의 양이 증감할 수 있으며, 이벤트 진행 등으로 구전되는 버즈의 양이 서비스 이용자수 증가를 견인할 수도 있습니다. 이렇듯 두 요인 사이에 명확한 상관관계는 존재하나, 상관 여부에 있어 선 · 후행 여부가 명확하지 않을 때 교차상관분석을 통하여 확인할 수 있습니다.
아래 <그림 3>은 닐슨코리안클릭의 버즈워드 서비스를 통하여 산출한 일간 버즈량의 로그 변환 추이와 레진코믹스의 일간 이용자수입니다. 두 요인은 유사한 패턴을 보이며 상관관계가 있을 것으로 추정되지만, 어느 요인이 선행 요인으로 작용하는지 그래프 상으로는 명확히 알 수 없기에 교차상관분석을 통하여 확인할 수 있을 것입니다.
|
- 그림 3. 레진코믹스의 버즈량 및 일간 이용자수 추세 - |
|
- 그림 4. 레진코믹스의 버즈량과 일간 이용자수 추세 사이의 교차상관분석 - |
|
레진코믹스에 대한 교차상관분석 결과는 <그림 4>
와 같습니다. 분석 결과, 두 요인 간에 상관관계가 가장 높게 나타나는 시점은 버즈 발생 이틀 뒤의 이용자수로 나타났습니다. 일반적으로 상관분석은 인과관계로 볼 수 없지만, 교차상관분석은 시간차에 따른 선 · 후행 요인을 분석함으로써 인과관계로 해석할 수도 있습니다. 즉, 레진코믹스에 대한 버즈량의 증감은 이틀 뒤 애플리케이션의 이용자수를 증감시킨다고 할 수 있겠습니다. 이때 언급되었던 키워드는 ‘결제’ · ‘무료’ · ‘쿠폰’ 등 레진코믹스에서 이용 가능한 코인 거래와 관련된 버즈로, 서비스에 대한 접근성의 해결이 이용자수 증가를 견인하였음을 알 수 있습니다.
|
Note 5. 95% 신뢰수준에서 0.14 ± 0.10, p값 = 0.006
|
4. 시계열 요인과 비통제적 요인 분석을 위한 시계열 회귀분석 - 추세와 날씨 · 휴일이 배달 애플리케이션 이용자수에 미치는 영향 |
일반적인 시계열 분석은 시간의 흐름에 따라 관측된 데이터를 바탕으로 해당 기간에 발생한 추세를 분석하여 미래를 예측하고자 널리 활용되는 방법론이지만, 실제 데이터는 추세 외에도 통제할 수 없는 요인에 의하여 영향을 받을 수 있습니다. 이렇게 시계열 추세와 비통제적 요인을 동시에 고려하여야 할 때 사용할 수 있는 방법론이 시계열 회귀분석입니다.
|
- 그림 5. 배달 애플리케이션의 일간 이용자수 추세 및 평균 기온 - |
|
그 중에서도 배달 애플리케이션은 다양한 외부적 요인에 의하여 이용자수 증감에 영향을 받을 수 있는데, 여기에서는 시계열 요인과 날씨와 휴일 여부를 포함한 비통제적 요인을 동시에 고려하도록 하겠습니다. 분석 대상은 2017년 9월 기준 월 도달률이 2% 이상인 배달의민족 · 배달요기요 · 배달통 합산 UV이며, 서울 · 인천 · 경기 지역에 한정하였고, 날씨는 기상청의 서울 지역 평균 기온 데이터를 사용하였습니다. 이밖에도 강수 여부 및 강수량, 대형 스포츠 이벤트 등을 변수로 시계열 회귀분석을 실시하였으나, 통계적으로 유의한 결과를 발견할 수는 없었습니다.
|
- 표 3. 배달 애플리케이션의 일간 이용자수 추세와 기온 및 휴일 사이의 시계열 - |
|
시계열 회귀분석 결과인 <표 3>에 따르면, 서울 · 인천 · 경기 지역의 배달의민족 · 배달요기요 · 배달통 애플리케이션의 일간 합산 UV는 179,427.54명을 기준으로 완만한 증가세를 보이는 우상향 그래프로, 시간의 흐름에 따라 매일 339.37명씩 증가하였습니다. 또한, 외부 비통제 요인인 서울 지역의 평균 기온이 섭씨 1도 내려갈 수록 3,255.78명씩 증가하였으며, 또다른 비통제 요인인 휴일의 경우 평일보다 73,272.25명 더 많았습니다.
|
5. 트래픽 예측의 기초가 되는 영향 요인 |
앞서 살펴본 사례를 통하여, 모바일 애플리케이션의 이용자수에 영향을 미친 요인을 찾기 위하여 통계적 방법론을 어떻게 활용할 수 있는지 알아보았습니다. 이밖에도 다양한 방법론을 통하여 모바일 애플리케이션, 나아가 온라인의 전반적인 이용자수에 영향을 주는 요인에 대한 검증을 통계적으로 진행이 가능합니다. 그리고 서비스 이용자수 증감에 대한 요인의 영향을 통계적으로 분석하는 것은, 전반적인 서비스의 트래픽을 정교하게 예측하는 데 있어 중요한 바탕이 될 것입니다.
|
- 그림 6. 배달 애플리케이션의 향후 일 년 일간 이용자수 추세 예측 - |
|
<그림 6>은 앞서 시계열 회귀분석을 통하여 검증된 평균 기온과 휴일 여부를 사용하여 2017년 10월부터 2018년 9월까지 배달 애플리케이션의 향후 일간 이용자수를 예측한 결과입니다. 하지만 보다 정교하게 예측을 하기 위하여서는 이밖에도 다양한 요인을 통계적으로 고려하여 모델링하는 것이 바람직할 것입니다. 그리고 이를 위하여서는 통계적 방법론을 통해 요인이 이용자수 증감에 통계적으로 유의한 영향을 미치는지 검증하는 것이 중요하다고 할 수 있겠습니다.
|