월간 토픽
2017. 10. 25. 제 273-2호
이용자수 증감에 영향을 주는 요인을 찾기 위한 통계적 방법론
1. 이용자수 증감에 영향을 주는 요인에 대한 과학적 검증
온라인 시장이 성장기를 지나 성숙기에 접어들면서, 개별 서비스의 이용자수는 경제 · 기술 · 환경 · 소비자의 선택 등의 복합적 요인에 영향을 받아 변동하게 되었고, 이에 광고 · 이벤트 · 날씨 등과 같이 이용자수 증감에 영향을 주는 요인이 무엇인지 또한 경험적 · 직관적으로 알려지게 되었습니다. 그렇지만 그 요인과 증감 추이의 특성에 대한 과학적인 접근, 즉 요인이 통계적으로 유의한지, 어느 정도의 효과가 있는지에 대한 정확한 분석은 부족한 상황입니다. 이를 위하여 통계적 접근이 필요하지만 다양한 방법론 중 어떠한 방법론을 데이터에 적용할지 선택하는 것은 쉽지 않습니다. 이번 토픽에서는 다양한 방법론 중 아래 <표1>에서 제시한 방법론을 모바일 애플리케이션의 실제 데이터에 적용함으로써, 요인이 이용자수 증감에 통계적으로 유의한지 검증하는 법을 간략히 살펴보도록 하겠습니다.
- 표 1. 이용자수 증감에 영향을 주는 요인을 찾기 위한 통계적 방법론 (예시) -
2. 광고 효과 검증을 위한 시계열 인과추론 - 파파고 광고가 이용자수 증가에 미친 영향
아래 <그림 1>은 2016년 8월 9일 출시된 네이버의 인공지능(AI) 번역 애플리케이션인 파파고의 주간 이용자수 추세 입니다. 이용자수가 2016년 12월을 기점으로 크게 증가하였는데, 이 시기에 <표 2>와 같이 TV에 광고를 집행하였음을 알 수 있습니다. 이렇게 추세 데이터와 광고 집행 시기를 살펴보면 TV 광고가 이용자수 증가에 영향을 미쳤다고 해석할 수 있으나, 통계적으로 유의한지, 그 효과는 어느 정도였는지는 알 수 없습니다. 이를 위하여 적용할 수 있는 방법론으로는 시계열에서 어떤 하나의 이슈 · 사건이 개입(intervention)하여 영향을 끼쳤는지 분석하고 그 사건의 개입이 없었을 때(counter-factual series) 시계열은 현재 어떤 상태에 있었을지 분석하는 시계열 인과추론이 있습니다.
- 그림 1. 파파고의 주간 이용자수 추세 -
- 표 2. 파파고의 월간 추정 광고비 -
- 그림 2. 파파고에 대한 시계열 인과추론 분석 -
파파고에 대한 시계열 인과추론 분석 결과는 <그림 2>와 같습니다. 2016년 8월부터 2017년 4월까지 광고 집행이라는 요소의 개입이 없었다면 평균적으로 85,750명의 주간 이용자수가 기대되었을 것입니다. 그러나 2016년 12월부터 2017년 1월까지 진행된 광고 집행이라는 요소의 개입으로, 주간 이용자수는 평균 732,070명까지 증가하였으며, 우연적으로 이러한 결과가 일어날 가능성은 극히 드뭅니다. ² 따라서, 네이버의 파파고 광고 집행은 실제로 이용자수 증가라는 효과가 있으며, 그 효과로는 46억여 원의 광고비를 지불함으로써 평균 646,320명의 주간 이용자수의 증가를 얻은 것이라고 할 수 있겠습니다. 파파고 광고는 같은 시기에 온라인에서도 노출이 되었으나, 자사 사이트인 naver.com 프론트 페이지를 활용한 광고이므로, 광고비 지출이 없었을 것이라 가정하여 효과 분석을 위한 전체 추정 광고비에 온라인 광고비는 포함하지 않았습니다.
Note 2. 95% 신뢰수준에서 ± 23,585명, p값 = 0.001
3. 버즈량과 이용자수 사이의 선 · 후행 효과 검증을 위한 교차상관분석 - 버즈량이 레진코믹스 이용자수 증감에 미치는 영향
모바일 보편화를 통하여 가장 널리 사용되는 온라인 서비스인 소셜 미디어를 포함한 다양한 온라인 채널에서 구전되는 특정 서비스에 대한 버즈의 양과 해당 서비스의 이용자수는 서로 영향을 미칠 수 있습니다. 서비스 이용자수가 증감함에 따라 해당 서비스를 언급하는 버즈의 양이 증감할 수 있으며, 이벤트 진행 등으로 구전되는 버즈의 양이 서비스 이용자수 증가를 견인할 수도 있습니다. 이렇듯 두 요인 사이에 명확한 상관관계는 존재하나, 상관 여부에 있어 선 · 후행 여부가 명확하지 않을 때 교차상관분석을 통하여 확인할 수 있습니다.

아래 <그림 3>은 닐슨코리안클릭의 버즈워드 서비스를 통하여 산출한 일간 버즈량의 로그 변환 추이와 레진코믹스의 일간 이용자수입니다. 두 요인은 유사한 패턴을 보이며 상관관계가 있을 것으로 추정되지만, 어느 요인이 선행 요인으로 작용하는지 그래프 상으로는 명확히 알 수 없기에 교차상관분석을 통하여 확인할 수 있을 것입니다.
- 그림 3. 레진코믹스의 버즈량 및 일간 이용자수 추세 -
- 그림 4. 레진코믹스의 버즈량과 일간 이용자수 추세 사이의 교차상관분석 -
레진코믹스에 대한 교차상관분석 결과는 <그림 4> 와 같습니다. 분석 결과, 두 요인 간에 상관관계가 가장 높게 나타나는 시점은 버즈 발생 이틀 뒤의 이용자수로 나타났습니다. 일반적으로 상관분석은 인과관계로 볼 수 없지만, 교차상관분석은 시간차에 따른 선 · 후행 요인을 분석함으로써 인과관계로 해석할 수도 있습니다. 즉, 레진코믹스에 대한 버즈량의 증감은 이틀 뒤 애플리케이션의 이용자수를 증감시킨다고 할 수 있겠습니다. 이때 언급되었던 키워드는 ‘결제’ · ‘무료’ · ‘쿠폰’ 등 레진코믹스에서 이용 가능한 코인 거래와 관련된 버즈로, 서비스에 대한 접근성의 해결이 이용자수 증가를 견인하였음을 알 수 있습니다.
Note 5. 95% 신뢰수준에서 0.14 ± 0.10, p값 = 0.006
4. 시계열 요인과 비통제적 요인 분석을 위한 시계열 회귀분석 - 추세와 날씨 · 휴일이 배달 애플리케이션 이용자수에 미치는 영향
일반적인 시계열 분석은 시간의 흐름에 따라 관측된 데이터를 바탕으로 해당 기간에 발생한 추세를 분석하여 미래를 예측하고자 널리 활용되는 방법론이지만, 실제 데이터는 추세 외에도 통제할 수 없는 요인에 의하여 영향을 받을 수 있습니다. 이렇게 시계열 추세와 비통제적 요인을 동시에 고려하여야 할 때 사용할 수 있는 방법론이 시계열 회귀분석입니다.
- 그림 5. 배달 애플리케이션의 일간 이용자수 추세 및 평균 기온 -
그 중에서도 배달 애플리케이션은 다양한 외부적 요인에 의하여 이용자수 증감에 영향을 받을 수 있는데, 여기에서는 시계열 요인과 날씨와 휴일 여부를 포함한 비통제적 요인을 동시에 고려하도록 하겠습니다. 분석 대상은 2017년 9월 기준 월 도달률이 2% 이상인 배달의민족 · 배달요기요 · 배달통 합산 UV이며, 서울 · 인천 · 경기 지역에 한정하였고, 날씨는 기상청의 서울 지역 평균 기온 데이터를 사용하였습니다. 이밖에도 강수 여부 및 강수량, 대형 스포츠 이벤트 등을 변수로 시계열 회귀분석을 실시하였으나, 통계적으로 유의한 결과를 발견할 수는 없었습니다.
- 표 3. 배달 애플리케이션의 일간 이용자수 추세와 기온 및 휴일 사이의 시계열 -
시계열 회귀분석 결과인 <표 3>에 따르면, 서울 · 인천 · 경기 지역의 배달의민족 · 배달요기요 · 배달통 애플리케이션의 일간 합산 UV는 179,427.54명을 기준으로 완만한 증가세를 보이는 우상향 그래프로, 시간의 흐름에 따라 매일 339.37명씩 증가하였습니다. 또한, 외부 비통제 요인인 서울 지역의 평균 기온이 섭씨 1도 내려갈 수록 3,255.78명씩 증가하였으며, 또다른 비통제 요인인 휴일의 경우 평일보다 73,272.25명 더 많았습니다.
5. 트래픽 예측의 기초가 되는 영향 요인
앞서 살펴본 사례를 통하여, 모바일 애플리케이션의 이용자수에 영향을 미친 요인을 찾기 위하여 통계적 방법론을 어떻게 활용할 수 있는지 알아보았습니다. 이밖에도 다양한 방법론을 통하여 모바일 애플리케이션, 나아가 온라인의 전반적인 이용자수에 영향을 주는 요인에 대한 검증을 통계적으로 진행이 가능합니다. 그리고 서비스 이용자수 증감에 대한 요인의 영향을 통계적으로 분석하는 것은, 전반적인 서비스의 트래픽을 정교하게 예측하는 데 있어 중요한 바탕이 될 것입니다.
- 그림 6. 배달 애플리케이션의 향후 일 년 일간 이용자수 추세 예측 -
<그림 6>은 앞서 시계열 회귀분석을 통하여 검증된 평균 기온과 휴일 여부를 사용하여 2017년 10월부터 2018년 9월까지 배달 애플리케이션의 향후 일간 이용자수를 예측한 결과입니다. 하지만 보다 정교하게 예측을 하기 위하여서는 이밖에도 다양한 요인을 통계적으로 고려하여 모델링하는 것이 바람직할 것입니다. 그리고 이를 위하여서는 통계적 방법론을 통해 요인이 이용자수 증감에 통계적으로 유의한 영향을 미치는지 검증하는 것이 중요하다고 할 수 있겠습니다.
통계 데이터 산출의 한계 안내
본 사이트에서 제공하는 데이터 및 보고서는 인터넷 미디어 리서치와 컨설팅 서비스를 제공하는 코리안클릭이 작성한 것으로 특정 기업의 미래사업이나 재정적인 측면에 영향을 미칠 수 있는 전망자료를 포함하고 있으나, 전망과 다른 결과를 초래할 수 있는 다양한 변수들이 존재한다는 점을 유념하시기 바랍니다.

또한, 닐슨코리안클릭(이하 코리안클릭)은 만 7세 이상 만 69세 이하의 국내 거주 내국인을 대상으로, 표본을 통해 국내 PC인터넷 및 안드로이드OS 스마트폰 이용자의 행태에 대한 통계적 추정치를 제공하고 있습니다. 따라서 표본 오차 그리고 추정치와 다른 결과를 초래할 수 있는 다양한 변수들이 존재할 수 있으며, Site centric 또는 Browser centric 방법과는 측정 대상(‘학교’ 또는 ‘PC방’과 같은 공공장소 및 해외 발생 트래픽 제외 등) 및 측정기준(페이지 요청 기준이 아닌 페이지 완료 기준 등)의 불일치를 비롯하여 측정 OS의 한계로 인해 조사결과의 차이가 발생할 수 있다는 점을 유의하시기 바랍니다.

코리안클릭이 정의 내린 PC 인터넷 이용자는 최근 1개월 이내 한 번 이상 인터넷에 접속하여 이용하는 만 7세 이상 만 69세 이하의 국내 거주 내국인으로, 인터넷 접속 및 이용은 인터넷 브라우저를 이용하여 인터넷 사이트에 접속하거나, 온라인 게임 접속, 메신저 사용이 모두 포함됩니다. 인터넷 이용자 모집단 추정조사는 유동적인 인터넷 이용자 규모 및 이용자 인구특성(국내 인터넷 이용자 수, 인구통계학적 구조 등)을 파악하여 코리안클릭 패널을 통해 측정된 데이터의 신뢰성 검증 및 보정에 활용됩니다.

스마트폰 인터넷 이용자의 경우, 전체 스마트폰 이용자 중 만 7세 ~ 만 69세 안드로이드 OS 이용자만을 대상으로 측정하고 있으며, M2M, 선불폰 이용자와 중복 가입자는 제외하고 있습니다. 또한 기술 및 정책의 제한으로 iOS를 포함한 기타 OS의 스마트폰과 태블릿 PC는 측정에서 제외하고 있습니다. 이러한 이유로 코리안클릭이 정의 내린 안드로이드 스마트폰 이용자는 전체 스마트폰 이용자 대비 약 83.6%의 비중(2016년 7월 기준)을 보이고 있습니다.

Mobile web 이용행태는 안드로이드 기본 브라우저, 크롬, 삼성S 브라우저 이용행태를 대상으로 합니다. Mobile 내 App과 Web의 이용행태를 측정하는 데 있어서, 개별 App 내 web 이용행태를 포함해 In-app Browsing 방식을 통한 타 서비스 이용은 측정이 불가하여 해당 App 내 트래픽으로 측정되오니, 해석에 유의하시기 바랍니다. 또한 모집단 추정조사를 통해 조사된 안드로이드 모집단을 기준으로 산출한 가중치를 적용한 데이터 이므로 측정 OS의 한계 및 통계적 가중치 적용에 따른 데이터 한계가 존재할 수 있으니 해석에 유의하시기 바랍니다.

데이터 측정 한계에 대한 자세한 내용은 아래 링크를 참조하시기 바랍니다.

[ PC 데이터 측정의 한계 ], [ Mobile 데이터 측정의 한계 ]
Copyright (c) Nielsen KoreanClick. All rights reserved.

목록보기 >