샘플링(Sampling)이란 무엇일까?

데이터 분석에서 샘플링(=표집)은 전체 데이터에서 의미 있는 정보를 찾아내기 위해, 그중 일부만을 추출하여 분석하는 방법입니다.

위 내용만으로는 샘플링에 대한 설명이 부족한 감이 있어, 간단한 예시를 통해 샘플링에 대해 알아보겠습니다.

아래의 잔에는 350ml의 콜라가 담겨 있습니다. 이 콜라 전체(350ml)에 대한 성분을 분석하고자 한다면, 어떤 방식으로 진행할 수 있을까요?

구글 애널리틱스 샘플링 파헤치기_코카콜라 예시

첫 번째는 가장 단순한 방법으로 잔에 담긴 모든 콜라의 성분을 분석하는 것입니다. 이 방법을 사용하면 잔에 담긴 콜라 350ml의 모든 성분을 분석하게 되므로 정확한 결과를 얻게 될 것입니다.

구글 애널리틱스 샘플링 파헤치기_코카콜라 성분 분석 결과

그렇다면 잔에 담긴 콜라가 아닌, 거대한 수영장에 가득 채워진 콜라의 전체 성분을 분석하려면 어떻게 해야 할까요? 이 작업을 첫 번째 방식으로 진행하게 되면 엄청난 인력과 시간이 들게 될 것입니다.

구글 애널리틱스 샘플링 파헤치기_코카콜라 수영장 예시

이 작업을 좀 더 간단하게 할 수는 없을까요? 이때 샘플링이라는 개념을 분석에 활용할 수 있습니다. 수영장에 있는 콜라의 성분이 균일하게 섞여있다는 가정 하에 콜라 500 ml를 표본으로 추출하여 아래와 같이 성분을 분석합니다.

구글 애널리틱스 샘플링 파헤치기_코카콜라 수영장 샘플링

분석한 표본의 결과를 수영장에 있는 전체 콜라 용량에 맞춰 곱해줌으로써 전체 콜라의 성분을 추정할 수 있습니다.

구글 애널리틱스 샘플링 파헤치기_코카콜라 수영장 샘플링 결과

물론, 이렇게 추정한 결과는 실제 수영장에 있는 콜라의 전체 성분과 정확히 일치하지 않습니다. 대신, 앞서 언급한대로 수영장 내의 콜라의 성분이 균일하게 섞여있다고 가정한다면, 이렇게 간단한 작업만으로도 전체의 성분을 유사하게 추정할 수 있습니다.

이렇게 샘플링을 활용하면 일부 데이터만으로도 전체 데이터의 정보를 쉽게 추정할 수 있습니다.

샘플링은 왜 적용되는가?

구글 애널리틱스는 무료로 제공되는 서비스로 데이터의 수집, 연산을 위해 구글의 컴퓨팅 자원을 활용합니다.

구글 애널리틱스 샘플링 파헤치기_구글 데이터 센터

전 세계에서 실시간으로 수집되고, 조회되는 모든 데이터를 처리하기 위해서는 엄청나게 많은 컴퓨팅 자원이 필요하지만 결국 이 자원도 한정되어 있습니다.

특히, 방문자가 많은 사이트의 경우에는 하루에 발생하는 로그 데이터의 양이 상당하여 고성능 컴퓨터를 활용하더라도, 데이터를 처리하고 조회하는데 상당한 시간이 소요됩니다. 이러한 사이트의 데이터를 한 달, 일 년 혹은 그 이상의 기간으로 조회하게 되면 어떻게 될까요?

이 연산을 위해 많은 컴퓨팅 비용과 시간이 소요될 것입니다. 이러한 이유로 구글 애널리틱스는 한정된 자원 내에서 최대한 빠르고 효율적인 결과를 보여주기 위해, 조회하는 데이터의 양이 많을 경우 이를 샘플링하고 그 결과를 사용자에게 보여줍니다.

샘플링이 적용되는 조건

구글 애널리틱스에서 데이터 샘플링은 언제 적용될까요? 구글에서 공개한 공식적인 기준은 다음과 같습니다.

  • 애널리틱스 표준(무료 버전) : 속성 수준에서 사용 중인 기간에 세션 50만 회
  • 애널리틱스 360(유료 버전) : 보기 수준에서 사용 중인 기간에 세션 1억 회

위 기준을 넘어가는 데이터가 조회될 경우에는 데이터 샘플링이 적용되지만, 경우에 따라서는 더 적은 데이터를 조회하더라도 샘플링이 적용될 수 있습니다.

데이터 샘플링이 발생하지 않는 경우

단순히 기본 보고서를 조회하는 경우에는 데이터의 양이 위 기준을 초과하더라도 데이터 샘플링이 적용되지 않습니다. 아래의 예시 이미지에서는 데이터 조회 기간에 포함된 세션이 약 65만 회로, 위에서 언급한 기준(50만 회)을 초과하였음에도 불구하고 샘플링이 적용되지 않았습니다.

참고. 데이터 샘플링이 발생할 때는 보고서 이름 우측의 방패 모양이 노란색으로 변하게 됩니다.

구글 애널리틱스 샘플링 파헤치기_기본 보고서 샘플링 적용안되는 예시

데이터 샘플링이 발생하는 경우

1. 사이트 이용 경로 시각화 보고서

단, 예외적으로 아래와 같이 방문자의 이동 경로를 시각화하는 보고서일 경우에는 기본 보고서이더라도 데이터 샘플링이 적용됩니다. 이러한 보고서 유형은 샘플링 안내 문구를 우측에서 확인할 수 있습니다.

참고. 약 10만 회의 세션이 기간 내에 포함된다면 샘플링이 발생합니다.
– 해당되는 보고서 : 사용자 흐름, 행동 흐름, 이벤트 흐름, 목표 흐름

구글 애널리틱스 샘플링 파헤치기_사용자 흐름 보고서 예시

2. 세그먼트를 적용하는 경우

사용자 정의 세그먼트를 사용하는 경우에 데이터 조회수가 기준을 넘어간다면 샘플링이 적용됩니다.

아래 이미지는 [거래가 발생한 세션수]라는 세그먼트를 보고서에 적용한 예시입니다. 데이터 조회 기간에 포함된 세션이 약 57만 회로 기준을 넘어갔으므로 샘플링이 적용되었습니다.

참고로 노란색 방패 위에 마우스를 올리면 아래와 같이 샘플링 비율을 확인할 수 있습니다.

구글 애널리틱스 샘플링 파헤치기_세그먼트 안내 팝업

3. 보조 측정기준을 추가하는 경우

보고서에 보조 측정기준을 추가하는 경우에도 데이터 조회수가 기준을 넘어간다면 샘플링이 적용됩니다.

구글 애널리틱스 샘플링 파헤치기_보조 측정기준 적용 예시

4. 맞춤 보고서를 사용하는 경우

기본 보고서에 없는 측정 기준, 측정 항목의 조합으로 맞춤 보고서를 생성할 경우에도 데이터 조회수가 기준을 넘어간다면 샘플링이 적용됩니다.

구글 애널리틱스 샘플링 파헤치기_맞춤보고서 적용 예시

샘플링 대응하는 방법

1. 기간을 쪼개서 조회하기

샘플링은 "기간 내"에 포함된 세션이 많을 경우에 적용됩니다. 이는 기간을 줄여, 포함된 세션 수를 줄이게 되면 샘플링이 적용되지 않는다는 것으로도 해석할 수 있습니다.

예를 들어 30일 치의 데이터를 조회했을 때 샘플링이 적용된다면, 이를 15일 치로 나눠서 두 번 조회할 수가 있습니다. 대신, 이 방법을 사용한다면 나눠서 조회된 데이터를 합치기 위해 [데이터 내보내기] 기능을 사용해야 합니다.

구글 애널리틱스 샘플링 파헤치기_데이터 내보내기 기능 활용

최종적으로 이 기능을 통해 내보낸 데이터들을 스프레드 시트에서 합침으로써 샘플링이 걸리지 않은 데이터를 얻을 수 있습니다. 단, 하루치 데이터를 조회했을 때에도 샘플링이 적용된다면 이 방법을 사용할 수 없습니다.

2. 데이터 스튜디오 활용하기

다른 파일로 내보내진 데이터를 합치는 작업은 생각보다 쉽지 않습니다. 그리고 파일의 개수가 많아진다면 그만큼 샘플링되지 않은 데이터를 얻기가 매우 힘들어지게 됩니다. ( 조회 -> 내보내기 -> 데이터 병합 작업의 반복 )

데이터 스튜디오에는 샘플링을 제거하기 위해 기간을 나눠서 조회한 뒤, 이를 합친 데이터를 제공하는 데이터 소스가 존재합니다. 아래는 Supermetrics에서 제공하는 데이터 소스로 약 2주 정도의 기간동안 체험판으로 사용할 수 있습니다.

구글 애널리틱스 샘플링 파헤치기_노샘플링 데이터소스 예시

3. R에서 googleAnalyticsR 패키지 사용하기

R을 사용할 수 있다면 googleAnalyticsR 패키지에 있는 anti sampling 기능을 활용하여 샘플링이 적용되지 않은 데이터를 얻을 수 있습니다.

구글 애널리틱스 샘플링 파헤치기_R anti sample 기능

참고 링크. https://code.markedmondson.me/googleAnalyticsR/articles/v4.html

4. 기본 보고서를 최대한 활용하기

앞서 언급한 대로 기본 보고서를 조회만 한다면 샘플링이 적용되지 않습니다. 기존에 맞춤 측정기준을 활용하여 추가 정보를 별도로 수집하고 있었다면, 이를 기본 측정기준에 포함시키는 형태로 변경하여 기본 보고서만으로도 데이터를 파악할 수 있게합니다. ( 맞춤 측정기준은 기본 데이터 세트에 포함되어있지 않기 때문에, 조회 데이터가 많을 경우 샘플링이 적용될 수 밖에 없는 구조입니다. )

  • 기존
    – 이벤트 카테고리 : 상품 목록
    – 이벤트 액션 : 사이드바
    – 이벤트 라벨 : 색상필터
    – 맞춤 측정기준 : 빨강
  • 변경
    – 이벤트 카테고리 : 상품 목록
    – 이벤트 액션 : 사이드바_색상필터
    – 이벤트 라벨 : 빨강

다만, 이 방법을 사용할 경우에는 측정기준의 조합이 다양해져 보고서의 행 개수 제한을 초과(100만 행)할 수 있으므로 유의해야합니다.

guest
2 댓글
오래된 순
최신 순 평가 순
Inline Feedbacks
모든 댓글보기
똘똘이스머프

자료가 너무 좋네요!!

샘플링에 대해서 확실하게 이해되었습니다!