A/B 테스팅이란?

5 minute read

  • 본 내용은 T 아카데미의 권정민 강사님의 A/B테스트 기법’ 강의를 듣고 작성하였습니다.(T 아카데미 권정민 강사님의 실제 강의 링크)

A/B 테스트란?

A/B테스트는 임의로 나눈 두 집단에게 서로 다른 컨텐츠를 제시한 후 두 집단 중 어떤 집단이 더 높은 성과를 보이는지 정량적으로 평가하는 방식. 학계 연구에서는 흔히 이야기 하는 ‘무작위 비교 연구’라고 하는 방법이며, 서비스에 적용한 방법이다.

예전에는 사람들의 서비스 사용 내용을 리소스를 투자해 정성적인 인터뷰를 진행했다면, 현재에서는 기술의 발전으로 데이터를 이용해 사용자들과 관련된 어떤 테스트를 해볼 수 있는 것이 쉬워지고, 종류도 다양해졌다.

image

고객분석 관련 해서는 크게 종단적 연구와, 횡단적 연구로 나눌 수 있고, 종단적 연구의 대표적인 분석 기법으로는 코호트 분석, 횡단적 연구의 대표적인 기법으로는 A/B 테스트와 다변량 분석이 있다.

A/B 테스트를 간단하게 보면 아래와 같은 순서로 진행된다.

image

여기까지는 크게 어렵지가 않다. 하지만, 여기서 문제는 추상적으로 이러한 순서들로 알고 있는 것과 실제로 A/B 테스트를 진행할 때 고려해야하는 부분에 큰 갭이 있다는 것이다. 고려해야할 사항들이 많은데 이를 이해하기 위해서는 우선 A/B 테스트의 배경을 잘 알 필요가 있다.

  • 내생성 vs 외생성
    • 내생성 : 해당 시스템 내에서 결정되거나 생성되는 것
    • 외생성 : 시스템 밖의 요소로 결정되거나 생성되는 것(ex. 날씨 등)
  • 사용자의 행동
    • 많은 경우 여러 가지 요소가 복합적으로 작용 -> 외생성 및 고려하는 변수의 영향으로 명확한 요인 및 원인 분석 어려움
    • 많은 실무 상황에서는 내생성을 위한 시스템을 일부 요소만으로 구축하기 어려움
  • 상관 관계는 인과 관계를 나타내지 않는다.
    • 최대한 다른 요인을 제거함으로써 인과 관계에 최대한 가까운 근거를 만들고자 함
    • 대부분의 경우 한 가지 요인만으로 결과를 파악하기가 어렵고, 많은 요인들이 동시 다발적으로 적용되기 때문에, 인과 관계를 파악하기는 어렵고, 이러한 근거를 파악하기 위함임

이외에 실제 오바마의 선거 당시 사용했던 활용 사례가 있으나, 이는 쉽게 찾을 수 있는 자료이므로 정리하지 않는다.

A/B 테스트 설계

실험 설계(Experimental Design)

A/B 테스트는 실험계획법의 일종.

실험계획법은 실험에 대한 계획방법으로, 해결하려는 문제에 대하여 실험방법, 데이터 수집, 통계 분석들을 통하여 최소의 실험횟수로부터 최대의 정보를 획득하도록 계획하는 것.(네이버 농업용어사전)

image

A/B 테스트 사회 조사 방법론 내의 다양한 조사 방법론 중에서 유사 실험 조사 설계의 카테고리에 속한다.

순수실험조사설계는 실험 환경을 만들고 그 안에서 사람들의 변화를 보는 방법이나, 최근에는 인권 침해라는 이야기가 있음(사람들을 감옥에 넣고 실험하는 밀그램 실험이 대표적인 예)

A/B 테스트가 속화는 유사실험조사설계는 실험 환경에 대한 세팅은 최대한 하는 편, 외생성이 개입하는 부분도 어느 정도 확보한다. 이 중 비동일통제집단 전후 비교 설계의 약식 버전이 A/B 테스팅이다. 시계열 설계는 지난 주와 이번 주의 사용자들의 차이를 보는 방법.

유사실험조사설계는 가능하면, 안하는 편이 좋은 설계인데, 타당성이나 신뢰도가 완전히 갖춰진 환경은 아니기 때문이다. 하지만, 실험 환경을 따로 갖추기 힘든 실무에서는 이런 설계가 일반적임.

image

설계를 하는 과정은 위와 같다. 특별하게 이해가 안되거나, 신경 써야 할 만큼 몰랐던 부분의 설명은 없기 때문에 따로 필기를 하지는 않는다.

image

A/B 테스트를 검증할 때는 실험에 맞는 적절한 지표를 선정해야 한다. 구할 수 있으면서도 모호하지 않고, 직관적으로 이해가 되어야 하는데, 실제로 A/B 테스트 시에 많이 놓치는 부분이라고 한다. 지표를 선정하는 것은 실험을 하는 이유라든가, 실험을 통해 얻고자 하는 부분이 명확해야 하는데, 일에 치이거나 궁금한게 너무 많다면, 이러한 지표 선정에 소홀해질 수가 있다고 한다.

A/B 테스트 실험 평가

image

A/B 테스트를 진행하고 나서 테스트에 대한 평가를 하기 전에, 실험군과 대조군에 대한 집합의 크기나, 혹은 분포 또는 지표가 크게 차이가 나지 않는지 확인할 필요가 있다.

이는 영상의 설명은 아니나, 예전에 읽었던 ‘데이터 분석의 힘’(링크)이라는 책에서 나왔던 내용인데, 해당 책에서는 인과 관계를 분석하는 방법에 대해 이야기 한 적이 있다.

(아래 책의 내용에 대한 설명은 책을 참고하지 않고 복기하는 것이므로 충분히 실제 내용과 다를 수 있다) 첫 번째 에피소드로 나왔던 것이, 일본의 한 도시?를 대상으로 했던 실험으로, 여름에 누진세를 부과하는 것이 전기의 절감에 영향을 끼치는지 안 끼치는지 테스트를 했다. 이 때, 도시 내의 가정에서 실험군과 대조군을 구성하고, 실험군에 누진세에 대한 정보를 언급한 것인데, 실험 전에 실험군과 대조군의 전기 사용 관련 지표들을 비교했다.

만약, 실험군과 대조군을 설정할 때, 랜덤으로 잘 샘플링이 되었다면, 일 평균 전기 사용량 등의 지표들이 대체로 비슷할 것이고, 그렇지 않을 경우에는 어느 한 지표에서 차이가 발생할 수 있다. 차이가 발생한 지표가 발견된다면, 랜덤 샘플링을 했는데도 불구하고 해당 지표에서 왜 차이가 났는지 세부적으로 분석해볼 수 있고, 그 차이가 집단 간의 차이가 어쩔 수 없는 경우라면, 인지를 하고 가야 실험 결과에 대한 왜곡이 없을 수 있다. (사전 조사에서 미리 캐치하지 못했다면, 이 차이가 변인으로 인해 차이가 발생한 것처럼 보일 수 있기 때문에)

image

A/B 테스트를 할 때 체크하는 대상은 대부분 클릭 여부 등이기 때문에 이는 실험의 결과가 1 또는 0, 성공 또는 실패로 나타나는 이항 분포로 생각할 수 있다. (사용자의 반응이 모두 독립적이라는 가정 하에)

이후 가설 검정 부분은 기존에 아는 내용과 크게 다른 바가 없고, 구글링을 통해 쉽게 설명을 이해할 수 있어 따로 설명을 정리해두지 않는다.

그 외 영상을 보며, 궁금해서 따로 정리해놓은 사항들

샘플 사이즈는 어떻게 결정되는가?

  • 이번 T 아카데미 영상과 함께 인프런의 그로스 해킹 관련 인강도 하나 수강하였는데, 두 강의 모두 샘플 사이즈를 측정하는 방법에 대해 샘플 사이즈를 계산해주는 사이트를 추천하는 것으로 설명을 대신한다. 다소 자세한 설명을 원했지만, 두 영상의 주요 시청자 층이 아마 현업 마케터 등의 통계 관련 지식이 크게 기대 되지 않는 사람들로 설정된 것이 아닐까 싶다.

  • A/B 테스트는 실험의 결과 데이터를 기준으로 가설 검정을 하며 종료가 되야 한다. 가설 검정은 귀무가설의 기각 혹은 기각 하지 않음으로 결론이 나게 되는데, 어떤 결론이든 간에 그 결론에 대한 통계적 유의미성을 얻기 위해서는 적절하게 큰 샘플 사이즈가 필요하다. (일반적인 가설 검정에서는 해당되지 않겠지만, 일반적인 A/B 테스트에서 샘플은 사람 또는 유저 1명을 말한다고 말할 수 있을 것 같다.)

  • 가설 검정 시 발생할 수 있는 오류는 크게 2가지가 있는데, 이러한 오류를 1종 오류, 2종 오류라고 한다. 그리고 검정력(Statiscal Power)라는 확률이 있는데, 이 검정력은 귀무가설이 참일 때 귀무가설을 기각하는 확률로, 통상 1 - (2종 오류가 발생할 확률)이다.

image

  • 두 집단의 평균에 대한 가설 검정을 진행할 경우, 위 이미지와 같은 수식을 통해 결정된다. $\alpha$는 0.99, 0.95로 많이들 정하는 것을 원래 알고 있었고 검정력을 고려하기 위해 계산된 수치인 $\beta$는 0.80을 일반적으로 정하는 것처럼 언급이 되어 있다.

  • 조심해야할 사항은, 위 수식은 두 집단의 ‘평균’을 기준으로 가설 검정을 진행할 때의 샘플 사이즈를 계산한다는 점이다. t-test를 하는 경우가 될 텐데, 평균이 아닌 비율을 기준으로 고려한다면, t-test에서 고려하는 t 분포가 아닌 f 분포를 고려하게 될 것이다. 따라서 같은 수식으로 모든 실험에 대해 적용할 수 없고, 실험에서 고려하는 데이터에 따라 이를 잘 판단해야할 것 같다.

이후 공부하게 된다면…

당장 업무에 필요한 부분을 얼추 공부하여, 추가 공부할 시간을 여기에 배정할 수는 없었다. 공부가 필요한 다른 부분이 많기에… 때문에 이후에 추가 공부가 필요한 부분이 있다면, 아래와 같은 부분을 먼저 중점적으로 공부하면 될 것 같다.

  1. 가설 검정 시에, 검정력이 가지는 의미에 대한 정확한 이해 –> 링크 참고(링크)

  2. 공부한지 1주일이 지나서 그 새 까먹었군…

Reference

  • https://towardsdatascience.com/required-sample-size-for-a-b-testing-6f6608dd330a