ㆍ써먹는 독서
다음은 동일한 《워싱턴 포스트The Washington Post》 기사를 캡처한 사진이다. 혹시 차이점이 보이는가? 답은 제목이 미묘하게 다르다는 것이다! 《워싱턴 포스트》는 2016년부터 모든 기사에 제목을 두 개씩 쓸 수 있게 했다. 왜 그랬을까?
테스트를 통해 기사의 클릭 수를 높이기 위해서다. 《워싱턴 포스트》는 방문자를 두 집단으로 나눠서 각각 A 제목과 B 제목을 보여준다. 테스트가 어느 정도 진행되면 제목 클릭 수 같은 통계 수치를 확인한다. 여기서 더 효과적이라고 판정이 난 제목이 이후로 모든 방문자에게 표시된다. 단순하지만 앱의 효과성을 크게 개선할 수 있는 방법이다. 위의 기사만 해도 첫 번째 제목의 클릭률은 3.3%, 두 번째 제목의 클릭률은 3.9%였다. 단 몇 글자만 바꿨을 뿐인데 클릭률이 무려 18%나 상승했다!
이런 기법을 AB테스트 AB testing라고 한다. 데이터를 근거로 온라인 상품을 개선하는 강력한 수단이다. AB테스트라는 이름이 붙은 이유는 최소 두 가지 버전(A와 B)을 비교하기 때문이다. AB테스트에서는 최소 두 가지 버전(A와 B)을 보여준 뒤 수치를 비교해 어떤 버전을 모든 사용자에게 제시할지 정한다.
아래의 경우에는 앞으로 모든 방문자가 A 버전을 보게 될 것이다. A 버전이 소기의 행동(‘전환’)을 더 많이 유발했기 때문이다.
어떤 카피가 소비자의 마음을 움직일지 모르겠다면? 종일 앉아서 토론만 할 게 아니라 AB테스트를 실시해야 한다! 빨간색 가입 버튼과 초록색 가입 버튼 중에서 무엇이 클릭을 더 많이 유발할지 모르겠다면? 역시 테스트가 필요하다! (참고로 실험에서 빨간색 버튼의 클릭율이 34% 더 높았다.) 틴더 프로필에 어떤 사진이 더 좋을지 모르겠다면? 틴더도 어떤 사진을 첫 사진으로 지정했을 때 가장 많은 선택을 받는지 확인할 수 있게 AB테스트 기능을 제공한다.
제목 장사의 밑천
그러면 다시 처음의 질문으로 돌아가보자. 왜 《워싱턴 포스트》 기사는 제목이 두 개씩 존재할까? 그 이유는 《워싱턴 포스트》가 밴디토Bandito라고 부르는 AB테스트 기술을 도입했기 때문이다. 밴디토는 기사의 제목을 바꿔 가며 더 많은 클릭을 유발하는 제목을 더 많이 노출시킨다.
AB테스트는 언론계에서 대단한 인기다. 버즈피드BuzzFeed는 AB테스트로 방문자를 가장 잘 낚는 기사 제목을 찾는다. 그 경쟁사인 업워디Upworthy는 최고의 제목을 찾기 위해 최대 25개 버전을 테스트한다. 업워디에 따르면 무난한 제목이 만드는 조회수가 1,000번이라면 최고의 제목은 조회수가 무려 1,000,000번이다. 그만큼 AB테스트가 중요하다.
그 밖에도 많은 웹사이트와 앱에서 AB테스트를 활용한다. 페이스북의 경우에는 항상 새로운 기능을 ‘제한된 수의 테스트 대상’에게 공개한다. 스냅챗Snapchat에서는 광고주가 AB테스트를 통해 가장 많은 탭을 유도하는 광고를 찾을 수 있다. AB테스트가 온라인에서만 가능한 것은 아니다. 오프라인 매장에서 음악을 바꿔 가며 고객의 지갑을 가장 많이 여는 곡을 찾아주는 서비스도 존재한다.
유의미성 테스트
통계 실험을 할 때는 관찰된 결과가 어떤 의미 있는 요인에 의한 것인지, 단순히 우연의 일치인지 반드시 확인해야 한다. 예를 들어 똑같은 동전을 6번 던졌는데 앞면이 5번 나왔다고 해서 그 동전의 무게가 한쪽으로 쏠려 있다고 단정할 수는 없다. 순전히 우연일 수 있기 때문이다. 하지만 똑같은 동전을 600번 던져서 500번 앞면이 나왔다면 뭔가가 있다고 의심할 만하다.
기업에서 AB테스트를 할 때 실험자는 A 버전과 B 버전에서 특정한 수치가 어떻게 다른지 확인한 뒤 p값을 구한다. p값이란, 관찰된 격차가 우연의 일치일 확률을 말한다. 보통 p<0.05, 즉 격차가 우연히 발생했을 확률이 5% 미만이면 그 변화가 의미 있다, 즉 전문용어로 ‘통계적으로 유의미하다’라고 한다. 그 확률이 5% 이상이면 우연의 일치가 아니라고 단정할 수 없다.
가령 아마존이 사용자 중 절반에게 ‘장바구니에 추가’ 버튼을 조금 더 크게 표시했더니 매출이 2% 증가했고 p=0.15라고 해보자. 그러면 버튼의 크기를 늘려서 큰 효과를 본 것 같아도 실제로 매출 증가가 버튼과 상관없이 우연히 일어났을 확률이 15%란 뜻이다. 0.15는 0.05보다 크니까 아마존은 버튼 크기를 키우지 않을 것이다.
그러니 혹시 “우정을 파괴하는 음식 배틀 18선”이라는 제목에 낚여서 클릭을 했다고 하더라도 자신을 책망하지 말자. 사회과학, 통계학, 소프트웨어 개발의 집합체가 발휘하는 괴력을 우리가 어떻게 당해낼 수 있을까. 좋든 싫든 AB테스트는 막강하다.