Исследования
Статья, опубликованная в журнале «Гарвард Бизнес Ревью Россия»

«Мы постоянно принимаем участие в таких тестах, сами того не осознавая»

Эми Галло

Сегодня все зависит от информации. Руководители компаний не хотят принимать важных решений, не владея необходимыми данными. Это, безусловно, хорошо, тем более, что сейчас существует множество способов получить нужную информацию, и нет необходимости полагаться на свои инстинкты. A/B-тестирование — один из самых распространенных методов принятия решений на основе анализа данных, особенно в ситуациях, когда дело касается интернета.

Для того, чтобы лучше разобраться в том, что такое A/B-тестирование, каковы его истоки и как им пользоваться, я поговорила с Кайзером Фунгом, основателем программы прикладной аналитики в Колумбийском университете, создателем блога «Junk Charts», посвященного критическому анализу данных и графики в масс-медиа, а также автором книги «Number Sense: How to Use Big Data to Your Advantage».

Что такое A/B-тестирование

A/B-тестирование — это способ сравнить две версии чего-либо, чтобы определить, какая из них лучше справляется с поставленной задачей. Несмотря на то, что A/B-тестирование чаще всего применяется для сайтов и мобильных приложений, оно появилось почти сто лет назад, отмечает Фунг.

В 1920-х статистик и биолог Рональд Фишер разработал основные принципы проведения A/B-тестирования в частности и рандомизированных контролируемых экспериментов вообще. «Он не был первым, кто проводил такие испытания, но он первый описал стоящие за ними базовые принципы и математические вычисления, первый сделал их наукой», — объясняет Фунг.

Фишер проводил сельскохозяйственные эксперименты, задавая вопросы вроде «Что будет, если на этом участке земли я применю больше удобрений?». Принципы тестирования сохранились и в начале 1950-х, когда ученые начали проводить клинические испытания медицинских изделий. В 1960-х и 1970-х этот способ стали использовать маркетологи, чтобы оценивать успешность рекламных кампаний прямого отклика (например, повысит ли продажи отправка писем или открыток целевой аудитории).

A/B-тестирование в его современном виде впервые появилось в 1990-х. Фунг говорит, что за последние сто лет математические вычисления, на которых основывается эта методика, не менялись: «Основная идея осталась той же, но теперь тестирование проходит в сети, в режиме реального времени и в другом масштабе: количество участников и число проводимых испытаний увеличились».

Как работает A/B-тестирование

Сначала вы решаете, что именно вы хотите тестировать. Фунг приводит в качестве простого примера размер кнопки «Подписаться» на вашем сайте. Затем вам нужно определиться, на какие показатели вы будете обращать внимание. Допустим, выбранный вами критерий — количество посетителей, нажавших на кнопку. В ходе тестирования для двух групп пользователей (распределение производится случайным образом при заходе на сайт) отображаются две разные версии одной кнопки (отличающиеся только размером). Затем определяется, какой вариант лучше всего для выбранного показателя, то есть в нашем случае выясняется, на кнопку какого размера нажимали больше.

В реальности решение посетителя сайта нажать на ту или иную кнопку зависит от множества факторов. Пользователи мобильных устройств, например, могут с большей охотой нажимать на кнопку одного размера, а пользователи компьютеров — на кнопку другого. Именно поэтому такую большую роль играет случайное распределение участников эксперимента в группы. Оно минимизирует вероятность того, что на результаты тестирования будут влиять посторонние факторы (к примеру, разница между пользователями мобильных устройств и ПК).

«A/B-тестирование можно считать самым базовым примером случайного контролируемого эксперимента, — говорит Фунг. — Самое простое применение этого метода — тестирование двух версий продукта, с двумя группами клиентов, каждая из которых является контрольной для другой». Как и в случае с любым другим рандомизированным контролируемым экспериментом, число участников тестирования должно обеспечивать его статистическую значимость, чтобы вы могли быть уверены, что его результаты не просто погрешность.

Иногда вам может быть известно, что некоторые переменные — как правило, те, которые практически не поддаются контролю — существенно влияют на результат тестирования. Например, люди, заходящие на ваш сайт с мобильных устройств, могут в среднем нажимать куда-либо меньше, чем пользователи ПК. В результате случайного распределения в группе А, к примеру, может оказаться больше пользователей мобильных устройств, чем в группе B, тогда число нажатий на кнопку в этой группе будет заметно меньше независимо от того, в каком размере она для них отображается. Чтобы обеспечить равные условия, проводящий тестирование аналитик должен сперва разделить участников эксперимента на использующих мобильные устройства и использующих компьютер, а затем провести случайное распределение для этих групп. Такой подход называется группировкой.

Размер кнопки «Подписаться» — самый простой пример. В действительности же, говорит Фунг, тестируются не только размер, но и цвет, текст, шрифт, кегль. Многие менеджеры проводят испытания последовательно, то есть сперва тестируют, например, размер (большой и маленький), затем цвет (синий и красный), а затем шрифт (Times и Arial). Они считают, что не должны менять несколько факторов одновременно, но, как говорит Фунг, специалисты по статистике давно опровергли это представление. Последовательные тестирования неоптимальны еще и потому, что не учитывают взаимодействие факторов. Пользователи могут, к примеру, предпочитать голубой цвет, но в сочетании со шрифтом Arial выберут красный. Последовательные A/B-тестирования регулярно упускают подобные детали, так как шрифты в них тестируются на голубых кнопках, победивших в предыдущем испытании.

Вместо этого Фунг советует проводить более сложные эксперименты. Это может быть трудно для некоторых менеджеров: привлекательность A/B-тестирования во многом заключается в его простоте (многие разработчики экспериментов, отмечает Фунг, не имеют статистического образования). Когда применяют A/B-тестирование, хочется одновременно провести большое количество независимых друг от друга испытаний, отмечает Фунг. В значительной степени это связано с тем, что от числа возможных комбинаций голова может пойти кругом. Однако, используя математические вычисления, мы можем, по словам Фунга, отбирать и тестировать только некоторое количество возможных вариантов, а остальные данные выводить из полученных результатов. Такой подход называется многомерным тестированием, в ходе которого сравниваются не только варианты A и B, но и A,B и C или даже A,B,C и D. Если вернуться к примеру с размером и цветом кнопки, следуя этой методике, мы бы демонстрировали разным группам людей большую красную кнопку, маленькую красную кнопку, большую синюю кнопку и маленькую синюю кнопку. Тестирование же шрифтов привело бы к еще большему увеличению числа групп, участвующих в исследовании.

Как интерпретировать результаты A/B-тестирования

Полная версия статьи доступна подписчикам на сайте