читайте также
Сегодня все зависит от информации. Руководители компаний не хотят принимать важных решений, не владея необходимыми данными. Это, безусловно, хорошо, тем более, что сейчас существует множество способов получить нужную информацию, и нет необходимости полагаться на свои инстинкты. A/B-тестирование — один из самых распространенных методов принятия решений на основе анализа данных, особенно в ситуациях, когда дело касается интернета.
Для того, чтобы лучше разобраться в том, что такое A/B-тестирование, каковы его истоки и как им пользоваться, я поговорила с Кайзером Фунгом, основателем программы прикладной аналитики в Колумбийском университете, создателем блога «Junk Charts», посвященного критическому анализу данных и графики в масс-медиа, а также автором книги «Number Sense: How to Use Big Data to Your Advantage».
Что такое A/B-тестирование
A/B-тестирование — это способ сравнить две версии чего-либо, чтобы определить, какая из них лучше справляется с поставленной задачей. Несмотря на то, что A/B-тестирование чаще всего применяется для сайтов и мобильных приложений, оно появилось почти сто лет назад, отмечает Фунг.
В 1920-х статистик и биолог Рональд Фишер разработал основные принципы проведения A/B-тестирования в частности и рандомизированных контролируемых экспериментов вообще. «Он не был первым, кто проводил такие испытания, но он первый описал стоящие за ними базовые принципы и математические вычисления, первый сделал их наукой», — объясняет Фунг.
Фишер проводил сельскохозяйственные эксперименты, задавая вопросы вроде «Что будет, если на этом участке земли я применю больше удобрений?». Принципы тестирования сохранились и в начале 1950-х, когда ученые начали проводить клинические испытания медицинских изделий. В 1960-х и 1970-х этот способ стали использовать маркетологи, чтобы оценивать успешность рекламных кампаний прямого отклика (например, повысит ли продажи отправка писем или открыток целевой аудитории).
A/B-тестирование в его современном виде впервые появилось в 1990-х. Фунг говорит, что за последние сто лет математические вычисления, на которых основывается эта методика, не менялись: «Основная идея осталась той же, но теперь тестирование проходит в сети, в режиме реального времени и в другом масштабе: количество участников и число проводимых испытаний увеличились».
Как работает A/B-тестирование
Сначала вы решаете, что именно вы хотите тестировать. Фунг приводит в качестве простого примера размер кнопки «Подписаться» на вашем сайте. Затем вам нужно определиться, на какие показатели вы будете обращать внимание. Допустим, выбранный вами критерий — количество посетителей, нажавших на кнопку. В ходе тестирования для двух групп пользователей (распределение производится случайным образом при заходе на сайт) отображаются две разные версии одной кнопки (отличающиеся только размером). Затем определяется, какой вариант лучше всего для выбранного показателя, то есть в нашем случае выясняется, на кнопку какого размера нажимали больше.
В реальности решение посетителя сайта нажать на ту или иную кнопку зависит от множества факторов. Пользователи мобильных устройств, например, могут с большей охотой нажимать на кнопку одного размера, а пользователи компьютеров — на кнопку другого. Именно поэтому такую большую роль играет случайное распределение участников эксперимента в группы. Оно минимизирует вероятность того, что на результаты тестирования будут влиять посторонние факторы (к примеру, разница между пользователями мобильных устройств и ПК).
«A/B-тестирование можно считать самым базовым примером случайного контролируемого эксперимента, — говорит Фунг. — Самое простое применение этого метода — тестирование двух версий продукта, с двумя группами клиентов, каждая из которых является контрольной для другой». Как и в случае с любым другим рандомизированным контролируемым экспериментом, число участников тестирования должно обеспечивать его статистическую значимость, чтобы вы могли быть уверены, что его результаты не просто погрешность.
Иногда вам может быть известно, что некоторые переменные — как правило, те, которые практически не поддаются контролю — существенно влияют на результат тестирования. Например, люди, заходящие на ваш сайт с мобильных устройств, могут в среднем нажимать куда-либо меньше, чем пользователи ПК. В результате случайного распределения в группе А, к примеру, может оказаться больше пользователей мобильных устройств, чем в группе B, тогда число нажатий на кнопку в этой группе будет заметно меньше независимо от того, в каком размере она для них отображается. Чтобы обеспечить равные условия, проводящий тестирование аналитик должен сперва разделить участников эксперимента на использующих мобильные устройства и использующих компьютер, а затем провести случайное распределение для этих групп. Такой подход называется группировкой.
Размер кнопки «Подписаться» — самый простой пример. В действительности же, говорит Фунг, тестируются не только размер, но и цвет, текст, шрифт, кегль. Многие менеджеры проводят испытания последовательно, то есть сперва тестируют, например, размер (большой и маленький), затем цвет (синий и красный), а затем шрифт (Times и Arial). Они считают, что не должны менять несколько факторов одновременно, но, как говорит Фунг, специалисты по статистике давно опровергли это представление. Последовательные тестирования неоптимальны еще и потому, что не учитывают взаимодействие факторов. Пользователи могут, к примеру, предпочитать голубой цвет, но в сочетании со шрифтом Arial выберут красный. Последовательные A/B-тестирования регулярно упускают подобные детали, так как шрифты в них тестируются на голубых кнопках, победивших в предыдущем испытании.
Вместо этого Фунг советует проводить более сложные эксперименты. Это может быть трудно для некоторых менеджеров: привлекательность A/B-тестирования во многом заключается в его простоте (многие разработчики экспериментов, отмечает Фунг, не имеют статистического образования). Когда применяют A/B-тестирование, хочется одновременно провести большое количество независимых друг от друга испытаний, отмечает Фунг. В значительной степени это связано с тем, что от числа возможных комбинаций голова может пойти кругом. Однако, используя математические вычисления, мы можем, по словам Фунга, отбирать и тестировать только некоторое количество возможных вариантов, а остальные данные выводить из полученных результатов. Такой подход называется многомерным тестированием, в ходе которого сравниваются не только варианты A и B, но и A,B и C или даже A,B,C и D. Если вернуться к примеру с размером и цветом кнопки, следуя этой методике, мы бы демонстрировали разным группам людей большую красную кнопку, маленькую красную кнопку, большую синюю кнопку и маленькую синюю кнопку. Тестирование же шрифтов привело бы к еще большему увеличению числа групп, участвующих в исследовании.
Как интерпретировать результаты A/B-тестирования
Велика вероятность того, что ваша компания будет использовать специальное программное обеспечение для проведения вычислений и даже наймет специалиста по статистике для интерпретации результатов тестирования. Тем не менее, весьма полезно иметь общее понимание того, что значат результаты экспериментов. Это позволит решить, стоит ли использовать тот или иной тестируемый вариант (в нашем примере — новую кнопку).
Фунг говорит, что большинство программ для A/B-тестирования показывают два коэффициента конверсии: для контрольной группы и для тестовой группы. «Коэффициент конверсии может учитывать клики или другие действия пользователей», — поясняет он. Отчет может выглядеть следующим образом: «Контроль: 15% (+/- 2.1%). Вариант: 18% (+/- 2.3%).» Это значит, что 18% пользователей нажали на новый вариант элемента (например, большую синюю кнопку) с погрешностью в 2.3%. Вам, возможно, захочется интерпретировать этот результат как то, что ваш реальный коэффициент конверсии находится в диапазоне между 15.7% и 20.3%, но технически это не так. «Верная интерпретация такова: если вы проведете A/B-тестирование несколько раз, 95% полученных вами диапазонов будут включать в себя реальный коэффициент конверсии. Иначе говоря, коэффициент конверсии попадает за предел допускаемой погрешности в 5% случаев (вероятность зависит от заданного вами уровня статистической значимости)», — объясняет Фунг.
Если это не совсем укладывается в голове, я вас понимаю, добро пожаловать в клуб. Но важно знать, что коэффициент конверсии в 18% — это еще не гарантия. Дальше нужно судить по ситуации. Конверсия в 18%, безусловно, лучше, чем в 15%, даже если учесть предел погрешности (12.9%–17.1% против 15.7%–20.3%). Такой результат можно назвать «трехпроцентным подъемом» (подъем — это процентная разница между коэффициентом конверсии в контрольной группе и в тестовой группе). В подобной ситуации правильным решением, скорее всего, будет переключиться на использование тестируемого варианта, хотя это зависит и от расходов на переход. Если они не слишком высоки, вы можете попробовать переключиться и посмотреть на реальный (а не тестовый) результат. Одно из больших преимуществ проведения тестирования в режиме онлайн — возможность вернуться к первоначальному решению без особых затруднений.
Как компании используют A/B-тестирование
По словам Фунга, популярность A/B-тестирования заметно увеличилась, когда компании осознали, что интернет-среда прекрасно подходит для того, чтобы помочь менеджерам, в особенности тем их них, кто отвечает за маркетинг, получить ответы на такие вопросы, как «Что может заставить людей нажать на кнопку, купить наш продукт и зарегистрироваться на нашем сайте?». Сегодня A/B-тестирование используется для всего: от дизайна сайтов до онлайн-предложений, от заголовков до описаний товаров. (Так, например, на прошлой неделе я изучала результаты A/B-тестирования текста, который мы используем в рекламе нового продукта в Harvard Business Review.)
Большинство экспериментов проходят без ведома участвующих в них людей. «Как пользователи, мы постоянно принимаем участие в таких тестах, сами того не осознавая», — говорит Фунг.
Использовать A/B-тестирование можно не только для сайтов, но и в почтовых рассылках или просто рекламе. Например, вы можете отправить две версии рекламного письма вашему списку клиентов, случайным образом распределив его на группы и оценив, какая из них принесла больше продаж. В следующий раз вы сможете использовать только «победившую» версию. Другой вариант — проверить два варианта рекламного текста, чтобы узнать, какой из них привлечет больше клиентов. После этого вам станет понятно, в продвижение какой версии имеет смысл вкладывать больше средств.
Какие ошибки совершают люди при A/B-тестировании
Я поинтересовалась у Фунга, какие ошибки совершают компании, использующие A/B-тестирование, и он назвал три самые распространенных.
Во-первых, многие менеджеры не дают тесту завершиться. Из-за того, что большинство программ для проведения A/B-тестирования позволяют наблюдать за результатами в режиме реального времени, менеджеры принимают решения слишком быстро. В этой ошибке виновата нетерпеливость, к которой подталкивают многие производители программного обеспечения. Они предлагают оптимизацию в реальном времени, то есть вид A/B-тестирования, позволяющий использовать алгоритмы, чтобы вносить правки, не дожидаясь конечных результатов. Проблема в том, что из-за рандомизации конечные результаты тестирования могут отличаться от промежуточных.
Вторая ошибка — слишком большой набор показателей. «Я морщусь каждый раз, когда вижу программу, предлагающую пользователю сотни показателей, в надежде понравиться всем и сразу», — говорит Фунг. Дело в том, что, когда вы следите за столь большим числом критериев, вы рискуете обнаружить то, что статистики называют «ложными корреляциями». В ходе разработки теста следует решить до начала эксперимента, какие именно показатели вас интересуют. Чем больше факторов вы отслеживаете, тем с большей вероятностью вы увидите случайные флуктуации. Уделяя внимание такому количеству показателей, вы не задаетесь вопросом «Что происходит с данной переменной?», а спрашиваете «Какие интересные (и потенциально несущественные) изменения я могу увидеть?».
Наконец, очень немногие организации проводят повторные тестирования. «Чаще всего мы тестируем что-либо лишь один раз и затем верим полученным результатам. Однако даже статистически значимый результат может оказаться ложным. Мы не можем исключить вероятность того, что мы обладаем ложной информацией, не проводя тесты повторно», — отмечает Фунг. Ошибочные результаты появляются по разным причинам. Например, даже если одно A/B-тестирование редко дает случайную ложную информацию, с увеличением числа испытаний увеличивается и вероятность того, что результаты хотя бы одного из них будут неправильные.
Повторные тестирования, однако, могут составлять особую сложность, так как зачастую они дают противоречивые данные. Менеджеры не хотят делать то, что может опровергнуть их прошлые находки — особенно в интернет-сфере, где все стремятся производить перемены и получать прибыль быстро. Фунг же утверждает, что концентрироваться на таком подходе неверно: «Люди недостаточно бдительны, когда речь заходит о ценности их находок. Они предпочитают считать, что малейшее улучшение ценно само по себе, даже если результаты теста ненадежны. Более того, чем меньше улучшение, тем менее надежны результаты».
A/B-тестирование, безусловно, не панацея. По мнению Фунга, существуют более сложные виды экспериментов, эффективнее, чем A/B-тестирования, и предоставляющие более надежную информацию. Впрочем, рассмотренный нами метод является быстрым способом получить ответ на стоящий перед вами вопрос. «Преимущество A/B-тестирования в том, что все происходит так быстро, что в случае неудачи всегда можно попробовать что-то еще, — считает эксперт. — И в любой момент можно вернуться к старой тактике».
Об авторе. Эми Галло, редактор и автор Harvard Business Review.