Подводные камни А/В-тестирования

Что нужно учитывать, планируя эксперименты

Статья, опубликованная в журнале «Гарвард Бизнес Ревью Россия»

Явор Божинов Гийом Сен-Жак Мартин Тингли

1 марта 2020

Shri / Unsplash

читайте также

В последние годы наблюдается бум А/В-тестирования онлайн: организации все лучше осознают их ценность, а технологии для их проведения относительно недороги. Цифровые фирмы (а все чаще и обычные компании) проводят по несколько десятков тысяч онлайн-экспериментов в год, чтобы узнать, что лучше: контрольный вариант А (как правило, текущая ситуация) или нововведение В (предлагаемое изменение товара, услуги, предложения). Такие тесты позволяют быстро определять реакцию пользователей на изменения и находить лучшие способы усовершенствования цифровых продуктов или создания новинок. Испытание инновации на небольшой случайной выборке пользователей перед ее полномасштабным внедрением снижает риск неожиданных побочных эффектов. А благодаря тому, что тесты дают уникальную возможность объективно оценивать последствия изменений, можно легко отличить рост выручки, вовлеченности и других показателей, полученный благодаря конкретному нововведению, от естественного роста компании, который произошел бы в любом случае. Эта важнейшая информация позволяет компаниям находить новые возможности для развития и точно оценивать окупаемость инвестиций.

Сегодня для многих фирм А/В-тестирования — неотъемлемая часть цикла разработки продуктов. По итогам тестов принимаются решения о том, стоит ли (и если да, то когда) выпускать новые продукты или менять существующие, заходить на новые рынки или в новые пользовательские сегменты, а также о том, как распределять капитал по разным направлениям. Не будет преувеличением сказать, что успешные А/В-тесты — важнейшее условие выживания этих фирм. Увы, компании часто допускают серьезные промахи в проведении экспериментов. Исследования, проведенные нами в Гарвардской школе бизнеса, и наш опыт анализа данных в Netflix и LinkedIn позволили выявить три главных ошибки в подходах к тестированию. В этой статье мы расскажем, как избежать их с помощью приемов, которые доказали свою эффективность в Netflix и LinkedIn. Они позволят вам извлечь из экспериментов максимум пользы.

ОШИБКА 1

НЕ ВЫХОДИТЬ ЗА РАМКИ УСРЕДНЕННЫХ ПОКАЗАТЕЛЕЙ

Весьма распространенная ошибка — учитывать только усредненное влияние инноваций на бизнес-метрики. Совершая эту ошибку, компания, по сути, работает с несуществующим «сферическим клиентом в вакууме», игнорируя огромное разнообразие реакций в реальных пользовательских сегментах. Между тем, перемены могут вызвать воодушевление у одних клиентов и абсолютную неприязнь у других.

Представьте себе запуск нового продукта, после которого расходы среднего клиента возросли на $1. Может показаться, что каждый пользователь стал тратить на доллар больше. На самом же деле точно такой же результат вы получите, если несколько клиентов начнут тратить на ваш продукт намного больше, а все остальные уйдут к конкурентам. В обычных А/В-тестах, которые показывают лишь динамику усредненных показателей, эти сценарии не различаются.

Усредненные данные больше всего искажают реальность в тех случаях, когда ключевые показатели бизнеса определяются небольшим числом крупных клиентов или привилегированных пользователей. Если те, кто принимает решения, будут представлять клиентскую базу как одного идеального репрезентативного потребителя, компания начнет подстраиваться под самых активных клиентов в ущерб всем прочим. Это весьма опасно: ведь зачастую основные возможности бизнеса связаны именно с наращиванием потребления среди тех, кто поначалу не слишком активен.

В некоторых случаях решением может стать поиск одной наилучшей версии для всех клиентов. В других имеет смысл создавать разные варианты с учетом предпочтений важных сегментов пользователей. А/В-тесты помогают компаниям и в этом. Если разделить аудиторию на заданные группы (скажем, по странам, отраслям, прошлому опыту сотрудничества) или применить алгоритмы машинного обучения, можно выявить группы, по-разному реагирующие на инновации. Даже если не все результаты тестов будут обладать практическим значением, они позволят оценить потенциал новых возможностей и найти способы его реализовать.

Как же работать с неоднородной аудиторией? Вот несколько советов.

Используйте метрики и подходы, учитывающие ценность разных пользовательских сегментов. Netflix хочет приносить максимум пользы всем клиентам, а не только самым активным из них. Можно представить себе, что случится, если компания начнет чаще рекомендовать популярные телешоу всем пользователям подряд. Те, кто и раньше любил такие программы, будут смотреть их больше, и среднее время просмотра у всего сервиса заметно возрастет. Однако потребности тех, кто ищет на Netflix нишевый контент, не будут учтены. Их активность в результате может снизиться. И это проблема: в целом менее вовлеченные пользователи Netflix будут получать от сервиса меньше преимуществ, чем самая активная аудитория, — и в конце концов начнут отказываться от подписки. Поэтому даже небольшое увеличение доли контента, интересного для относительно пассивных подписчиков, выгоднее Netflix, чем лишние часы просмотра стандартных программ и без того вовлеченными пользователями.

В поисках компромисса компания использует два подхода. Во-первых, чередующиеся А/В-тесты. В рамках таких тестов Netflix показывает пользователю то вариант А, то вариант В: например, сегодня человек оказывается в контрольной группе, а завтра — в тестовой. Это позволяет выявить самые перспективные инновации, основываясь на реакции разных пользователей. Во-вторых, Netflix отслеживает не усредненное время просмотра контента, а метрику, учитывающую влияние изменений на более активных и менее активных клиентов, чтобы убедиться в том, что нововведение, полезное для одного сегмента пользователей, не ударит по какому-то другому.

Оценивайте эффект для разных уровней цифровой доступности. Под цифровой доступностью мы подразумеваем качество интернет-соединения, параметры устройства для просмотра и т. п. Если разрабатывать А/В-тесты для разных когорт и соответствующим образом анализировать результаты, можно обеспечить пользователям из каждой когорты сервис, соответствующий их цифровой среде.

Особенно важно знать, как конкретный пользователь воспринимает воздействие тех или иных изменений на качество сервиса, если речь идет о технических метриках (таких, как скорость загрузки приложения, задержка начала воспроизведения, процент сбоев). Чтобы это выяснить, и Netflix, и LinkedIn отслеживают лучшие, средние и худшие процентили по этим метрикам, а также динамику средних значений в этих процентилях. Замедлило ли новшество загрузку приложения относительно контрольной группы у пользователей и с самым быстрым (5-й процентиль), и с самым медленным (95-й процентиль) интернет-соединением? Или, скажем, у 5-го процентиля загрузка ускорилась, а у 95-го — замедлилась? Netflix использует этот подход для тестирования инноваций, нацеленных на улучшение качества воспроизведения видео на разных устройствах и при разных условиях подключения к сети.

Всегда делайте поправки на специ-фическое для группы поведение. В LinkedIn платформа для А/В-тестирования автоматически вычисляет влияние новшеств на разные группы. Так, эффект внедрения новых функций рассчитывается по каждой стране отдельно: то, что сработало в США, может не иметь успеха в Индии. Пользователей группируют и по количеству социальных связей, поскольку оптимизация процесса общения по-разному затрагивает тех, у кого много связей, и тех, у кого их мало. Недавно LinkedIn обнаружила, что если ищущих работу пользователей мгновенно уведомлять об открытии вакансий, то люди с небольшим числом связей намного активнее других высылают резюме: у них просто меньше источников информации о работе.

Наконец, LinkedIn отслеживает влияние нововведений на неравенство как таковое, проверяя, повышает или снижает инновация долю выручки, просмотры страниц и другие важные показатели, приходящиеся на 1% самых выгодных пользователей. Так компания избегает излишней оптимизации для наиболее активных участников в ущерб менее вовлеченным.

Сегментируйте ключевые рынки. Благодаря пониманию страновых различий LinkedIn и Netflix могут улучшать сервис в основных регионах присутствия и развиваться в новых, не пытаясь стричь всех под одну гребенку. Например, в Индии, где люди выходят в интернет в основном с мобильных устройств, любая инициатива, замедляющая загрузку приложения, снижает вовлеченность аудитории значительно сильнее, чем на американском и других рынках, где реже встречаются старые устройства и медленные сети 3G. Для удобства жителей Индии и других стран с подобными условиями LinkedIn создала облегченную версию приложения — LinkedIn Lite. В нем снижено качество снимков и упрощен интерфейс: благодаря этому приложению приходится обрабатывать меньше данных и оно работает быстрее. Netflix по итогам анализа использования устройств на разных рынках провела эксперимент с тарифным планом только для мобильных устройств, который в итоге и был внедрен в Индии.

ОШИБКА 2

ЗАБЫВАТЬ О ВЗАИМОСВЯЗЯХ КЛИЕНТОВ

Стандартное А/В-тестирование, в котором группа А сравнивается с группой В, подразумевает, что участники из этих групп никак не связаны между собой. Это предположение обычно справедливо для традиционных рандомизированных экспериментов — например, клинических исследований эффективности новых лекарств. Однако в случае с А/В-тестами общение участников между собой может повлиять на результат.

Представим себе эксперимент, в котором тестируется новшество, призванное упростить начало беседы с вашими контактами из LinkedIn (например, вас уведомляют, кто сейчас в сети или кто работает в фирме, куда вы хотите устроиться, и предлагают вам написать этому человеку прямо со страницы уведомления). Поскольку пользователи, для которых тестируемое новшество введено не было, могут начать получать больше сообщений (от тех, у кого нововведение появилось) и отвечать на них, в контрольной группе тоже может наблюдаться позитивная динамика. Если ответственные за принятие решений не учтут это «заражение», они могут прийти к совершенно неверным выводам — например, принять работающее изменение за неработающее и наоборот. Этой ошибки можно избежать несколькими способами.

Проводите сетевые А/В-тесты. LinkedIn разработала технологии, позволяющие оценивать уровень групповых взаимодействий или исключать их (для этого надо изолировать участников в группах А и В, проследив, чтобы все пользователи, способные как-то повлиять на поведение участника, были в одной группе с ним). Эти приемы позволяют получить более точную картину поведения пользователей. Рассмотрим новый алгоритм рекомендации контента, предлагающий больше длинных текстов (скажем, новостных статей) и меньше картинок. Обычно изображения генерируют много лайков, но мало комментариев, а статьи — меньше лайков, но больше комментариев. При этом пользователи чаще реагируют на материалы, которые их друзья по соцсети прокомментировали, чем на те, которые лайкнули. Стандартный А/В-тест покажет, что новый алгоритм снижает количество лайков, а сетевой зафиксирует не только лайки, но и позитивный побочный эффект — рост числа комментариев от пользователей, увидевших комментарии друзей. В более широком смысле сетевые А/В-тесты помогли менеджерам LinkedIn осознать все многообразие последствий их инициатив, а в ряде случаев и серьезно изменить стратегию.

Проводите эксперименты с временны́ми рядами. Это А/В-тесты, в которых весь рынок произвольно переводится с варианта А на вариант В. К упомянутому выше «заражению» особенно предрасположены онлайн-маркетплейсы, где общается множество покупателей и продавцов (например, платформы для рекламных онлайн-аукционов или поиска попутчиков). Здесь даже небольшие А/В-тесты, нацеленные лишь на некоторых пользователей, могут изменить баланс рынка так, как он не изменился бы при полном внедрении тестируемых новшеств. Точно оценить реальные последствия нововведения для всего рынка помогут только эксперименты с временны́ми рядами.

Представим себе, что LinkedIn разработала новый алгоритм по подбору вакансий для ищущих работу. Чтобы оценить его эффективность, LinkedIn запускает этот алгоритм для всех вакансий и кандидатов на конкретном рынке на 30 минут. Через полчаса случайным образом принимается решение либо вернуться к старому алгоритму, либо оставить новый. Этот процесс должен длиться как минимум две недели, чтобы можно было пронаблюдать все модели поиска работы. Упомянутая выше стратегия чередования тестов в Netflix — частный случай применения этой методологии.

ОШИБКА 3

ФОКУСИРОВАТЬСЯ НА КРАТКОСРОЧНОЙ ПЕРСПЕКТИВЕ

Чтобы А/В-тесты были успешными, эксперименты должны длиться достаточно долго. Если компания будет ориентироваться на краткосрочные сигналы, это может сбить ее с толку по ряду причин. Во-первых, первые результаты тестов часто отличаются от того, что происходит, когда пользователи привыкают к новому опыту. Эффект привыкания особенно заметен в случае с изменениями пользовательского интерфейса: как правило, новая функция вызывает ажиотаж в первые несколько дней, а потом интерес к ней падает. Во-вторых, инновации могут привести к долговременным, но медленно проявляющимся переменам в использовании продукта. Например, постоянные пошаговые улучшения алгоритмов рекомендаций или работы приложения могут не давать измеримых результатов сразу, но со временем существенно повышать удовлетворенность клиентов. Вот что можно здесь посоветовать.

Точно рассчитывайте продолжительность эксперимента. Убедитесь, что вы оцениваете не эффект новизны, а стабильный результат инновации. Как долго продолжать эксперимент? Общего ответа здесь нет: ведь люди по-разному реагируют, например, на изменения в интерфейсе и в системе рекомендаций. Имеет смысл продолжать тесты до тех пор, пока поведение пользователей не стабилизируется. И LinkedIn, и Netflix отслеживают, как реакция клиентов на новую функцию меняется с течением времени. В большинстве тестов результаты стабилизируются примерно через неделю.

Проводите эксперименты с глобальной тестовой группой. В таких тестах небольшая выборка пользователей, в отличие от всех прочих, не видит изменений в течение заданного периода времени (обычно больше месяца). Такой подход помогает оценить эффекты, проявляющиеся не сразу. В LinkedIn выяснили, что эксперименты с глобальной тестовой группой полезны в тех случаях, когда улучшение достигается за счет кумулятивного эффекта от множества последовательных изменений или когда пользователям требуется время, чтобы в полной мере оценить новшество.

Предположим, вы тестируете функцию, выделяющую в ленте соцсети карьерные достижения (например, устройство на новую работу), которым способствовали участники сети. С этой функцией люди наверняка будут сталкиваться лишь изредка — может быть, раз или два в неделю, в зависимости от своих связей. В таких случаях важно убедиться, что участники тестовой группы видели достаточное количество обновлений, чтобы можно было оценить воздействие функции на качество новостной ленты (или восприятие пользователями видимого контента). На это может уйти несколько недель или месяцев.

A/B-тесты онлайн — мощный инструмент, позволяющий выяснить, как то или иное нововведение повлияет на разные рынки и потребительские сегменты. Но стандартные подходы, при которых внимание уделяется лишь краткосрочной реакции среднего пользователя, могут привести к ложным выводам. Описанные методы помогут избежать распространенных ошибок и выявить самые ценные возможности в краткосрочной и долгосрочной перспективе как в глобальном масштабе, так и для конкретных стратегически значимых сегментов аудитории.

Авторы

Явор Божинов (Iavor Bojinov) — доцент факультета управления технологиями и производством в Гарвардской школе бизнеса. Ранее работал специалистом по данным и руководил инициативой по выявлению причинности в LinkedIn.

Гийом Сен-Жак (Guillaume Saint-Jacques) — глава отдела вычислительной социологии в LinkedIn, ранее — технический руководитель группы экспериментальной аналитики в LinkedIn.

Мартин Тингли (Martin Tingley) — руководитель экспериментальных исследований продукта в Netflix. Ранее работал в Insurance Australia Group и преподавал в Университете штата Пенсильвания.

Подводные камни А/В-тестирования

Хотите преуспеть? Научитесь быстро останавливаться!

Создавай, проверяй, закрывай: как компаниям использовать венчурное мышление на практике

Быстрота спасет мир

Приватность и интернет вещей

Формула инноваций

Нейрочипы, роботы и «новый космос»: ключевые технологии по версии Стэнфорда, Ч.II