А/В-тестирование, или сплит-тестирование — это метод маркетингового экспериментального исследования, в котором контрольный вариант «A» сравнивается с тестовым вариантом «B».
Задача эксперимента — определить, какой вариант максимально влияет на бизнес-показатели. Такими показателями могут быть: увеличение продаж на сайте, вовлеченность читателей, повышение качества лидов или множество других.
Например, в процессе тестирования аудитория, которая идёт на сайт, делится на две части, обычно 50/50. Одна часть видит сайт А, а вторая часть аудитории видит тот же сайт, но с изменением тестируемой гипотезы, и это получается версия В.
Зачем проводить А/В-тестирование
К примеру, у нас интернет-магазин по продаже книг. Мы настроили воронку продаж, ведём трафик на сайт, но у нас низкая конверсия в покупку — люди добавляют товар в корзину, а затем уходят с сайта, ничего не купив. Ищем проблему — выдвигаем гипотезу, что наша форма для оплаты на сайте слишком сложная и нужно её заменить. Но как понять, что пользователи отказываются именно из-за неудобной формы оплаты? Ведь возможно, что есть какие-то другие причины: неконкурентные цены, плохие отзывы о компании, или ещё что-то. Скажутся ли положительно на бизнес-показателях изменения формы — покажет А/В-тест.
Смысл проведения А/В-теста заключается в том, чтобы сравнить:
А/В-тестирование чего можно проводить
Чего только не тестируют с помощью А/В-тестов:
- конверсию посадочных страниц;
- новые элементы дизайна и верстки на сайте;
- навигацию на сайте;
- конверсию заголовков и подзаголовков в рекламных объявлениях;
- форму обратной связи;
- кнопки призыва к действию (call to action), например, «подписаться на рассылку» или «подписаться»;
- названия тем в рассылках;
- рекламные кампании (креативы, форматы, таргетинги);
- элементы внутри продукта;
- системные панели;
- экраны онбординга.
Квизы тоже можно А/В-тестировать: пробовать различные варианты иллюстраций, менять вопросы или форматы ответов. Сравнивать эффективность лендинга Marquiz Pages и стартовой страницы. Даже небольшие изменения могут значительно повлиять на конверсию.
💡 Инструкции:
Настройка А/В теста в квизе
Как настроить А/В-тестирование квиза в Яндекс Метрике
Как настроить А/В-тестирование в Google Analytics
Проводить А/В-тестирование можно в любой части взаимодействия с клиентом, до которой дотянутся руки и взгляд. Например, однажды команда разработчиков Google не смогла выбрать между двумя синими цветами, поэтому протестировала 41 оттенок, чтобы увидеть, какой выглядит лучше. Кстати, после этого руководитель команды дизайнеров уволился. 🤪
Что именно улучшает А/В-тестирование
Хороший сайт или приложение устроены так, чтобы клиенту было удобно — играть, оформлять заказы, учиться и много чего ещё. А как оценить удобство? Или понятность? Или доверие? Все эти характеристики влияют на популярность компании и вывести их можно только опытным путем. Так А/В-тестирование помогает делать более дружественные интерфейсы, интуитивно понятные формы обратной связи, интересный читателю контент. В конечном счёте, это привлекает больше клиентов.
Самыми популярными показателями A/B-тестов являются коэффициент конверсии, количество кликов и регистраций.
Коэффициент конверсии
В А/В-тестировании измеряют отношение числа посетителей сайта, выполнивших определённые целевые действия, к общему числу посетителей сайта. Коэффициент выражается в процентах.
Какие целевые действия нужно учитывать — зависит от целей теста. Если гипотезы эксперимента подтвердятся, А/В-тесты помогут оптимизировать конверсию.
Конверсия в клики (CTR)
CTR — более чувствительная метрика, так как для изменения значения требуются только клики. Клик не всегда является показателем выигрыша одного из тестируемых вариантов, потому что пользователь может кликать рандомно. СTR считают, когда тестируют рекламное объявление или дизайн баннера.
Как считают CTR:
Подробнее про клики и расчёты CTR для медийной рекламы, e-mail-рассылок и соцсетей можно почитать в нашей статье
Количество регистраций или подписок
А/В-тест поможет найти удобную форму регистрации для клиента, чтобы быстро авторизоваться и сделать заказ или оформить подписку. Можно тестировать разные формы и замерять, какая собрала больше симпатий.
Конечно, это не все показатели в А/В-тестировании. Можно сравнивать и другие данные: время просмотра, среднюю сумму корзины, коэффициент возврата пользователей и многое другое.
Когда А/В-тестирование лучше не делать
Есть ситуации, когда А/В-тест не сработает. Вот список наших рекомендаций на эту тему:
Не проводите A/B-тестирование, когда ещё нет значимого трафика
Не стоит с разбегу прыгать в глубокий бассейн А/В-тестирования, пока в нём воды на маленький тазик, то есть если нет значимого трафика пользователей. Чтобы выявить предпочтения среднего пользователя, нужен статистически значимый размер выборки. Если отсутствует ресурс получить адекватные данные, A/B-тесты не покажут результат.
Не проводите A/B-тестирование, если нет точки отсчёта
Допустим, мы недавно запустили лендинг, и пока нет данных по нужным метрикам. Или у нас нет данных по метрикам, потому что не были установлены счетчики на сайте (да, такое тоже бывает), и мы не можем определить точку отсчёта в А/В-тесте.
Чтобы не упустить важные показатели, в этом случае тестирование нужно проводить несколько месяцев. А это противоречит сути А/В-тестирования — все таки А/В-тесты являются инструментом для быстрого внедрения улучшений.
Если нет данных о показателях, которые отражают ситуацию на сегодняшний день, не стоит проводить А/В-тестирование.
Не проводите A/B-тестирование незначительных изменений
Если изменение маленькое и несущественное, мы даже не сумеем понять результат эксперимента. Или будем вынуждены проводить дополнительные тесты для сбора данных и тратить время и ресурсы, к примеру, на смещение кнопки на пару пикселей в интерфейсе. Продолжая историю про Google и тестирование 41 оттенка синего: компания увеличила конверсию всего на сотые доли процента, однако с учетом огромного источника трафика это принесло прибыли на 200 000 000 долларов. Если у вас не такая огромная компания, как Google, вероятно, не стоит распылять усилия на мелочи.
Не проводите A/B-тестирование, если ещё нет обоснованной гипотезы
К проведению A/B-тестов нужно относиться как к настоящей науке — хороший учёный никогда не начинает эксперимент без проработанной гипотезы.
Если гипотеза сырая, лучше вернуться к поиску проблемы. На практике, болевая точка может быть не там, где мы думаем. Ответ на вопрос, как улучшить продукт, необязательно может быть в методе A/B-тестирования.
Не проводите A/B-тестирование, если точно знаете, что улучшения сработают
A/B-тесты следует пропускать в ситуациях, когда есть уверенность, что проект изменений почти наверняка улучшит продукт, а риски, связанные с реализацией идеи, невелики. В этом случае переходим к внедрению.
Пошаговое А/В-тестирование
Разложим работу с А/В-тестом по этапам на примере компании по покупке авто с пробегом.
Шаг 1. Обозначим проблему.
Чётко опишем, какую цель мы преследуем. Чаще всего бизнес беспокоит отток клиентов на каком-то этапе воронки продаж.
В нашем примере компании нужно больше новых заявок от людей, который продают свои машины. Есть сайт, но заявок с него приходит недостаточно.
Проблему пытаемся решить, обсуждаем, предлагаем решения. И так подходим к следующему этапу.
Шаг 2. Формулируем гипотезу
На основе проблемы выстраиваем гипотезу.
Гипотеза — это предположение о том, как может измениться состояние продукта, если изменить один из его элементов. В гипотезе обозначают решение, при котором ситуация изменится, а также показатели, которые улучшатся в результате изменения.
Для компании по покупке автомобилей с пробегом гипотеза звучит так:
Если добавить квиз на сайт с возможностью подбора предложения под запросы клиента, пользователи будут охотнее жать на кнопку «Оформить заявку», то есть переходить на следующий этап воронки продаж. Конверсия в заявку может повыситься на 20—25%. Результатом А/В-тестирования станет подтверждение или опровержение гипотезы.
При формировании гипотезы можно использовать разные источники:
— анализ данных аналитики;
— опросы клиентов;
💡 В Марквиз есть готовые шаблоны для опросов
— UX-исследования — изучение пользовательского опыта;
— Custdev — методика, которая помогает изучить продукт с точки зрения востребованности у пользователя.
💡 Как создать товар или услугу под запросы покупателей, читайте в нашей статье «Что такое CustDev и как провести исследование»
— исследования рынка в целом и продуктов-конкурентов;
— анализ обращений в службу поддержки;
— мозговые штурмы, сфокусированные на определенных метриках. Например, что нужно сделать, чтобы больше людей хотели продать авто нашей компании?
Шаг 3. Выбираем одну главную метрику, которую будем замерять
В А/В-тестировании используют разные метрики, в зависимости от гипотезы: увеличение покупок, заказов, увеличение среднего чека, процент возвращаемости пользователей, конверсия первой покупки и многое другое.
Метрикой А/В-тестирования квиза и сайта для компании по покупке авто с пробегом выбираем количество оставленных заявок.
Шаг 4. Выбираем одну тестовую переменную
В А/В-тестировании можно проверять заголовки, макеты или изображения. Важно выбрать только один элемент для тестирования. Возможно, захочется изменить несколько элементов, но это сильно размоет результаты теста.
В нашем примере сравниваем количество заявок с сайта и количество заявок с квиза.
Шаг 5. Создаём отдельные страницы А («контроль») и В («челленджер»)
Для проверки гипотезы нужна одна страница без изменений (А) и одна страница с измененным элементом (В).
В нашем случае тестируем, кто больше соберет заявок — сайт или квиз:
В квиз добавили 8 вопросов про авто клиента, которые могут подтолкнуть к тому, чтобы оставить заявку. Вот один из них:
Шаг 6. Создаём равные случайные группы тестирования
Группы тестирования пользователей выбираются случайным образом и, как правило, имеют одинаковый размер и общие демографические характеристики. А/В-тест делит аудиторию на две группы 50/50.
Благодаря случайной выборке, каждый пользователь может с одинаковой вероятностью увидеть либо версию А, либо версию В. Тестируемые аудитории не должны быть в курсе, что проводится A/B-тест, так как это может подсознательно повлиять на их реакцию.
В нашем примере для разделения трафика понадобится Google Optimize. Мы берём только рекламный трафик и делим его пополам: половина идёт на исходный вариант сайта по покупке авто с пробегом (А), половина — на квиз об условиях выкупа авто у клиентов (В).
Важное условие: и на сайт, и на квиз нужно установить единый счетчик Google Analytics и единую цель для фиксации конверсий.
Шаг 7. Рассчитаем число пользователей для тестирования — сделаем выборки
Размер выборки должен быть таким, чтобы получить статистически значимые данные о реакции аудитории на изменение.
Например, если мы предполагаем, что метрика увеличится значительно, например, с 50% до 80%, потребуется небольшой размер выборки. А если стартовая метрика составляет 1%, и мы предполагаем, что она изменится на 0,1%, то нужно задействовать в тестировании большое количество людей. В каждом отдельном случае рассчитываем выборку заново.
Есть бесплатные калькуляторы расчёта выборки, можно ими воспользоваться, например, Майндбокс.
В А/В-тесте сайта и квиза компании по покупке подержанных автомобилей Google Optimize самостоятельно определил, когда наступила статистическая значимость.
Шаг 8. Определяем статистическую значимость эксперимента
Статистическая значимость — это процент уверенности в том, что данные не оказались простой случайностью. Значимость определяют и устанавливают вручную, в зависимости от важности и сложности эксперимента.
Часто используются уровни значимости — 90%, 95% и 99%. Общепринято брать уровень значимости 95%. Смысл заключается в том, что из 100 пользователей, 10%, 5% или 1% сделали выбор случайно. Если протестируем достаточно большую группу пользователей, определим без ошибок, что предпочитает средний пользователь.
Для компании по покупке автомобилей возможно значение на уровне 90%, так как тестирование направлено на в общем-то небольшое улучшение и к тому же квиз не новый и привычный инструмент для пользователей.
Шаг 9. Проводим А/А-тестирование
Перед А/В-тестом проводят А/А-тест — для проверки однородности групп пользователей, настроек самого теста и замера исходной конверсии. В А/А-тесте сравнивают версию А с версией А.
Так мы проверяем инструмент тестирования, чтобы исключить технические ошибки. Если А/А тест показал изменения — а мы знаем, что их не должно быть, — значит нужно вернуться к настройкам теста. Проверяем:
- совпадают ли данные в сервисе с данными веб-аналитики (количество посетителей, конверсия);
- что варианты загружаются с одинаковой скоростью — смена варианта даже на тот же самый замедляет загрузку сайта и отражается на конверсии;
- чтобы обе страницы выглядели одинаково на всех устройствах и во всех браузерах.
Если А/А-тест не показал фаворита, значит с настройками все ок, можно запускать А/В-тест.
В нашем примере мы также запустили два одинаковых сайта в тест Google Optimize. Тестировали две одинаковые версии, смотрели за разницей конверсии в течение 2–4-х недель. Разницы не обнаружили, всё прошло ровно, поэтому перешли к следующему этапу.
Шаг 10. Приступаем к А/В-тестированию
Чтобы получить чёткое представление о результатах А/В-теста, оба варианта должны быть протестированы одновременно при условии одного и того же размера выборки посетителей.
Если запустим разные варианты один за другим, мы не узнаем, связаны ли результаты с изменениями в содержании или простыми колебаниями интереса из-за сезона или других причин.
Для компании по покупке автомобилей трафик параллельно направлялся и на сайт, и на квиз.
Шаг 11. Даём тесту достаточно времени, чтобы он принёс результаты
Мы рекомендуем проверить тест на ошибки через 1–2 дня, но не оценивать полученные результаты, так как в них пока нет глубокой информации. Гугл и Яндекс рекомендуют проводить тестирование не меньше двух недель. Первое время пользователи реагируют на новизну, потом статистика скачет, и только к концу второй недели теста показатели стабилизируются. Продолжительность тестирования зависит от размера выборки и объёма трафика.
В компании по продаже авто А/В-тестирование проводили в течение месяца.
Шаг 12. Смотрим результаты с помощью специальных сервисов
Можем использовать Google Analytics и Яндекс Метрику. О них подробнее расскажем далее.
В нашем примере компания по покупке подержанных авто получила конверсию в заявку с квиза выше, чем с сайта в 3 раза.
Результаты А/В-тестирования сайта и квиза по данным Google Analytics:
Шаг 13. Проводим анализ данных тестирования
Делаем собственные выводы, исходя из гипотезы. Учитываем прокси-метрики, то есть показатели, которые тоже изменились вслед за основными метриками.
Прокси-метрика — это косвенная мера целевой метрики, с которой она взаимосвязана. Например, по результатам А/В-теста конверсия выросла, но снизился средний чек. Если с прокси-метриками всё ок, то внедряем изменения.
В нашем примере в результатах А/В-тестов не выявлено косвенных факторов. Гипотеза подтвердилась. Конверсия оказалась выше, чем прогнозировалось. По итогу А/В-тестирования изменения были внедрены — весь трафик направили на квиз.
💡 Подробный кейс+гайд о том, как внедряли квиз для компании по покупке автомобилей с пробегом, можно в нашей статье
А/В-тестирование в Google Analytics
Удобно проводить тестирование с помощью инструмента на маркетинговой платформе Google — Optimize. Он бесплатный и может использоваться как на лендингах, так и на отдельной странице сайта. Для подключения понадобится аккаунт Google Analytics.
Пользователь, включённый в эксперимент, имеет равные шансы увидеть любой из вариантов теста. В настройках можно выбрать:
- процент трафика, который будет участвовать в исследовании;
- по-разному распределять трафик между вариантами;
- настроить таргетинг пользователей;
- выбирать цели из списка стандартных или настроить свои цели;
- одновременно проводить несколько тестов;
- формировать отчеты.
Плохая новость: Google Optimize станет недоступен после 30 сентября 2023 года. Компания будет развивать инструменты для А/В-тестирования в Google Analytics 4. Для запуска маркетинговых экспериментов можно уже сейчас воспользоваться Firebase A/B Testing.
А/В-тестирование в Яндекс Метрике
Данные из Яндекс Метрики можно использовать при подготовке гипотезы для А/В-тестирования.
В сервисе есть инструменты, которые покажут статистически значимую информацию для анализа поведения пользователей на сайте.
- Карта кликов определяет, на какие кнопки пользователи нажимают чаще всего и насколько сайт для них удобен.
- Воронка заказов позволяет понять, насколько удобна для пользователя форма заказа.
- Карта прокрутки даёт представление о том, что видит большинство посетителей, насколько информация на странице заставляет их прокручивать сайт вниз.
- Карта путей по сайту показывает, откуда приходят посетители и как двигаются по сайту. На основе анализа путей по сайту также можно разработать гипотезы улучшения пользовательского интерфейса.
💡 Как установить счётчик Яндекс Метрики в квиз, читайте в нашей статье
Сейчас Яндекс запускает новое решение для проведения А/В-тестов — Varioqub. Пока сервис проходит обкатку и можно поучаствовать в его тестировании.
А/В-тестирование в Яндекс Директ
В Яндекс Директе доступно создание нескольких рекламных материалов и автоматические показы аудитории самых кликабельных. Можно экспериментировать с иллюстрациями, текстом, размещением кнопки на странице и быстрыми ссылками. Таким образом, можно провести в Яндекс Директ A/В-тест любого элемента контекстного объявления.
Для достоверности рекомендуем одновременно тестировать не более одного элемента рекламы. Например, проверять только разные тексты или только разные иллюстрации. Если все элементы объявлений в группе различаются, вам, скорее всего, будет сложно оценивать, какой из них повлиял на эффективность.
A/B-тестирование в Facebook*
A/B-тесты в Facebook*(запрещён в РФ) проводят, чтобы быстро сравнить две рекламные стратегии и равномерно распределить показы между статистически равнозначными аудиториями.
Обычно A/B-тестирование создается с помощью панели инструментов в разделе Ads Manager, чтобы использовать существующую рекламную кампанию или группу объявлений в качестве шаблона для теста.
Сервис позволяет сравнивать разные креативы, аудитории или места размещения и определять наиболее результативные из них.
Так выглядит настройка А/В-теста рекламной кампании в Facebook*: выбираем направление для сплит-теста, чтобы проверить гипотезу
Что менять во время А/В-тестирования
❗Во время тестирования вносить изменения нельзя. Иначе не увидим честных результатов.
Также не стоит одновременно тестировать несколько переменных. Тестирование вариаций нескольких разных элементов — это уже не A/B-тестирование, а многовариантное тестирование, значительно более продвинутая программа исследований. Если вы проводите A/B-тестирование с несколькими одновременными переменными, может оказаться, что после его завершения будет трудно определить, какие именно переменные дали результаты.
3 варианта, что делать с результатами А/В-тестирования
На заключительном этапе мы будем отслеживать достоверность и эффективность каждого варианта по сравнению с другим и анализировать результаты.
1. Оценим достоверность полученных данных
Определим, вызваны ли результаты А/В-теста изменениями варианта В или случайностью.
2. Смотрим эффективность изменений
К примеру, по результатам А/В-теста фактический коэффициент конверсии вырос на 1%, как мы и предполагали в гипотезе. В результате выбранных изменений, метрика выросла, гипотеза подтвердилась. Но бывает и обратная ситуация, когда изменение не повлияло на ключевую метрику. Делаем выводы, что гипотеза не подтвердилась и собираем все результаты для дальнейшего анализа тестирования.
3. Анализируем данные и принимаем необходимое решение
Теперь необходимо решить: внести все изменения или тестировать новую гипотезу.
Важно задокументировать результаты и выделить положительные и отрицательные стороны. Эти документы станут основой для проведения быстрых и продуктивных мозговых штурмов в компании.
Подводные камни А/В-тестирования
В Гарвардской школе бизнеса выявили три основных ошибки в проведении А/В-тестирования:
Ошибка 1: ориентироваться на среднего пользователя
Одной из распространенных ошибок является сосредоточение внимания на средних значениях метрики. Когда делают акцент на этом моменте, компании, по сути, измеряют воздействие на вымышленного среднего человека и игнорируют огромные различия в поведении реальных клиентов. Это может привести к росту показателей в одной группе клиентов, но к снижению в другой.
Что это означает на практике? Например, у нас интернет-магазин верхней одежды, и 80% наших покупателей — мужчины. Женская одежда тоже есть, но не пользуется спросом. Хотим поднять покупки женских пуховичков. Для этого тестируем новую главную страницу: одну исходную, с упором на мужскую одежду (А), другую — с упором на женскую одежду (В). Скорее всего, вариант А, ориентированный на мужчин, всегда будет побеждать. В этом случае А/В-тест не скажет ничего, чего мы сами не знали. Самый быстрый путь к высокой конверсии заключается в выявлении посетителей-женщин и нацеливании на них релевантного контента.
Чтобы не делать ошибок, желательно сегментировать аудиторию — разделять пользователей на подгруппы по определенным характеристикам. Например:
- новые и постоянные посетители;
- мужчины и женщины;
- мобильный и десктопный трафик;
- лояльные клиенты и разовые покупателей.
💡 Подробнее о сегментировании — в нашей статье
Ошибка 2: забывать о том, что клиенты могут быть связаны между собой
Взаимодействие между участниками A/B-теста может повлиять на результат эксперимента.
Например, пользователь может отправить ссылку на версию А пользователю, который должен увидеть версию В. Это, скорее всего, повлияет на контрольную группу. Так может произойти серьезная ошибка в измерении. Чтобы этого избежать, требуется изолировать пользователей в группе А от пользователей в группе В. Например, если пользователь находится в группе А, то все другие пользователи, которые могут повлиять на его поведение, также входят в группу А. То же самое нужно сделать с группой В.
Ошибка 3: сосредоточиться на краткосрочной перспективе
Чтобы A/B-тест был успешным, эксперименты должны проводиться в течение достаточного периода времени. Первоначальные сигналы от теста часто отличаются от результатов, наблюдаемых после того, как участники привыкли к новому опыту. Это особенно верно в пользовательском интерфейсе, где распространены эффекты новизны: пользователи активнее участвуют в новых функциях, например, охотнее жмут на новую яркую кнопку, но со временем эффект ослабевает.
Также важно помнить, что инновации могут привести к долгосрочным, но медленным изменениям в том, как пользователи взаимодействуют с продуктом. Например, постепенные улучшения алгоритмов рекомендаций или производительности приложений не имеют быстрого измеримого эффекта, но значительно увеличивают удовлетворенность аудитории.
👻 Страшилка: что может убить ваш А/В-тест
— Неправильные гипотезы
— Неудачно выбранные целевые переменные
— Выгодная для себя трактовка эксперимента без подкрепления решения цифрами или фактами
— Принятие решения без проверки статистической значимости (целевая переменная на тесте > целевая переменная на контроле => тест победил)
— Неправильная аудитория/сегментация
— Неравномерно составленные тестовые группы/их несоответствие общей базе
— Сбои систем
— Ошибки в отчётности
— Ошибки в настроенном процессе
— Слишком долгая настройка процесса, вплоть до доведения теста до неактуальности
— Упущенные узкие места. Может оказаться, что при небольшой доработке можно провести успешный ретест
Заключение-вывод
A/B-тестирование помогает принимать решения в компаниях, которые ориентированы на конкретные данные. Как правило, результаты тестов играют важную роль, когда принимают решение изменить дизайн нового продукта или параметры бизнес-стратегии. А/В-тестирование поможет подружить дизайнеров, разработчиков и владельцев бизнеса, и совместно решить, как сделать продукт лучше для клиента, и подтвердить интуитивные догадки реальными цифрами.
В квизе есть дополнительные настройки для А/В-тестирования, чтобы не создавать несколько квизов, а тестировать изменения прямо в панели в разделе «Дополнения» и переключаться между вариантами А и В:
💡 Подробнее, как провести А/В-тестирование квиза — в нашей статье
🔬 Чтобы поэкспериментировать — переходите в панель Марквиз.