Определение 'рук' и 'наград' для вашего эксперимента
Вы уже знаете, что такое многорукие бандиты (МРБ), чем они отличаются от классического A/Б-тестирования и в каких сценариях их применение наиболее эффективно. Познакомились с принципами работы алгоритмов Thompson Sampling и UCB, понимая их преимущества и недостатки. Теперь перейдём от теории к практике и подготовимся к запуску вашего первого МРБ-эксперимента.
Первый и самый важный шаг — определить «руки» и «награды» для вашего эксперимента. Это фундамент, на котором строится вся логика МРБ.
Что такое «руки» в МРБ?
Вспомните аналогию с однорукими бандитами в казино. Каждая «рука» (рычаг) — это отдельный вариант действия или выбора, который вы хотите протестировать. В A/Б-тестировании это были бы ваши варианты A, B, C и так далее.
Примеры «рук» в реальных проектах:
- Маркетинг и реклама:
- Разные заголовки рекламных объявлений.
- Варианты креативов (изображения, видео).
- Призывы к действию (CTA-кнопки): «Купить сейчас», «Узнать подробнее», «Заказать».
- Скидочные предложения или промокоды.
- Веб-сайты и мобильные приложения:
- Варианты дизайна страницы (например, расположение элементов).
- Разные формулировки текста на кнопках или в описаниях товаров.
- Разные цвета кнопок.
- Варианты рекомендаций товаров или контента.
- Персонализация:
- Различные алгоритмы ранжирования выдачи.
- Варианты отображения контента для разных сегментов пользователей.
Важно: Каждая «рука» должна быть взаимоисключающим вариантом, который вы хотите оптимизировать. Если вы тестируете заголовок и изображение одновременно, это не две «руки», а один комбинированный вариант.
Что такое «награды» в МРБ?
«Награда» — это результат действия пользователя после взаимодействия с выбранной «рукой». Это то, что вы хотите максимизировать. Награды могут быть бинарными (да/нет) или непрерывными (числовыми).
Примеры «наград»:
- Бинарные награды (0 или 1):
- Клик: Пользователь кликнул на рекламное объявление (1) или нет (0).
- Покупка: Пользователь совершил покупку (1) или нет (0).
- Регистрация: Пользователь зарегистрировался на сайте (1) или нет (0).
- Просмотр видео до конца: Пользователь досмотрел видео (1) или нет (0).
- Вспомните Thompson Sampling с бета-распределением — он идеально подходит для таких бинарных наград.
- Непрерывные награды (числовые):
- Доход: Сумма денег, которую пользователь потратил.
- Время на сайте: Количество минут, проведённое пользователем на странице.
- Количество просмотренных страниц: Число страниц, которые пользователь посетил за сессию.
- Средний чек: Сумма покупки.
Совет: При выборе награды всегда ориентируйтесь на свою ключевую бизнес-метрику. Если ваша цель — увеличить доход, то наградой должен быть доход, а не клики. МРБ будет оптимизировать именно ту метрику, которую вы ему укажете.
Как определить «руки» и «награды» для вашего проекта?
- Сформулируйте гипотезу: Что вы хотите улучшить? Например: «Изменение текста кнопки „Купить“ на „Заказать со скидкой“ увеличит конверсию в покупку».
- Определите варианты (руки): В данном случае, это будут две «руки»:
- Рука 1: Кнопка с текстом «Купить».
- Рука 2: Кнопка с текстом «Заказать со скидкой».
- Определите целевую метрику (награду): Что является успехом? В нашем примере это будет покупка. Награда будет бинарной: 1, если пользователь совершил покупку после клика по кнопке, и 0, если нет.
Пример из российского e-commerce:
Представьте, что вы владелец интернет-магазина бытовой техники. Вы хотите протестировать, какой вариант баннера на главной странице лучше привлекает внимание и ведёт к покупке.
- Руки:
- Баннер 1: Изображение стиральной машины с текстом «Скидки до 30% на крупную бытовую технику».
- Баннер 2: Изображение счастливой семьи в новой кухне с текстом «Обновите дом: выгодные предложения на всё для уюта».
- Баннер 3: Изображение конкретной модели холодильника с текстом «Холодильник Bosch: успейте купить по суперцене!».
- Награда:
- Бинарная: Покупка любого товара из категории «Крупная бытовая техника» в течение 24 часов после клика на баннер (1 — покупка, 0 — нет).
- Непрерывная: Сумма чека пользователя, совершившего покупку после клика на баннер.
Правильное определение «рук» и «наград» — это половина успеха вашего МРБ-эксперимента. От этого зависит, насколько точно алгоритм сможет оптимизировать вашу целевую метрику.
Теперь, когда вы понимаете, как определить ключевые элементы вашего эксперимента, следующим шагом будет подготовка данных для их эффективного использования в МРБ.