Выбор алгоритма: Thompson Sampling или UCB?

Курс: Быстрый старт: Многорукие бандиты в A/Б тестировании0+

Вы уже познакомились с Thompson Sampling и UCB — мощными алгоритмами многоруких бандитов. Теперь разберёмся, какой выбрать для вашей задачи.

Thompson Sampling против UCB: что выбрать?

Оба алгоритма решают главную задачу: как одновременно исследовать новые варианты и использовать лучшие. Но подходы у них разные.

Характеристика	Thompson Sampling	UCB (Upper Confidence Bound)
Подход	Вероятностный (Байесовский)	Детерминированный (Оптимизационный)
Интуиция	Выбираем «руку» с наибольшей вероятностью быть лучшей	Выбираем «руку» с наибольшим потенциалом (оптимизм при неопределённости)
Баланс	Естественный, динамический	Явный, через коэффициент неопределённости (например, `c` в UCB1)
Чувствительность к шуму	Менее чувствителен к выбросам	Может быть чувствительнее, особенно в начале
Реализация	Требует генерации случайных чисел из распределений	Обычно проще, особенно базовые версии
Производительность	Часто отлично работает, особенно с бинарными исходами	Хорош в стабильных условиях
Адаптация	Лучше адаптируется к меняющимся условиям (сезонность, тренды)	Может требовать сброса или настройки при сильных изменениях

Когда выбрать Thompson Sampling?

Thompson Sampling — отличный выбор, если:

Исходы бинарны (клик/не клик, покупка/не покупка). Бета-распределение идеально подходит для таких вероятностей.
Нужен адаптивный подход. Его вероятностная природа позволяет ему естественно исследовать новое и быстро переключаться на лучшие варианты при изменении ситуации.
Важна простота настройки. Для базовых случаев Thompson Sampling часто не требует тонкой настройки параметров (в отличие от UCB, где коэффициент c может сильно влиять на поведение).
Вы начинаете «с нуля» (данных очень мало). Thompson Sampling хорошо справляется с первоначальным исследованием.
Среда динамична и постоянно меняется. Thompson Sampling лучше адаптируется к таким изменениям, так как его исследование более органично.

Пример из практики: Вы тестируете заголовки для рассылки. Кликабельность (CTR) — бинарный исход. Thompson Sampling отлично подойдёт для динамического распределения трафика между заголовками, быстро находя самый эффективный.

Когда выбрать UCB?

UCB может быть предпочтительнее в следующих случаях:

Нужно предсказуемое, детерминированное поведение. UCB явно балансирует исследование и эксплуатацию через свою формулу.
Среда относительно стабильна, и вы хотите быстро прийти к оптимальному решению.
Вы готовы к небольшой настройке. Коэффициент c в UCB позволяет контролировать степень исследования. Увеличите c — усилите исследование, уменьшите — эксплуатацию.
Нужна простая реализация без сложных статистических распределений. Базовые версии UCB относительно легко кодируются.

Пример из практики: Вы оптимизируете показ рекламных баннеров на сайте, где CTR баннеров меняется нечасто. UCB может быть эффективен для быстрого определения самого кликабельного баннера и максимизации показов.

Так что же выбрать?

В большинстве случаев, особенно для начинающих, Thompson Sampling — отличная отправная точка. Он интуитивен, хорошо работает с бинарными исходами (что очень часто встречается в A/Б тестировании) и хорошо адаптируется.

Важный совет: Не бойтесь экспериментировать! Начните с одного алгоритма, а затем, если видите, что результаты не оптимальны или есть специфические требования, попробуйте другой. Иногда лучший выбор — это тот, который вы понимаете и можете эффективно применять.

Выбор алгоритма зависит от вашей задачи, типа данных и желаемого поведения. Главное, что теперь вы понимаете основные принципы и можете сделать осознанный выбор.

Теперь, когда мы разобрались с теорией, пора переходить к практике. В следующем разделе мы начнём подготовку данных для нашего первого МРБ-эксперимента.