Кинопоиск: тёмная тема — pre-experiment power analysis

Средний Медиа UX 40 мин A/B-test design Yandex

Ситуация: Команда хочет тестировать dark theme. Spread metric: time-on-app. Сколько юзеров и времени надо?

Baseline time-on-app = 28 min/session. Standard deviation = 18 min (сильно разлог).

Доступные данные

sessions: session_id, user_id, ts, duration_min, app_version, theme
historical_data: 6 months of sessions, для variance estimation
users: user_id, registration_ts, prefer_dark, last_active
theme_preference_log: user_id, theme, ts_set (для split-stratification)

Задачи

MDE design: какой uplift catch — +5%? +2%?
Power formula для continuous metric: n = 16 × σ² / Δ².
+5% uplift = +1.4 min, n = 16 × 18² / 1.4² ≈ 2640 per group.
+2% uplift = +0.56 min, n ≈ 16500 per group.
Длительность: при traffic 100K юзеров/день, 2 недели хватает для +2%.

Все кейсы для подготовки →

Жанр кейса: A/B-тест: design + анализ — все кейсы этого типа.

Как разбирать A/B-тест: design + анализ кейсы

Что спрашивают на A/B-кейсах?

Дизайн теста (primary metric, guardrails, sample size, длительность), анализ результатов (significance, segments, novelty effect) и interpretation для бизнеса.

Какие типичные ошибки в A/B?

Peeking (стоп при «явной победе»), без guardrails, без power analysis, игнорирование novelty effect, SRM не проверяется, p-hacking при extend.

Что такое CUPED?

Variance reduction: используем pre-experiment данные юзера для корректировки в-experiment метрики. Сокращает sample size в 1.5-2 раза при тех же MDE.

← Все кейсы

Кинопоиск: тёмная тема — pre-experiment power analysis

Доступные данные

Задачи

Как разбирать A/B-тест: design + анализ кейсы

Похожие задачи на собеседованиях

Похожие кейсы (Медиа)