Курс по статистике для аналитика данных — Stats 2026

Курс по статистике — фундамент для аналитика. На собесе обязательно спросят про распределения, доверительные интервалы, t-test, p-value, multiple testing. Здесь — структурированная программа за 6-8 недель с практикой на Python (scipy.stats). 16 модулей конспектов + 50+ задач + 20+ playgrounds в браузере.

Содержание (7 разделов)

Программа курса (16 модулей)
Что входит в каждый модуль
Примеры конспектов
Глубина: от основ до Bayesian и causal inference
Формат: на русском с примерами реальных РФ-компаний
Программа за 8 недель
Python playgrounds

Программа курса (16 модулей)

Модули разбиты на 4 спринта. Каждый — 1-2 недели. К концу курса можешь объяснить разницу между classical и Bayesian A/B, считать sample size, делать bootstrap CI.

Спринт	Темы
1. Probability	probability-basics, distributions (normal/binom/poisson/expon)
2. Descriptive	mean/median/mode, variance, correlation (Pearson/Spearman), skewness, CI, bootstrap
3. Inference	hypothesis testing, A/B design, multiple testing (Bonferroni/BH), Bayesian, sequential (mSPRT)
4. Causal	causal inference, DiD, propensity score matching, instrumental variables

Что входит в каждый модуль

Структура одного модуля (~30-60 мин на изучение):

Простыми словами (3-4 предложения для джуна)
Учебные данные (синтетический пример)
Основной контент с code-блоками и формулами LaTeX
Подвохи — что спрашивают на собесе, типичные ошибки
2-3 интерактивных python-задачи (scipy/numpy) с автопроверкой
Чек-лист «что узнал» и «что дальше»
Ссылки на смежные модули и блог-посты

Примеры конспектов

Конкретные модули из текущей программы:

CUPED variance reduction (Microsoft 2013) — снижает variance на 30-50%
mSPRT sequential testing — без peeking penalty
Bayesian A/B (Beta-Binomial) — Booking использует
Difference-in-Differences (Card-Krueger 1994) — для observational data
Propensity Score Matching — для квазиэкспериментов
Instrumental Variables (Angrist-Krueger 1991) — для causal inference

Глубина: от основ до Bayesian и causal inference

Большинство базовых курсов по статистике покрывают основы (описательная статистика, t-test, ЦПТ) — этого хватит для начала Junior. Наш курс идёт глубже: Bayesian A/B, sequential testing (mSPRT), causal inference (DiD, PSM, IV). Это уровень Middle/Senior собеса в продуктовых компаниях.

Формат: на русском с примерами реальных РФ-компаний

Наш курс — на русском с примерами реальных кейсов (Booking Bayesian A/B, Microsoft mSPRT, Yandex CUPED). Python playgrounds в браузере через Pyodide — решаешь задачу сразу, без установки Anaconda.

Программа за 8 недель

Реалистичный план для self-study:

Неделя 1-2 — Probability + distributions (4 модуля)
Неделя 3-4 — Descriptive + correlation + bootstrap (5 модулей)
Неделя 5-6 — Hypothesis testing + A/B design + multiple testing (4 модуля)
Неделя 7-8 — Causal inference (DiD, PSM, IV) — 3 модуля

Python playgrounds

В каждом модуле — интерактивная задача с scipy/numpy. Решаешь прямо в браузере через Pyodide, autocheck через expectedOutput / expectedContains.

# Playground: bootstrap CI для медианы
import numpy as np
from scipy import stats

# Данные: длительность сессии (skewed распределение)
sessions = np.random.exponential(scale=180, size=500)  # 500 сессий

# Bootstrap 95% CI для медианы
boot = stats.bootstrap(
    (sessions,),
    np.median,
    confidence_level=0.95,
    n_resamples=10000,
    random_state=42
)
print(f"Median: {np.median(sessions):.1f} sec")
print(f"95% CI: [{boot.confidence_interval.low:.1f}, {boot.confidence_interval.high:.1f}]")
# Expected output (примерно): Median ~125 sec, CI [110, 145]

Частые вопросы

Нужна ли вышмат для статистики?

Базово — да: производные, интегралы (для понимания PDF). Углублённо — нет. Большинство аналитиков забыли вышмат, но используют scipy.stats без проблем. Главное — понимать что считаешь.

Что важнее: классическая или Bayesian статистика?

Для собеса 2026 — классическая (t-test, chi-square, p-value) обязательна. Bayesian — bonus, спрашивают на Middle+ в продвинутых компаниях (Yandex, Авито, Tinkoff).

Сколько времени на курс?

6-8 недель по 1-2 часа в день. Главное практика — после каждой темы 2-3 задачи в Python playground.

Что после статистики?

После basics — углубление в A/B-тесты (CUPED, sequential), causal inference (DiD, PSM), или ML (sklearn). Зависит от трека: product analyst vs data scientist.

Можно ли обойтись бесплатными visual-курсами?

Бесплатные visual-курсы — хороший старт для основ (ЦПТ, t-test). Но не доходят до A/B / Bayesian / causal. Используй как preliminary этап для понимания концепций, потом переходи на наш курс для applied-уровня.

Какие книги читать?

«Statistics» (Freedman) — фундамент, «Practical Statistics for Data Scientists» (Bruce) — applied, «Trustworthy Online Controlled Experiments» (Kohavi) — A/B бестселлер 2020.

Начать практику бесплатно →