6 модулей. Каждый — 5-7 дней. К концу можешь объяснить ЦПТ, ЗБЧ, считать условные вероятности, решать parlor problems.
Эти задачи спрашивают на 60% технических собесов аналитика (теория вероятностей секция):
Классическая задача с собеса fintech. Тест на болезнь — sensitivity 99%, specificity 95%, prevalence 1%. Какая вероятность что больной если тест положительный?
# P(D|+) = P(+|D) * P(D) / P(+)
P_D = 0.01 # prevalence (доля больных)
P_pos_given_D = 0.99 # sensitivity (true positive rate)
P_pos_given_notD = 0.05 # 1 - specificity (false positive rate)
# P(+) — full probability
P_pos = P_pos_given_D * P_D + P_pos_given_notD * (1 - P_D)
# Bayes
P_D_given_pos = P_pos_given_D * P_D / P_pos
print(f"P(больной | положительный тест) = {P_D_given_pos*100:.1f}%")
# Output: 16.7% (а не 99% как кажется!)
# Это и есть base rate fallacy — типичная ловушка на собесе
Центральная предельная теорема — почему средние всего стремятся к нормальному распределению. На собесе спросят:
Минимум что нужно знать на собесе аналитика:
| Распределение | Применение | Параметры |
|---|---|---|
| Бернулли | Один эксперимент с двумя исходами | p |
| Биномиальное | N независимых Бернулли | n, p |
| Пуассон | Поток редких событий | λ |
| Геометрическое | Число попыток до первого успеха | p |
| Нормальное | Сумма независимых (через ЦПТ) | μ, σ² |
| Экспоненциальное | Время до события (memoryless) | λ |
| Равномерное | Случайная величина в интервале | a, b |
Интегралы — да, базово (для непрерывных распределений). Высшая алгебра — нет. Если забыл matan — повтори интегрирование за 1-2 дня.
Junior: 30-40 задач. Middle: 60-80. Senior: 100+ включая applied (A/B-тесты, causal). У нас 40+ задач уровня Junior-Middle в разделе /tasks/category/probability.
Идут вместе. Теорвер — фундамент (распределения, мат. ожидание). Статистика — applied (hypothesis testing, regression). На собесе спросят оба, статистику чаще.
«Probability» (Ross) — стандарт. «Введение в теорию вероятностей» (Феллер) — классика на русском. «Probability and Statistics for Data Scientists» — applied.
Статистика (наш курс /lp/statistika-course) — t-test, chi-square, multiple testing. Потом A/B-тесты (/lp/ab-testy) и causal inference.