**Контекст:** Клиника анализирует эффективность двух протоколов лечения с помощью анализа выживаемости. Часть пациентов выбыли из наблюдения (цензурированные данные).
**Данные:** DataFrame `patients` — колонки: `patient_id`, `treatment` (A/B), `age`, `gender`, `stage` (I/II/III), `follow_up_days`, `event_observed` (1 = событие наступило, 0 = цензурировано), `comorbidities_count`.
**Задание:**
1. Постройте кривые Каплана-Мейера для каждого протокола лечения
2. Проведите log-rank тест для сравнения кривых
3. Рассчитайте медианное время до события для каждой группы
4. Проведите стратифицированный анализ по стадии заболевания
Структура для ориентира — реальные значения из эталонного решения.
patients = pd.DataFrame({
'patient_id': range(n),
'treatment': np.random.choice(['A', 'B'], n),
'age': np.random.normal(60, 12, n).astype(int).clip(25, 90),
'gender': np.random.choice(['M', 'F'], n),
'stage': np.random.choice(['I', 'II', 'III'], n, p=[0.3, 0.45, 0.25]),
'comorbidities_count': np.random.poisson(2, n),
})
pandas lifelines survival Kaplan-Meier log-rank цензурирование
Это задание для уровня Senior. Senior-уровень — глубокое понимание темы, опыт решения нестандартных задач, обсуждение trade-off на собеседовании.
Подобные задания в категории «Python» регулярно дают на собеседованиях аналитика данных в Яндекс, Сбер, Ozon, Авито, Тинькофф, Wildberries, T-Bank, X5, ВТБ и других крупных IT-компаниях. Тематика: pandas, lifelines, survival, Kaplan-Meier, log-rank.
На реальном собеседовании на подобную задачу отводится 30-60 минут с обсуждением подходов, оптимизаций и trade-off. Для тренировки рекомендуем сначала решить самостоятельно, потом сверить с эталонным решением и подсказками.
На zasqlpython.ru есть 482 Python задачи с проверкой через Pyodide, конспекты Python и pandas, AI мок-собеседование с разбором ваших ответов.
← Все задания