Проверить features на информацию из будущего (temporal leak), из target (target leak), или из test-set (train-test contamination). Признак: подозрительно высокое quality на тесте и одна доминирующая фича
Data leakage невозможен при использовании cross-validation — процедура K-fold автоматически гарантирует отсутствие любых утечек и корректность статистических оценок
Leakage происходит только при утечке данных третьим лицам через API или dump БД — это проблема информационной безопасности, не имеет отношения к качеству ML-моделей
Достаточно разделить данные на train и test случайным shuffle с фиксированным random_state — это исключает любые формы leakage и даёт корректную оценку обобщения
Разбор ответа
Подробный разбор с объяснением «почему правильный ответ верный» и почему остальные неверны — после регистрации.
2475 вопросов с разбором, quiz-режим с проверкой, AI-собес и подготовка к интервью аналитика.