Проверка качества данных: дубли, NULL, выбросы

easy data_engineering Общие

Условие задания

**Компания:** Яндекс

**Контекст:** Перед загрузкой данных в витрину нужно провести автоматические проверки качества. Напишите набор функций для валидации DataFrame.

**Задание:**
1. Функция проверки на дубликаты по ключевым столбцам
2. Функция проверки на NULL в обязательных полях
3. Функция обнаружения выбросов по IQR
4. Общая функция, которая запускает все проверки и возвращает отчёт

Темы

data quality pandas выбросы IQR проверки

Подсказки

Все тестовые задания →

Частые вопросы

Какой уровень знаний нужен для задачи "Проверка качества данных: дубли, NULL, выбросы"?

Это задание для уровня easy. Senior-уровень — глубокое понимание темы, опыт решения нестандартных задач, обсуждение trade-off на собеседовании.

На каких собеседованиях встречается такая задача?

Подобные задания в категории «data_engineering» регулярно дают на собеседованиях аналитика данных в Яндекс, Сбер, Ozon, Авито, Тинькофф, Wildberries, T-Bank, X5, ВТБ и других крупных IT-компаниях. Тематика: data quality, pandas, выбросы, IQR, проверки.

Сколько времени даётся на решение?

На реальном собеседовании на подобную задачу отводится 30-60 минут с обсуждением подходов, оптимизаций и trade-off. Для тренировки рекомендуем сначала решить самостоятельно, потом сверить с эталонным решением и подсказками.

Где ещё потренироваться по теме «data_engineering»?

На zasqlpython.ru есть другие задания в категории «data_engineering», продуктовые кейсы, справочник метрик, AI мок-собеседование с разбором ваших ответов.

← Все задания