Валидация данных: пропуски и аномалии

easy data_engineering Общие

Условие задания

**Компания:** Яндекс

**Контекст:** После загрузки данных из внешнего источника в таблицу `raw_events` нужно провести проверки качества перед тем, как данные попадут в витрину.

[см. код в задании]

**Задание:**
1. Напишите SQL-проверки для: пропуски в обязательных полях, дубли по event_id, события из будущего, отрицательные значения
2. Оформите результат как единый отчёт (название проверки, количество проблемных строк)
3. Предложите, что делать с невалидными записями

Пример данных

Структура для ориентира — реальные значения из эталонного решения.

CREATE TABLE raw_events (
    event_id BIGINT,
    user_id BIGINT,
    event_type VARCHAR(50),
    event_value NUMERIC(12,2),
    event_ts TIMESTAMP,
    loaded_at TIMESTAMP DEFAULT NOW()
);

Темы

data quality NULL валидация аномалии проверки

Подсказки

Все тестовые задания →

Частые вопросы

Какой уровень знаний нужен для задачи "Валидация данных: пропуски и аномалии"?

Это задание для уровня easy. Senior-уровень — глубокое понимание темы, опыт решения нестандартных задач, обсуждение trade-off на собеседовании.

На каких собеседованиях встречается такая задача?

Подобные задания в категории «data_engineering» регулярно дают на собеседованиях аналитика данных в Яндекс, Сбер, Ozon, Авито, Тинькофф, Wildberries, T-Bank, X5, ВТБ и других крупных IT-компаниях. Тематика: data quality, NULL, валидация, аномалии, проверки.

Сколько времени даётся на решение?

На реальном собеседовании на подобную задачу отводится 30-60 минут с обсуждением подходов, оптимизаций и trade-off. Для тренировки рекомендуем сначала решить самостоятельно, потом сверить с эталонным решением и подсказками.

Где ещё потренироваться по теме «data_engineering»?

На zasqlpython.ru есть другие задания в категории «data_engineering», продуктовые кейсы, справочник метрик, AI мок-собеседование с разбором ваших ответов.

← Все задания