Инкрементальная загрузка витрины (partitioning)

Middle data_engineering Общие

Условие задания

Витрина `fct_orders_daily` агрегирует заказы по дням. Полный пересчёт по сырой таблице на 2 млрд строк занимает 40 минут и гоняется каждый час.

**Задание:** как перевести на инкрементальную загрузку, чтобы пересчитывать только свежие данные? Что учесть с опоздавшими событиями (late-arriving data)?

Пример данных

Структура для ориентира — реальные значения из эталонного решения.

-- пересчитываем последние 3 дня (lookback на опоздавшие события)
DELETE FROM fct_orders_daily
WHERE event_date >= current_date - INTERVAL '3' DAY;

INSERT INTO fct_orders_daily
SELECT event_date, COUNT(*) AS orders, SUM(amount) AS revenue
FROM raw_orders
WHERE event_date >= current_date - INTERVAL '3' DAY
GROUP BY event_date;

Темы

ETL incremental partitioning dbt

Подсказки

Все тестовые задания →

Частые вопросы

Какой уровень знаний нужен для задачи "Инкрементальная загрузка витрины (partitioning)"?

Это задание для уровня Middle. Для middle-аналитиков с опытом 1-3 года, требует уверенного владения темой и понимания edge cases.

На каких собеседованиях встречается такая задача?

Подобные задания в категории «data_engineering» регулярно дают на собеседованиях аналитика данных в Яндекс, Сбер, Ozon, Авито, Тинькофф, Wildberries, T-Bank, X5, ВТБ и других крупных IT-компаниях. Тематика: ETL, incremental, partitioning, dbt.

Сколько времени даётся на решение?

На реальном собеседовании на подобную задачу отводится 15-30 минут — оцениваются подход, корректность, обработка edge cases. Для тренировки рекомендуем сначала решить самостоятельно, потом сверить с эталонным решением и подсказками.

Где ещё потренироваться по теме «data_engineering»?

На zasqlpython.ru есть другие задания в категории «data_engineering», продуктовые кейсы, справочник метрик, AI мок-собеседование с разбором ваших ответов.

← Все задания