Backfill исторических данных

medium data_engineering Общие

Условие задания

**Компания:** Сбер

**Контекст:** Изменилась логика расчёта витрины `mart_client_segments`. Нужно пересчитать данные за последние 12 месяцев (backfill). Таблица содержит 500 млн строк. Полный пересчёт за раз перегрузит базу.

**Задание:**
1. Напишите SQL для батчевого backfill: пересчёт по одному месяцу за раз
2. Добавьте мониторинг прогресса (сколько месяцев обработано, время каждого батча)
3. Предусмотрите возможность продолжить backfill с места остановки при сбое

Пример данных

Структура для ориентира — реальные значения из эталонного решения.

-- Таблица прогресса
CREATE TABLE backfill_progress (
    batch_id SERIAL PRIMARY KEY,
    target_month DATE NOT NULL,
    status VARCHAR(20) DEFAULT 'pending',  -- pending, running, completed, failed
    rows_affected INT,
    started_at TIMESTAMP,
    finished_at TIMESTAMP,
    duration_sec NUMERIC(10,1)
);

-- Инициализация: создать записи для всех месяцев
INSERT INTO backfill_progress (target_month)
SELECT generate_series(
    DATE_TRUNC('month', CURRENT_DATE) - INTERVAL '12 months',
    DATE_TRUNC('month', CURRENT_DATE) - INTERVAL '1 month',
    INTERVAL '1 month'
)::date;

Темы

backfill исторические данные batch миграция

Подсказки

Все тестовые задания →

Частые вопросы

Какой уровень знаний нужен для задачи "Backfill исторических данных"?

Это задание для уровня medium. Senior-уровень — глубокое понимание темы, опыт решения нестандартных задач, обсуждение trade-off на собеседовании.

На каких собеседованиях встречается такая задача?

Подобные задания в категории «data_engineering» регулярно дают на собеседованиях аналитика данных в Яндекс, Сбер, Ozon, Авито, Тинькофф, Wildberries, T-Bank, X5, ВТБ и других крупных IT-компаниях. Тематика: backfill, исторические данные, batch, миграция.

Сколько времени даётся на решение?

На реальном собеседовании на подобную задачу отводится 30-60 минут с обсуждением подходов, оптимизаций и trade-off. Для тренировки рекомендуем сначала решить самостоятельно, потом сверить с эталонным решением и подсказками.

Где ещё потренироваться по теме «data_engineering»?

На zasqlpython.ru есть другие задания в категории «data_engineering», продуктовые кейсы, справочник метрик, AI мок-собеседование с разбором ваших ответов.

← Все задания