CDC (Change Data Capture) паттерн

medium data_engineering Общие

Условие задания

**Компания:** Яндекс

**Контекст:** Аналитическое хранилище получает данные из операционной базы. Сейчас используется полная выгрузка каждую ночь. Нужно перейти на CDC для получения изменений в реальном времени.

**Задание:**
1. Объясните три подхода к CDC: timestamp-based, trigger-based, log-based
2. Напишите SQL для реализации timestamp-based CDC
3. Опишите архитектуру log-based CDC с Debezium + Kafka
4. Сравните подходы по latency, нагрузке на источник, сложности

Пример данных

Структура для ориентира — реальные значения из эталонного решения.

-- Таблица для хранения watermark
CREATE TABLE cdc_watermarks (
    source_table VARCHAR(200) PRIMARY KEY,
    last_ts TIMESTAMP NOT NULL
);

-- Извлечение изменений
WITH changes AS (
    SELECT *
    FROM src_orders
    WHERE updated_at > (
        SELECT last_ts FROM cdc_watermarks WHERE source_table = 'src_orders'
    )
    ORDER BY updated_at
)
INSERT INTO stg_orders_changes
SELECT *, 'upsert' AS operation, NOW() AS captured_at
FROM changes;

-- Обновить watermark
UPDATE cdc_watermarks
SET last_ts = (SELECT MAX(updated_at) FROM stg_orders_changes)
WHERE source_table = 'src_orders';

Темы

CDC change data capture WAL Debezium реплика

Подсказки

Все тестовые задания →

Частые вопросы

Какой уровень знаний нужен для задачи "CDC (Change Data Capture) паттерн"?

Это задание для уровня medium. Senior-уровень — глубокое понимание темы, опыт решения нестандартных задач, обсуждение trade-off на собеседовании.

На каких собеседованиях встречается такая задача?

Подобные задания в категории «data_engineering» регулярно дают на собеседованиях аналитика данных в Яндекс, Сбер, Ozon, Авито, Тинькофф, Wildberries, T-Bank, X5, ВТБ и других крупных IT-компаниях. Тематика: CDC, change data capture, WAL, Debezium, реплика.

Сколько времени даётся на решение?

На реальном собеседовании на подобную задачу отводится 30-60 минут с обсуждением подходов, оптимизаций и trade-off. Для тренировки рекомендуем сначала решить самостоятельно, потом сверить с эталонным решением и подсказками.

Где ещё потренироваться по теме «data_engineering»?

На zasqlpython.ru есть другие задания в категории «data_engineering», продуктовые кейсы, справочник метрик, AI мок-собеседование с разбором ваших ответов.

← Все задания