**Компания:** Яндекс
**Контекст:** Аналитическое хранилище получает данные из операционной базы. Сейчас используется полная выгрузка каждую ночь. Нужно перейти на CDC для получения изменений в реальном времени.
**Задание:**
1. Объясните три подхода к CDC: timestamp-based, trigger-based, log-based
2. Напишите SQL для реализации timestamp-based CDC
3. Опишите архитектуру log-based CDC с Debezium + Kafka
4. Сравните подходы по latency, нагрузке на источник, сложности
Структура для ориентира — реальные значения из эталонного решения.
-- Таблица для хранения watermark
CREATE TABLE cdc_watermarks (
source_table VARCHAR(200) PRIMARY KEY,
last_ts TIMESTAMP NOT NULL
);
-- Извлечение изменений
WITH changes AS (
SELECT *
FROM src_orders
WHERE updated_at > (
SELECT last_ts FROM cdc_watermarks WHERE source_table = 'src_orders'
)
ORDER BY updated_at
)
INSERT INTO stg_orders_changes
SELECT *, 'upsert' AS operation, NOW() AS captured_at
FROM changes;
-- Обновить watermark
UPDATE cdc_watermarks
SET last_ts = (SELECT MAX(updated_at) FROM stg_orders_changes)
WHERE source_table = 'src_orders';
CDC change data capture WAL Debezium реплика
Это задание для уровня medium. Senior-уровень — глубокое понимание темы, опыт решения нестандартных задач, обсуждение trade-off на собеседовании.
Подобные задания в категории «data_engineering» регулярно дают на собеседованиях аналитика данных в Яндекс, Сбер, Ozon, Авито, Тинькофф, Wildberries, T-Bank, X5, ВТБ и других крупных IT-компаниях. Тематика: CDC, change data capture, WAL, Debezium, реплика.
На реальном собеседовании на подобную задачу отводится 30-60 минут с обсуждением подходов, оптимизаций и trade-off. Для тренировки рекомендуем сначала решить самостоятельно, потом сверить с эталонным решением и подсказками.
На zasqlpython.ru есть другие задания в категории «data_engineering», продуктовые кейсы, справочник метрик, AI мок-собеседование с разбором ваших ответов.
← Все задания