**Данные:** CDC из MySQL через Debezium → Kafka → ClickHouse. Каждое UPDATE в MySQL создаёт новую строку в CH:
[см. код в задании]
После 30 дней работы — таблица содержит **5+ версий каждого юзера** (дубликаты по user_id).
**Задание:**
1. Сравни **3 стратегии дедупликации** для production:
- ReplacingMergeTree + SELECT FINAL
- ReplacingMergeTree + argMax (без FINAL)
- ROW_NUMBER() OVER (PARTITION BY ...)
2. Напиши SELECT для получения latest version каждого юзера каждым из 3 способов
3. Обоснуй какой выбрать для daily-обновляемого dashboard (millions of users)
Структура для ориентира — реальные значения из эталонного решения.
-- Переделать таблицу:
CREATE TABLE users_dedup (
user_id UInt64,
email String,
phone String,
updated_at DateTime
)
ENGINE = ReplacingMergeTree(updated_at)
ORDER BY user_id;
-- INSERT данных:
INSERT INTO users_dedup SELECT user_id, email, phone, updated_at FROM users_raw;
-- Запрос:
SELECT * FROM users_dedup FINAL WHERE user_id = 42;
-- Гарантированно одна строка с latest updated_at
ClickHouse deduplication ReplacingMergeTree FINAL ROW_NUMBER
Это задание для уровня Senior. Senior-уровень — глубокое понимание темы, опыт решения нестандартных задач, обсуждение trade-off на собеседовании.
Подобные задания в категории «SQL» регулярно дают на собеседованиях аналитика данных в Яндекс, Сбер, Ozon, Авито, Тинькофф, Wildberries, T-Bank, X5, ВТБ и других крупных IT-компаниях. Тематика: ClickHouse, deduplication, ReplacingMergeTree, FINAL, ROW_NUMBER.
На реальном собеседовании на подобную задачу отводится 30-60 минут с обсуждением подходов, оптимизаций и trade-off. Для тренировки рекомендуем сначала решить самостоятельно, потом сверить с эталонным решением и подсказками.
На zasqlpython.ru есть 520+ SQL задач в песочнице с автопроверкой кода, конспекты SQL для аналитика, AI мок-собеседование с разбором ваших ответов.
← Все задания