Cross-source analysis: S3 (Parquet) + MySQL (catalog) + Kafka (events)

Senior SQL data_engineering

Условие задания

**Контекст:** комплексный аналитический запрос объединяет 3 source:

1. **Kafka topic `events.live`** (catalog `kafka`) — события реал-тайм:
[см. код в задании]

2. **MySQL `products`** (catalog `mysql_shop`) — каталог товаров:
[см. код в задании]

3. **S3 Parquet** (catalog `hive`) — исторические orders:
[см. код в задании]

**Задание:**

Построить **real-time customer 360 view** одним запросом:

Для каждого active user (event за последний час из Kafka):
- Информация о юзере + текущие активные events
- Их история orders за 2025 (из S3)
- Top-3 категории товаров, которые они покупали (по выручке)
- Total revenue 2025
- Affinity score: revenue 2025 / number of orders

**Это типичная задача:** real-time enrichment текущей активности историческими данными.

Темы

Trino federated S3 MySQL Kafka cross-source

Подсказки

Все тестовые задания →

Частые вопросы

Какой уровень знаний нужен для задачи "Cross-source analysis: S3 (Parquet) + MySQL (catalog) + Kafka (events)"?

Это задание для уровня Senior. Senior-уровень — глубокое понимание темы, опыт решения нестандартных задач, обсуждение trade-off на собеседовании.

На каких собеседованиях встречается такая задача?

Подобные задания в категории «SQL» регулярно дают на собеседованиях аналитика данных в Яндекс, Сбер, Ozon, Авито, Тинькофф, Wildberries, T-Bank, X5, ВТБ и других крупных IT-компаниях. Тематика: Trino, federated, S3, MySQL, Kafka.

Сколько времени даётся на решение?

На реальном собеседовании на подобную задачу отводится 30-60 минут с обсуждением подходов, оптимизаций и trade-off. Для тренировки рекомендуем сначала решить самостоятельно, потом сверить с эталонным решением и подсказками.

Где ещё потренироваться по теме «SQL»?

На zasqlpython.ru есть 520+ SQL задач в песочнице с автопроверкой кода, конспекты SQL для аналитика, AI мок-собеседование с разбором ваших ответов.

← Все задания