**Контекст:** Телеком-оператор строит модель прогноза оттока абонентов. Для этого из сырых CDR (Call Detail Records) нужно извлечь фичи: паттерны звонков, тренд активности, социальный граф, ночная активность и т.д. Данные готовятся в SQL для последующей загрузки в ML-модель.
**Данные:**
[см. код в задании]
**Задание:**
1. Для каждого активного абонента рассчитайте фичи за последние 90 дней:
- Количество исходящих звонков, среднюю длительность, общий трафик данных
- Количество уникальных контактов (social graph size)
- Долю ночных звонков (22:00–06:00)
- Количество жалоб и среднее время решения жалобы
2. Рассчитайте тренд активности: сравнение количества звонков за последние 30 дней vs предыдущие 30 дней (month-over-month change)
3. Добавьте tenure (срок жизни абонента в месяцах)
4. Пометьте абонентов с признаками оттока: тренд < -30% И (жалобы > 0 ИЛИ ночная доля > 40%)
Структура для ориентира — реальные значения из эталонного решения.
CREATE TABLE subscribers (
id SERIAL PRIMARY KEY,
phone_number VARCHAR(20) NOT NULL,
plan_name VARCHAR(100) NOT NULL,
activated_at DATE NOT NULL,
is_active BOOLEAN DEFAULT TRUE,
churned_at DATE -- NULL если активен
);
CREATE TABLE cdr (
id BIGSERIAL PRIMARY KEY,
subscriber_id INT REFERENCES subscribers(id),
call_type VARCHAR(10) NOT NULL, -- 'voice_out', 'voice_in', 'sms_out', 'sms_in', 'data'
destination VARCHAR(20), -- номер назначения (NULL для data)
started_at TIMESTAMP NOT NULL,
duration_sec INT, -- длительность (NULL для sms)
data_mb NUMERIC(10,2), -- трафик данных (NULL для voice/sms)
cell_tower_id INT -- вышка
);
CREATE TABLE complaints (
id SERIAL PRIMARY KEY,
subscriber_id INT REFERENCES subscribers(id),
complaint_type VARCHAR(100) NOT NULL, -- 'billing', 'coverage', 'speed', 'service'
created_at TIMESTAMP NOT NULL,
resolved_at TIMESTAMP
);
CDR feature engineering churn агрегация тренд
Это задание для уровня Senior. Senior-уровень — глубокое понимание темы, опыт решения нестандартных задач, обсуждение trade-off на собеседовании.
Подобные задания в категории «SQL» регулярно дают на собеседованиях аналитика данных в Яндекс, Сбер, Ozon, Авито, Тинькофф, Wildberries, T-Bank, X5, ВТБ и других крупных IT-компаниях. Тематика: CDR, feature engineering, churn, агрегация, тренд.
На реальном собеседовании на подобную задачу отводится 30-60 минут с обсуждением подходов, оптимизаций и trade-off. Для тренировки рекомендуем сначала решить самостоятельно, потом сверить с эталонным решением и подсказками.
На zasqlpython.ru есть 425 SQL задач в песочнице с автопроверкой кода, конспекты SQL для аналитика, AI мок-собеседование с разбором ваших ответов.
← Все задания