RFM + K-Means сегментация

Middle Python Marketplace

Условие задания

**Контекст:** Маркетплейс хочет сегментировать клиентов для персонализации маркетинга с помощью RFM + K-Means.

**Данные:** DataFrame `orders` — колонки: `order_id`, `customer_id`, `order_date`, `total_amount`, `item_count`.

**Задание:**
1. Рассчитайте RFM-метрики (Recency, Frequency, Monetary)
2. Примените K-Means кластеризацию на нормализованных RFM-значениях (StandardScaler)
3. Определите оптимальное k через silhouette score
4. Опишите сегменты и дайте рекомендации по каждому

Пример данных

Структура для ориентира — реальные значения из эталонного решения.

orders = pd.DataFrame({
    'order_id': range(n),
    'customer_id': np.random.randint(1, 2000, n),
    'order_date': pd.date_range('2023-01-01', '2024-06-30', periods=n),
    'total_amount': np.random.lognormal(6.5, 1.2, n).round(2),
    'item_count': np.random.poisson(3, n) + 1,
})

Темы

pandas sklearn RFM KMeans сегментация StandardScaler

Подсказки

Все тестовые задания →

Частые вопросы

Какой уровень знаний нужен для задачи "RFM + K-Means сегментация"?

Это задание для уровня Middle. Для middle-аналитиков с опытом 1-3 года, требует уверенного владения темой и понимания edge cases.

На каких собеседованиях встречается такая задача?

Подобные задания в категории «Python» регулярно дают на собеседованиях аналитика данных в Яндекс, Сбер, Ozon, Авито, Тинькофф, Wildberries, T-Bank, X5, ВТБ и других крупных IT-компаниях. Тематика: pandas, sklearn, RFM, KMeans, сегментация.

Сколько времени даётся на решение?

На реальном собеседовании на подобную задачу отводится 15-30 минут — оцениваются подход, корректность, обработка edge cases. Для тренировки рекомендуем сначала решить самостоятельно, потом сверить с эталонным решением и подсказками.

Где ещё потренироваться по теме «Python»?

На zasqlpython.ru есть 482 Python задачи с проверкой через Pyodide, конспекты Python и pandas, AI мок-собеседование с разбором ваших ответов.

← Все задания