Кластеризация пользователей KMeans

Senior Python Соцсети

Условие задания

**Данные:** DataFrame `user_features` с колонками: `user_id`, `sessions_per_week`, `avg_session_min`, `posts_count`, `likes_given`, `days_since_reg`.

**Задание:**
1. Нормализуйте фичи через `StandardScaler`
2. Определите оптимальное `k` методом Elbow
3. Кластеризуйте пользователей через `KMeans`
4. Опишите профили кластеров и дайте рекомендации

Пример данных

Структура для ориентира — реальные значения из эталонного решения.

user_features = pd.DataFrame({
    'user_id': range(n),
    'sessions_per_week': np.concatenate([
        np.random.normal(1, 0.5, 1000),
        np.random.normal(5, 1, 1000),
        np.random.normal(12, 2, 1000),
    ]).clip(0),
    'avg_session_min': np.concatenate([
        np.random.normal(3, 1, 1000),
        np.random.normal(15, 3, 1000),
        np.random.normal(45, 10, 1000),
    ]).clip(1),
    'posts_count': np.concatenate([
        np.random.poisson(1, 1000),
        np.random.poisson(10, 1000),
        np.random.poisson(50, 1000),
    ]),
    'likes_given': np.concatenate([
        np.random.poisson(5, 1000),
        np.random.poisson(30, 1000),
        np.random.poisson(100, 1000),
    ]),
    'days_since_reg': np.concatenate([
        np.random.uniform(0, 30, 1000),
        np.random.uniform(30, 180, 1000),
        np.random.uniform(180, 730, 1000),
    ]),
})

Темы

pandas sklearn KMeans кластеризация StandardScaler elbow method

Подсказки

Все тестовые задания →

Частые вопросы

Какой уровень знаний нужен для задачи "Кластеризация пользователей KMeans"?

Это задание для уровня Senior. Senior-уровень — глубокое понимание темы, опыт решения нестандартных задач, обсуждение trade-off на собеседовании.

На каких собеседованиях встречается такая задача?

Подобные задания в категории «Python» регулярно дают на собеседованиях аналитика данных в Яндекс, Сбер, Ozon, Авито, Тинькофф, Wildberries, T-Bank, X5, ВТБ и других крупных IT-компаниях. Тематика: pandas, sklearn, KMeans, кластеризация, StandardScaler.

Сколько времени даётся на решение?

На реальном собеседовании на подобную задачу отводится 30-60 минут с обсуждением подходов, оптимизаций и trade-off. Для тренировки рекомендуем сначала решить самостоятельно, потом сверить с эталонным решением и подсказками.

Где ещё потренироваться по теме «Python»?

На zasqlpython.ru есть 482 Python задачи с проверкой через Pyodide, конспекты Python и pandas, AI мок-собеседование с разбором ваших ответов.

← Все задания