Pandas groupby: задачи на агрегации с собеседований

68 задач Pyodide в браузере С эталонными решениями 2026 — с реальных собесов

groupby в pandas — аналог GROUP BY в SQL, но в десять раз мощнее: можно агрегировать несколько колонок разными функциями (.agg({"sum","mean"})), применять трансформации без свёртки (.transform), писать произвольную логику через .apply. На собесе спрашивают: «посчитай выручку по категориям», «найди топ-N клиентов в каждом сегменте», «посчитай долю каждого товара в категории». Здесь — реальные groupby-задачи с собеседований 2026 года.

Начать решать задачи →

Все задачи на «Pandas groupby» (68)

Топ-5 товаров по выручке Лёгкая Ozon groupby assign nlargest
Средний чек по городам Лёгкая Wildberries groupby mean round sort_values
Количество проданных товаров по категориям Лёгкая Яндекс Маркет groupby size filter
Агрегация с несколькими функциями Средняя Сбер groupby agg named_aggregation
Доля каждого товара в выручке категории Средняя Ozon groupby transform share
Фильтрация групп по условию Средняя VK groupby filter
Порядковый номер заказа клиента Средняя Тинькофф groupby cumcount sort_values
Первая покупка каждого клиента Лёгкая Avito groupby first sort_values
Второй по величине заказ в каждом городе Сложная Яндекс Еда groupby nth sort_values
Кумулятивная сумма продаж по менеджерам Средняя Сбер groupby cumsum sort_values
Процент от максимума в группе Средняя Тинькофф groupby transform max
Количество уникальных клиентов по каналам Лёгкая VK groupby nunique
Ранжирование внутри групп Сложная Яндекс groupby rank
Множественная агрегация с переименованием Сложная Wildberries groupby agg multi_key
Последняя запись в каждой группе Лёгкая Avito groupby last sort_values
Сводная таблица продаж по регионам и категориям Лёгкая Wildberries pivot_table aggfunc
Сводная таблица с итогами (margins) Средняя Ozon pivot_table margins
Stack и unstack мульти-индекса Сложная Сбер pivot_table unstack multi_index
Сводная таблица с несколькими aggfunc Сложная Ozon pivot_table multi_aggfunc
Сводная таблица с fill_value Лёгкая Яндекс Маркет pivot_table fill_value
Признаки для предсказания оттока Сложная Тинькофф churn feature_engineering agg
Pivot table: средняя выручка по городу и категории Лёгкая Ozon pivot_table fillna round
Оконная функция: ранг внутри группы Средняя Тинькофф rank groupby window_function
MultiIndex: агрегация по двум уровням Сложная Ozon groupby multiindex agg named_tuples
Когортный анализ: retention по месяцам Сложная VK cohort retention pivot_table period
Оконная функция: доля от группы Сложная Сбер transform window_function pct_of_total
PCA: снижение размерности Сложная Тинькофф PCA dimensionality_reduction StandardScaler
Multi-index groupby: выручка по городу и категории Средняя Мегафон groupby agg multi_index
Explode: разворот списков в строки Лёгкая Wildberries explode groupby size
Условное обновление через np.select Лёгкая Мегафон np_select categorization groupby
Window function: разница с предыдущей строкой в группе Средняя Wildberries shift lag groupby growth
GroupBy + transform: % вклад каждой строки в общий по группе Средняя Авито groupby transform window_function
Melt + pivot: преобразование данных опроса в long → wide → average Сложная VK melt reshape groupby
Missing data: смарт-заполнение пропусков медианой по группе Средняя Тинькофф fillna missing_data groupby transform
RFM-сегментация: разделить юзеров на сегменты по recency и monetary Сложная Wildberries rfm groupby np.select segmentation
Группировка по дню недели Средняя Самокат dt dayofweek groupby
Discretize timestamps в часовые корзины Средняя Я.Драйв dt groupby hour-buckets
Кумулятивная доля заказа в категории Сложная Ozon groupby transform cumsum window
Lag предыдущей покупки юзера Средняя Tinkoff shift groupby lag time-since
Top-2 клиента в каждом регионе Сложная Сбер groupby head top-n window
Доля от категории через transform Средняя M.Видео transform groupby share
Cumcount внутри сессии Средняя Aviasales cumcount groupby session funnel
Топ-3 продукта по выручке в каждой категории Средняя Ozon / WB pandas groupby top-n
Merge с suffixes и обработка дубликатов Средняя Yandex pandas merge groupby
Pivot table: продажи по месяцам и категориям Средняя X5 Retail Group pandas pivot_table date
Transform для нормализации внутри группы Средняя Avito pandas groupby transform normalize
Filter групп по условию Средняя Sber pandas groupby filter
Multi-index aggregation Средняя Lamoda pandas groupby agg named aggregation
CR в группах: ручной расчёт Лёгкая T-Bank pandas groupby A/B
GroupBy с NaN-ключами Лёгкая Avito pandas groupby nan
GroupBy.transform vs apply: средний возраст в группе Средняя VK pandas groupby transform
Group by month + cumulative sum Средняя Сбер pandas cumsum groupby period
Pivot: продажи по дням и категориям Средняя Ozon pandas pivot_table
Pivot с multi-index: продажи по [date, category] × store Сложная X5 pandas pivot_table multi-index
GroupBy + named aggregation: сводка по менеджерам Средняя Ozon pandas groupby agg named-aggregation
Pivot с итогами: выручка регион × квартал + Total Средняя X5 pandas pivot_table margins reshape
Нарастающий итог выручки внутри клиента Средняя Wildberries pandas groupby cumsum running-total
Ранг заказов внутри клиента по сумме Средняя T-Bank pandas groupby rank dense-rank
Сводка продаж по регионам (named aggregation) Лёгкая Ozon pandas groupby named-aggregation agg
Доля товара внутри категории (transform) Средняя Wildberries pandas transform groupby share-in-group
Сводная выручка регион × квартал с итогами (pivot_table margins) Средняя X5 Group pandas pivot_table margins pivot
Плотный ранг зарплаты внутри отдела (rank dense) Сложная Yandex pandas rank groupby dense-rank
Помесячная выручка и рост MoM Средняя Ozon pandas timeseries resample pct_change
Статистика заказов по категориям через named aggregation Лёгкая Ozon pandas groupby named-aggregation agg
Доля менеджера в выручке своего региона Средняя Wildberries pandas groupby transform share
Топ-2 сотрудника по зарплате в каждом отделе Средняя Яндекс pandas groupby top-n head
Последний заказ каждого клиента Средняя Ozon pandas groupby idxmax дедупликация
Пользователи по доменам email Средняя Wildberries pandas fillna строки email

FAQ: частые вопросы про pandas groupby

agg vs transform vs apply — в чём разница?

.agg() — свёртка группы в одно значение (sum, mean). .transform() — возвращает значение для каждой строки группы (полезно для добавления колонки «среднее по группе»). .apply() — произвольная функция, может вернуть и скаляр, и DataFrame.

Как сгруппировать по нескольким колонкам?

df.groupby(["category", "region"]).agg({"revenue": "sum"}) — multi-key groupby. Результат — DataFrame с MultiIndex; .reset_index() уплощает обратно в плоскую таблицу.

Как посчитать долю строки в группе?

df["share"] = df["value"] / df.groupby("group")["value"].transform("sum") — transform сохраняет размер DataFrame, поэтому деление работает поэлементно.

Как сделать pivot из groupby?

pd.pivot_table(df, index="category", columns="month", values="revenue", aggfunc="sum") — эквивалент groupby + unstack. На собесе ждут что ты знаешь оба способа.

Pandas groupby или SQL GROUP BY — что быстрее?

На датасете до 1М строк — pandas быстрее (всё в памяти). От 10М строк и выше — SQL (нормальная БД с индексами обгонит). На собесе важно показать что ты знаешь оба инструмента.

Связанные темы Python

Pandas: основы · Pandas merge / join · Pandas: временные ряды · NumPy векторизация · scipy: A/B-тесты · sklearn для аналитика · Графики: matplotlib / seaborn

Связанные темы SQL

Агрегации · Оконные функции

Открыть весь Python-тренажёр (561 задач) →