Контрастные темы запросов mobile vs desktop: TF-IDF

Middle Python Соцсети

Условие задания

**Данные:** DataFrame `search_logs` с колонками: `query`, `platform` (mobile/desktop), `timestamp`.

**Задание:**
1. Токенизируйте запросы и рассчитайте TF-IDF по каждой платформе
2. Найдите слова с наибольшей разницей TF-IDF между платформами (контрастные темы)
3. Проверьте статистическую значимость различий частот ключевых слов (chi2-тест)

Пример данных

Структура для ориентира — реальные значения из эталонного решения.

df = pd.DataFrame({
    'query': mobile_corpus + desktop_corpus,
    'platform': ['mobile'] * len(mobile_corpus) + ['desktop'] * len(desktop_corpus),
})

Темы

pandas TF-IDF sklearn NLP статистика chi2

Подсказки

Все тестовые задания →

Частые вопросы

Какой уровень знаний нужен для задачи "Контрастные темы запросов mobile vs desktop: TF-IDF"?

Это задание для уровня Middle. Для middle-аналитиков с опытом 1-3 года, требует уверенного владения темой и понимания edge cases.

На каких собеседованиях встречается такая задача?

Подобные задания в категории «Python» регулярно дают на собеседованиях аналитика данных в Яндекс, Сбер, Ozon, Авито, Тинькофф, Wildberries, T-Bank, X5, ВТБ и других крупных IT-компаниях. Тематика: pandas, TF-IDF, sklearn, NLP, статистика.

Сколько времени даётся на решение?

На реальном собеседовании на подобную задачу отводится 15-30 минут — оцениваются подход, корректность, обработка edge cases. Для тренировки рекомендуем сначала решить самостоятельно, потом сверить с эталонным решением и подсказками.

Где ещё потренироваться по теме «Python»?

На zasqlpython.ru есть 482 Python задачи с проверкой через Pyodide, конспекты Python и pandas, AI мок-собеседование с разбором ваших ответов.

← Все задания