**Данные:** DataFrame `search_logs` с колонками: `query`, `platform` (mobile/desktop), `timestamp`.
**Задание:**
1. Токенизируйте запросы и рассчитайте TF-IDF по каждой платформе
2. Найдите слова с наибольшей разницей TF-IDF между платформами (контрастные темы)
3. Проверьте статистическую значимость различий частот ключевых слов (chi2-тест)
Структура для ориентира — реальные значения из эталонного решения.
df = pd.DataFrame({
'query': mobile_corpus + desktop_corpus,
'platform': ['mobile'] * len(mobile_corpus) + ['desktop'] * len(desktop_corpus),
})
pandas TF-IDF sklearn NLP статистика chi2
Это задание для уровня Middle. Для middle-аналитиков с опытом 1-3 года, требует уверенного владения темой и понимания edge cases.
Подобные задания в категории «Python» регулярно дают на собеседованиях аналитика данных в Яндекс, Сбер, Ozon, Авито, Тинькофф, Wildberries, T-Bank, X5, ВТБ и других крупных IT-компаниях. Тематика: pandas, TF-IDF, sklearn, NLP, статистика.
На реальном собеседовании на подобную задачу отводится 15-30 минут — оцениваются подход, корректность, обработка edge cases. Для тренировки рекомендуем сначала решить самостоятельно, потом сверить с эталонным решением и подсказками.
На zasqlpython.ru есть 482 Python задачи с проверкой через Pyodide, конспекты Python и pandas, AI мок-собеседование с разбором ваших ответов.
← Все задания