**Компания:** Авито
**Контекст:** Маркетинг присылает CSV-файл с данными рекламных кампаний. Файл содержит ошибки: пропущенные значения, дубли строк, некорректные типы данных. Нужно написать ETL-скрипт.
**Формат CSV:**
[см. код в задании]
**Задание:**
1. Напишите Python-скрипт, который:
- Читает CSV
- Удаляет полные дубликаты
- Заполняет пропуски в spend нулём
- Удаляет строки с отрицательным spend
- Приводит date к единому формату (YYYY-MM-DD)
2. Сохраните очищенные данные в новый CSV
ETL pandas CSV очистка загрузка
Это задание для уровня easy. Senior-уровень — глубокое понимание темы, опыт решения нестандартных задач, обсуждение trade-off на собеседовании.
Подобные задания в категории «data_engineering» регулярно дают на собеседованиях аналитика данных в Яндекс, Сбер, Ozon, Авито, Тинькофф, Wildberries, T-Bank, X5, ВТБ и других крупных IT-компаниях. Тематика: ETL, pandas, CSV, очистка, загрузка.
На реальном собеседовании на подобную задачу отводится 30-60 минут с обсуждением подходов, оптимизаций и trade-off. Для тренировки рекомендуем сначала решить самостоятельно, потом сверить с эталонным решением и подсказками.
На zasqlpython.ru есть другие задания в категории «data_engineering», продуктовые кейсы, справочник метрик, AI мок-собеседование с разбором ваших ответов.
← Все задания