ETL пайплайн: CSV — очистка — загрузка

easy data_engineering Общие

Условие задания

**Компания:** Авито

**Контекст:** Маркетинг присылает CSV-файл с данными рекламных кампаний. Файл содержит ошибки: пропущенные значения, дубли строк, некорректные типы данных. Нужно написать ETL-скрипт.

**Формат CSV:**
[см. код в задании]

**Задание:**
1. Напишите Python-скрипт, который:
- Читает CSV
- Удаляет полные дубликаты
- Заполняет пропуски в spend нулём
- Удаляет строки с отрицательным spend
- Приводит date к единому формату (YYYY-MM-DD)
2. Сохраните очищенные данные в новый CSV

Темы

ETL pandas CSV очистка загрузка

Подсказки

Все тестовые задания →

Частые вопросы

Какой уровень знаний нужен для задачи "ETL пайплайн: CSV — очистка — загрузка"?

Это задание для уровня easy. Senior-уровень — глубокое понимание темы, опыт решения нестандартных задач, обсуждение trade-off на собеседовании.

На каких собеседованиях встречается такая задача?

Подобные задания в категории «data_engineering» регулярно дают на собеседованиях аналитика данных в Яндекс, Сбер, Ozon, Авито, Тинькофф, Wildberries, T-Bank, X5, ВТБ и других крупных IT-компаниях. Тематика: ETL, pandas, CSV, очистка, загрузка.

Сколько времени даётся на решение?

На реальном собеседовании на подобную задачу отводится 30-60 минут с обсуждением подходов, оптимизаций и trade-off. Для тренировки рекомендуем сначала решить самостоятельно, потом сверить с эталонным решением и подсказками.

Где ещё потренироваться по теме «data_engineering»?

На zasqlpython.ru есть другие задания в категории «data_engineering», продуктовые кейсы, справочник метрик, AI мок-собеседование с разбором ваших ответов.

← Все задания