Pandas с нуля. Часть 7: пропуски и дубликаты — fillna, dropna

Учимся работать с пропусками в pandas: NaN, None, NaT, isna, fillna и ffill, dropna с thresh и subset, interpolate, плюс дубликаты через duplicated и drop_dupli

Урок курса «Pandas с нуля» — открой бесплатной регистрацией

Ниже — план урока. Зарегистрируйся за 30 секунд, чтобы открыть полную теорию и 5 задач с автопроверкой прямо в браузере (Python и pandas прямо в браузере), сохранять прогресс и пройти все 10 частей бесплатно.

Зарегистрироваться бесплатно Войти

Это часть 7 из 10 курса «Pandas с нуля для аналитика».

Реальные данные грязные. Всегда. Ты выгружаешь таблицу заказов, а там — пустые даты доставки, пропавшие промокоды, один и тот же пользователь, задвоенный из-за бага в трекинге. Если ты посчитаешь среднее или соберёшь воронку прямо по такому, цифры будут врать — а ты этого даже не заметишь. Поэтому до любого анализа идёт скучный, но решающий этап: разобраться с пропусками и дубликатами. Эта часть как раз про него.

Что разберёшь в этом уроке

NaN, None, NaT — три лица пропуска
fillna: заполнить пропуск чем-то осмысленным
interpolate: умное заполнение по тренду
dropna: когда пропуск проще выкинуть
replace: пропуски, которые маскируются под значения
duplicated и drop_duplicates: ловим задвоения
Чек-лист: что делать с грязной выгрузкой

Частые вопросы

Чем отличается dropna от fillna?

dropna удаляет строки или колонки с пропусками (NaN), а fillna заполняет их значением — нулём, средним, медианой или соседним через method='ffill'/'bfill'. Выбор зависит от того, можно ли терять строки и допустимо ли подставлять значение.

Как найти и посчитать пропуски в DataFrame?

df.isna().sum() даёт число NaN по каждой колонке, df.isna().sum().sum() — всего по таблице, а df.isna().mean() — долю пропусков. Строки с пропусками выбираются через df[df['col'].isna()].

Как удалить дубликаты строк в pandas?

df.drop_duplicates() убирает полностью совпадающие строки, а subset задаёт колонки для сравнения: df.drop_duplicates(subset=['user_id'], keep='last'). Параметр keep ('first', 'last', False) определяет, какой из дублей оставить.

Free — после регистрации

0 ₽

Все 10 уроков курса + 36 интерактивных задач
5 SQL и 5 Python-задач в тренажёре
5 кейсов · 10 метрик · 1 AI-собеседование

Начать бесплатно →

Pro

1 999 ₽/мес

Все 545 SQL + 538 Python-задач
610 кейсов · 394 метрик · 664 заданий
Безлимит AI-собеседований с разбором

Оформить Pro →