Pandas с нуля. Часть 3: первый взгляд на данные — info…

Урок про head/tail/sample, shape, columns, dtypes, info(), describe(include='all'), value_counts, nunique, memory_usage и индекс (set_index/reset_index). Полное

Урок курса «Pandas с нуля» — открой бесплатной регистрацией

Ниже — план урока. Зарегистрируйся за 30 секунд, чтобы открыть полную теорию и 4 задачи с автопроверкой прямо в браузере (Python и pandas прямо в браузере), сохранять прогресс и пройти все 10 частей бесплатно.

Зарегистрироваться бесплатно Войти

Это часть 3 из 10 курса «Pandas с нуля для аналитика».

Тебе скинули файл с данными. Первое, что делает любой нормальный аналитик, — не пишет умные формулы, а тратит пять минут на то, чтобы понять, что вообще внутри. Сколько строк? Какие колонки? Где пропуски? Что за типы данных? Этот этап называется «разведка» (exploratory look), и сегодня ты освоишь весь джентльменский набор инструментов, которым его делают. Пропустишь его — и через час будешь считать средний чек по колонке, где половина значений лежит текстом, а не числом.

Что разберёшь в этом уроке

Зачем вообще «смотреть» на данные
head, tail, sample — глянуть кусочек
shape, columns, dtypes — каркас таблицы
info() — паспорт таблицы одной командой
describe() — статистика в один присест
value_counts и nunique — что внутри категорий
memory_usage — сколько весит таблица
Индекс: скрытая колонка, которую все игнорируют
Практика

Частые вопросы

Чем отличается df.info() от df.describe()?

df.info() показывает структуру: число строк, типы колонок, количество непустых значений и расход памяти. df.describe() считает статистику (count, mean, std, min, квартили, max) только по числовым колонкам по умолчанию.

Как посмотреть статистику по строковым колонкам?

Вызовите df.describe(include='object') или include='all' для всех типов. Для текстовых колонок выводятся count, unique (число уникальных), top (самое частое) и freq (его частота).

Что такое индекс в DataFrame и зачем он нужен?

Индекс — это метки строк, по которым идёт выравнивание данных и быстрый доступ через .loc. По умолчанию это RangeIndex 0..N-1, но индексом можно сделать дату или ключ через set_index, что ускоряет джойны и срезы.

Free — после регистрации

0 ₽

Все 10 уроков курса + 36 интерактивных задач
5 SQL и 5 Python-задач в тренажёре
5 кейсов · 10 метрик · 1 AI-собеседование

Начать бесплатно →

Pro

1 999 ₽/мес

Все 545 SQL + 538 Python-задач
610 кейсов · 394 метрик · 664 заданий
Безлимит AI-собеседований с разбором

Оформить Pro →