Урок про head/tail/sample, shape, columns, dtypes, info(), describe(include='all'), value_counts, nunique, memory_usage и индекс (set_index/reset_index). Полное
Это часть 3 из 10 курса «Pandas с нуля для аналитика».
Тебе скинули файл с данными. Первое, что делает любой нормальный аналитик, — не пишет умные формулы, а тратит пять минут на то, чтобы понять, что вообще внутри. Сколько строк? Какие колонки? Где пропуски? Что за типы данных? Этот этап называется «разведка» (exploratory look), и сегодня ты освоишь весь джентльменский набор инструментов, которым его делают. Пропустишь его — и через час будешь считать средний чек по колонке, где половина значений лежит текстом, а не числом.
df.info() показывает структуру: число строк, типы колонок, количество непустых значений и расход памяти. df.describe() считает статистику (count, mean, std, min, квартили, max) только по числовым колонкам по умолчанию.
Вызовите df.describe(include='object') или include='all' для всех типов. Для текстовых колонок выводятся count, unique (число уникальных), top (самое частое) и freq (его частота).
Индекс — это метки строк, по которым идёт выравнивание данных и быстрый доступ через .loc. По умолчанию это RangeIndex 0..N-1, но индексом можно сделать дату или ключ через set_index, что ускоряет джойны и срезы.