Как читать данные в pandas из CSV, Excel, JSON и базы: read_csv с параметрами, read_sql_query, SQLAlchemy engine, chunksize и to_sql. С примерами для аналитика.
Это часть 2 из 10 курса «Pandas с нуля для аналитика».
В первой части ты собирал DataFrame руками — из словаря. Но в реальной работе ты так почти не делаешь: данные приходят файлами или, чаще, прямо из базы. Эта часть — про то, как затащить данные в pandas откуда угодно (CSV, Excel, JSON, SQL) и как выгрузить их обратно. Освоишь это — и считай, что половина рутины аналитика у тебя в кармане.
Используйте pd.read_csv('file.csv'). Часто нужны параметры sep для разделителя (sep=';' для русских Excel-выгрузок), encoding='utf-8' или 'cp1251' для кодировки и parse_dates=['date'] для дат.
В read_csv engine ('c' или 'python') выбирает парсер: 'c' быстрее, 'python' гибче по разделителям и regex. В read_excel engine задаёт библиотеку: 'openpyxl' для .xlsx, 'xlrd' для старых .xls.
Используйте pd.read_sql('SELECT * FROM table', con), где con — это подключение через SQLAlchemy engine (create_engine) или DBAPI-коннект. Для записи обратно — df.to_sql('table', con, if_exists='append').