Pandas DataFrame на 50М строк падает с MemoryError на машине 16GB RAM. Какое первое действие даст максимальный выигрыш памяти?

Python medium middle

Варианты ответа

Привести object-колонки с малой кардинальностью (страны, девайсы, статусы) к dtype category — экономит 50-80% памяти на этих колонках без изменения логики
Переписать весь pipeline на Spark — это единственный способ работать с большими данными, pandas не подходит для production-нагрузок свыше 10М строк
Использовать df.copy(deep=True) перед любой трансформацией — гарантирует что pandas не держит лишние ссылки в памяти и освобождает её сразу
Включить multiprocessing через df.parallelize() — распараллелит загрузку и обработку на все CPU ядра, RAM-нагрузка распределится автоматически

Подробный разбор с объяснением «почему правильный ответ верный» и почему остальные неверны — после регистрации.

2475 вопросов с разбором, quiz-режим с проверкой, AI-собес и подготовка к интервью аналитика.