sklearn для аналитика: ML без боли (вводный гайд)

40 задач Pyodide в браузере С эталонными решениями 2026 — с реальных собесов
sklearn — стандартная ML-библиотека Python. На senior-аналитика и Data Scientist спрашивают: «обучи модель оттока», «оцени важность фичей», «когда использовать Random Forest vs Logistic Regression». Здесь введение в sklearn для аналитика — от базовых fit/predict до cross-validation и feature_importances_. Все задачи решаются в браузере через Pyodide — sklearn полностью работает.
Начать решать задачи →

Все задачи на «sklearn для аналитика» (40)

FAQ: частые вопросы про sklearn для аналитика

sklearn — это для ML-инженеров, а не для аналитиков?

Раньше — да, сейчас — нет. На любом мid+ собесе аналитика ждут что ты можешь обучить модель churn-prediction или сделать сегментацию через KMeans. ML стал частью базовой аналитики, как SQL.

fit / predict / fit_predict — в чём разница?

.fit(X, y) — обучает модель на данных. .predict(X_new) — предсказывает на новых данных. .fit_predict(X) — обучает И сразу предсказывает (используется в кластеризации, где «обучения» в традиционном смысле нет).

Random Forest или Logistic Regression на собесе?

Зависит от задачи: если нужна интерпретируемость и линейные зависимости — LogReg. Если нелинейные паттерны и не критична интерпретируемость — Random Forest или Gradient Boosting (XGBoost/LightGBM).

Что такое cross-validation?

Деление данных на K частей, обучение на K-1, валидация на 1, повтор K раз, усреднение метрик. Даёт более стабильную оценку качества модели чем одна train/test-разбивка. В sklearn: cross_val_score, KFold, StratifiedKFold.

feature_importance — как использовать?

После .fit() у tree-based моделей есть .feature_importances_ (Random Forest, GBT). Для линейных — .coef_ (но нужна стандартизация фичей). На собесе спросят «как объяснить бизнесу что повлияло на отток» — это именно feature importance.

Связанные темы Python

Pandas: основы · Pandas groupby · Pandas merge / join · Pandas time series · NumPy векторизация · scipy: A/B-тесты · Графики: matplotlib / seaborn

Связанные темы SQL

Retention-анализ · RFM-анализ

Открыть весь Python-тренажёр (532 задач) →