Обнаружение аномальных транзакций — Isolation Forest

Middle Python Fintech

Условие задания

**Контекст:** Платёжная система внедряет автоматическое обнаружение подозрительных транзакций для команды антифрода.

**Данные:** DataFrame `transactions` — колонки: `tx_id`, `user_id`, `amount`, `merchant_category` (grocery, restaurant, online, travel, atm), `tx_time`, `is_international` (0/1), `device_id`, `tx_count_24h` (число транзакций юзера за 24ч).

**Задание:**
1. Подготовьте фичи: amount, hour, is_international, tx_count_24h, amount_zscore_per_user
2. Обучите Isolation Forest для обнаружения аномалий
3. Визуализируйте аномалии на scatter plot (amount vs tx_count_24h)
4. Проанализируйте характеристики обнаруженных аномалий

Пример данных

Структура для ориентира — реальные значения из эталонного решения.

transactions = pd.DataFrame({
    'tx_id': range(n),
    'user_id': np.random.randint(1, 2001, n),
    'amount': np.concatenate([
        np.random.lognormal(5, 1, n - 400),    # нормальные
        np.random.lognormal(8, 0.5, 200),       # аномально высокие
        np.random.uniform(0.01, 1, 200),        # аномально низкие (тестовые)
    ]),
    'merchant_category': np.random.choice(
        ['grocery', 'restaurant', 'online', 'travel', 'atm'], n
    ),
    'tx_time': pd.date_range('2024-03-01', periods=n, freq='2min'),
    'is_international': np.random.binomial(1, 0.05, n),
    'tx_count_24h': np.concatenate([
        np.random.poisson(3, n - 300),
        np.random.poisson(20, 300),  # подозрительно много
    ]),
})

Темы

pandas sklearn IsolationForest аномалии визуализация fraud

Подсказки

Все тестовые задания →

Частые вопросы

Какой уровень знаний нужен для задачи "Обнаружение аномальных транзакций — Isolation Forest"?

Это задание для уровня Middle. Для middle-аналитиков с опытом 1-3 года, требует уверенного владения темой и понимания edge cases.

На каких собеседованиях встречается такая задача?

Подобные задания в категории «Python» регулярно дают на собеседованиях аналитика данных в Яндекс, Сбер, Ozon, Авито, Тинькофф, Wildberries, T-Bank, X5, ВТБ и других крупных IT-компаниях. Тематика: pandas, sklearn, IsolationForest, аномалии, визуализация.

Сколько времени даётся на решение?

На реальном собеседовании на подобную задачу отводится 15-30 минут — оцениваются подход, корректность, обработка edge cases. Для тренировки рекомендуем сначала решить самостоятельно, потом сверить с эталонным решением и подсказками.

Где ещё потренироваться по теме «Python»?

На zasqlpython.ru есть 482 Python задачи с проверкой через Pyodide, конспекты Python и pandas, AI мок-собеседование с разбором ваших ответов.

← Все задания