Всего 3726 вопросов по 17 категориям. Карточки с ответами и квиз-режим.
SQL (802 вопросов)
Чем отличается INNER JOIN от LEFT JOIN и когда использовать каждый?
Как работает оператор GROUP BY и почему важно добавлять агрегаты к неагрегированным полям?
Что делает оконная функция ROW_NUMBER() и чем отличается от DENSE_RANK()?
Объясните разницу между WHERE и HAVING.
Как использовать CTE (WITH) и зачем они нужны?
...и ещё 797 вопросов
Python (548 вопросов)
Чем отличаются списки и кортежи в Python?
Как работает list comprehension и чем лучше цикла?
Что такое генератор и чем он отличается от списка?
Как работает менеджер контекста и зачем нужен?
Объясните разницу между deepcopy и copy.
...и ещё 543 вопросов
Теория вероятностей (143 вопросов)
Чем отличается дискретная случайная величина от непрерывной?
Сформулируйте закон больших чисел.
Что такое условная вероятность и как её вычислить?
Объясните формулу полной вероятности.
Что такое теорема Байеса и когда её использовать?
...и ещё 138 вопросов
Статистика (309 вопросов)
Чем отличаются выборка и генеральная совокупность?
Что такое медиана и чем она полезна?
Поясните доверительный интервал средней.
Что такое p-value и как его интерпретировать?
Разница между типами ошибок I и II рода?
...и ещё 304 вопросов
Визуализация (43 вопросов)
Как выбрать между линейным графиком и столбчатой диаграммой для отчёта?
Что такое data-ink ratio по Эдварду Тафти и как применять этот принцип к дашбордам?
Как выбрать цветовую палитру для визуализаций, доступных людям с нарушениями цветовосприятия?
Какой тип графика лучше показывает форму распределения и ключевые статистики одновременно?
Когда использовать small multiples вместо одного графика с несколькими линиями?
...и ещё 38 вопросов
ML (196 вопросов)
Как диагностировать переобучение модели и какие приёмы помогают его предотвратить?
Перечислите основные способы регуляризации и объясните, когда применять каждый.
Объясните разницу между precision и recall.
Как выбрать между ROC-AUC и PR-AUC для оценки модели классификации?
В чём принцип градиентного бустинга и почему он так популярен в продуктовой аналитике?
...и ещё 191 вопросов
Продуктовое мышление (184 вопросов)
Что такое north star metric?
Как определить основные сегменты пользователей?
Что важно учесть при постановке эксперимента на продуктовой метрике?
Как оценить влияние фичи без A/B теста?
Как выбрать метрики активации, ретенции и монетизации?
...и ещё 179 вопросов
A/B тесты (414 вопросов)
Как применить дельта-метод для метрики конверсии?
Объясните идею switchback теста с примерами.
Как проводить CUPED на практике?
Что такое switch-over bias и как его избежать?
Зачем нужна стратификация при рандомизации?
...и ещё 409 вопросов
Метрики (313 вопросов)
Что такое Activation Rate и как её рассчитать в SQL? Есть таблица events(user_id, event_name).
Опишите формулу WAU/MAU и зачем она нужна.
Как получить ARPU в разрезе тарифов? Есть таблица payments(plan, user_id, amount).
Что такое NRR и как его интерпретировать? Приведите формулу.
Как посчитать churn rate пользователей (формула и SQL)? Есть таблица customer_status(user_id, status) со статусами active_start и churned.
...и ещё 308 вопросов
Маркетинговая аналитика (34 вопросов)
Как рассчитать blended CAC и чем он отличается от channel CAC?
Что такое ROAS и как его использовать?
Опишите разницу между last-click и data-driven атрибуцией.
Как построить incremental lift тест для рекламной кампании?
Что такое MMM (Marketing Mix Modeling) и когда его использовать?
...и ещё 29 вопросов
Продуктовая аналитика (261 вопросов)
Как рассчитать конверсию по этапам продуктовой воронки в SQL?
Что такое retention curve и какие выводы по ней можно сделать?
Как измерить DAU/WAU/MAU и для чего их сравнивают?
Что такое cohort analysis и как он помогает проверить гипотезу?
Приведите пример метрики product-market fit survey.
...и ещё 256 вопросов
Продуктовые кейсы (171 вопросов)
Маркетплейс увидел падение конверсии checkout→оплата на iOS на 4 п.п. Багов в логах нет. Как структурируешь расследование?
У медиа‑сервиса просел D7 retention после отключения персонализированных пушей. Как убедиться, что причина именно в push?
Сервис доставки заметил снижение среднего чека после масштабной акции. Как показать, что кампания всё ещё выгодна?
Финтех-продукт внедрил новый KYC. Approve rate вырос, но онбординг стал занимать 10 минут. Как аргументировать, что это ок?
Команда Stories в соцсети хочет доказать, что новая лента повышает вовлечённость. Какие шаги предложишь?
...и ещё 166 вопросов
Продуктовые метрики (5 вопросов)
DAU упал на 5%. Как провести диагностику просадки?
Как определить North Star Metric для маркетплейса продажи б/у техники?
Как отличить хороший retention от плохого? Какой benchmark?
Как посчитать LTV, если у вас данные только за 3 месяца?
Retention D1, D7, D30 — что важнее и когда?
Продукт (44 вопросов)
Продакт говорит «давай просто увеличим AOV» для роста GMV. Какие подводные камни?
У тебя есть дашборд Weekly DAU. CPO спрашивает «почему на прошлой неделе был дроп?». Как ответить за 10 минут?
Как декомпозировать продуктовую метрику? На примере «retention снизился на 5%».
Что такое продуктовый эффект (product impact) и как его измерить?
Как выбрать North Star Metric (NSM) для нового продукта?
...и ещё 39 вопросов
BI (114 вопросов)
Что такое BI и чем дашборд отличается от ad-hoc SQL-запроса или ноутбука?
Star schema или snowflake schema — что выбрать для BI и почему?
В чём разница между Extract (выгрузка) и Live connection в Tableau / Power BI?
Что такое Row-Level Security (RLS) в BI и зачем она нужна?
Yandex DataLens: из чего состоит путь от данных до дашборда?
...и ещё 109 вопросов
Алгоритмы (110 вопросов)
Дан массив [5, 2, 8, 1, 9]. Нужно отсортировать без встроенного sort(). Самый простой алгоритм — bubble sort. Реализуй на Python, разбери worst/avg/best case. Где bubble sort реально применяется (хинт: Timsort использует его как fallback на коротких подмассивах)?
Тебе на собесе дают массив на ~50 элементов почти отсортированный (последние 3 элемента не на месте) и просят отсортировать максимально быстро. Какой алгоритм выберешь и почему insertion sort даст O(n) в этом случае? Реализуй и покажи где Python Timsort использует insertion как часть алгоритма.
Тебе задают вопрос: «У меня quick sort работает за O(n log n) на random data, но на отсортированном входе тормозит. Почему?» Объясни worst case O(n²) и причину. Какие 3 техники защищают (random pivot, median-of-three, introsort)? Реализуй quick sort с random pivot и обоснуй стабильность.
Дан массив на 10M элементов которые не помещаются в RAM. Тебя просят отсортировать их на диске (external sort). Какой алгоритм базовый? Реализуй classical merge sort и объясни почему он подходит для external sort (chunks + merge), стабилен, параллелизуется. Сравни с quick sort в этом сценарии.
У тебя приоритетная очередь задач (job scheduler). Тебе нужно постоянно вытаскивать самую важную и добавлять новые. Какая структура подходит за O(log n) на каждую операцию? Реализуй min-heap (приоритет = меньшее число) через heapq. Покажи top-K largest и median maintenance.
...и ещё 105 вопросов
Data Quality (35 вопросов)
Задача: настроить data validation на 1M строк ежедневно загружаемых из Kafka. Какие основные сущности Great Expectations нужно использовать (Expectation, Suite, Batch, Validation, Checkpoint)? Покажи минимальный пример pipeline.
Задача: Great Expectations поддерживает сотни expectations. Перечисли 10 наиболее часто используемых в production и объясни когда каждое применять.
Задача: GE Data Docs автоматически генерирует HTML-отчёты после каждого validation. Как настроить deploy этих доков в S3 для команды и интегрировать с Slack-нотификациями при failures?
Задача: GE Profiler анализирует существующий датасет и автоматически генерирует expectation suite. Когда это полезно vs ручное создание? Какие expectations Profiler ловит, а какие нет?
Задача: что такое Batch и Batch Request в Great Expectations? Покажи как validate один файл (single batch) vs целый partition (multi-batch) vs streaming через Kafka.