Чем отличается INNER JOIN от LEFT JOIN и когда использовать каждый?

Разбор ответа после регистрации в каталоге вопросов.

Как работает оператор GROUP BY и почему важно добавлять агрегаты к неагрегированным полям?

Разбор ответа после регистрации в каталоге вопросов.

Что делает оконная функция ROW_NUMBER() и чем отличается от DENSE_RANK()?

Разбор ответа после регистрации в каталоге вопросов.

Объясните разницу между WHERE и HAVING.

Разбор ответа после регистрации в каталоге вопросов.

Как использовать CTE (WITH) и зачем они нужны?

Разбор ответа после регистрации в каталоге вопросов.

Что такое window frame и почему RANGE BETWEEN отличается от ROWS BETWEEN?

Разбор ответа после регистрации в каталоге вопросов.

Как бы вы вычислили 7-дневный скользящий средний для метрики посещений?

Разбор ответа после регистрации в каталоге вопросов.

Для чего нужен COALESCE и чем он лучше NVL/IFNULL?

Разбор ответа после регистрации в каталоге вопросов.

Как посчитать конверсию по воронке с помощью оконных функций?

Разбор ответа после регистрации в каталоге вопросов.

Когда стоит использовать DISTINCT, а когда GROUP BY?

Разбор ответа после регистрации в каталоге вопросов.

Опишите стратегию оптимизации запроса с несколькими JOIN и фильтрами.

Разбор ответа после регистрации в каталоге вопросов.

Что делает оператор LATERAL и когда полезен?

Разбор ответа после регистрации в каталоге вопросов.

Какие типы индексов бывают и как выбрать подходящий?

Разбор ответа после регистрации в каталоге вопросов.

Как проверить качество данных на предмет дубликатов и пропусков?

Разбор ответа после регистрации в каталоге вопросов.

Объясните MERGE и приведите пример его использования.

Разбор ответа после регистрации в каталоге вопросов.

Как писать запросы, устойчивые к изменению часовых поясов?

Разбор ответа после регистрации в каталоге вопросов.

Когда стоит секционировать таблицу и как выбрать ключ секционирования?

Разбор ответа после регистрации в каталоге вопросов.

Как организовать инкрементальное обновление материализованного представления?

Разбор ответа после регистрации в каталоге вопросов.

Как реализовать data contract между источником и аналитической витриной?

Разбор ответа после регистрации в каталоге вопросов.

Какой оператор вернёт только уникальные значения столбца city?

Разбор ответа после регистрации в каталоге вопросов.

Чем отличаются списки и кортежи в Python?

Разбор ответа после регистрации в каталоге вопросов.

Как работает list comprehension и чем лучше цикла?

Разбор ответа после регистрации в каталоге вопросов.

Что такое генератор и чем он отличается от списка?

Разбор ответа после регистрации в каталоге вопросов.

Как работает менеджер контекста и зачем нужен?

Разбор ответа после регистрации в каталоге вопросов.

Объясните разницу между deepcopy и copy.

Разбор ответа после регистрации в каталоге вопросов.

Как устроен GIL и почему он не даёт линейного ускорения в многопоточности?

Разбор ответа после регистрации в каталоге вопросов.

Когда стоит использовать pandas.merge vs pandas.join?

Разбор ответа после регистрации в каталоге вопросов.

Как оптимизировать обработку больших CSV в pandas?

Разбор ответа после регистрации в каталоге вопросов.

Зачем использовать typing и как он помогает аналитикам?

Разбор ответа после регистрации в каталоге вопросов.

Чем полезен pathlib по сравнению с os.path?

Разбор ответа после регистрации в каталоге вопросов.

Как работает itertools.groupby и чем его ограничение?

Разбор ответа после регистрации в каталоге вопросов.

Как быстро собрать интерактивный прототип дашборда без BI-систем?

Разбор ответа после регистрации в каталоге вопросов.

Какие приёмы профилирования Python-кода знаете?

Разбор ответа после регистрации в каталоге вопросов.

Чем полезен enumerate при обходе списка?

Разбор ответа после регистрации в каталоге вопросов.

Как безопасно работать с конфиденциальными переменными окружения в проектах аналитика?

Разбор ответа после регистрации в каталоге вопросов.

Как распараллелить вычислительные задачи без влияния GIL?

Разбор ответа после регистрации в каталоге вопросов.

Когда стоит использовать dataclass вместо NamedTuple?

Разбор ответа после регистрации в каталоге вопросов.

Чем отличается asyncio от multiprocessing при построении ETL-конвейера?

Разбор ответа после регистрации в каталоге вопросов.

Когда полезно использовать typing.Protocol?

Разбор ответа после регистрации в каталоге вопросов.

Какой тип коллекции в Python неизменяемый?

Разбор ответа после регистрации в каталоге вопросов.

Чем отличается дискретная случайная величина от непрерывной?

Разбор ответа после регистрации в каталоге вопросов.

Сформулируйте закон больших чисел.

Разбор ответа после регистрации в каталоге вопросов.

Что такое условная вероятность и как её вычислить?

Разбор ответа после регистрации в каталоге вопросов.

Объясните формулу полной вероятности.

Разбор ответа после регистрации в каталоге вопросов.

Что такое теорема Байеса и когда её использовать?

Разбор ответа после регистрации в каталоге вопросов.

Как посчитать математическое ожидание для дискретной величины?

Разбор ответа после регистрации в каталоге вопросов.

Что показывает дисперсия?

Разбор ответа после регистрации в каталоге вопросов.

Как связаны независимость событий и произведение вероятностей?

Разбор ответа после регистрации в каталоге вопросов.

Что такое марковская цепь и приведите пример?

Разбор ответа после регистрации в каталоге вопросов.

Опишите биномиальное распределение и его параметры.

Разбор ответа после регистрации в каталоге вопросов.

Когда применимо распределение Пуассона?

Разбор ответа после регистрации в каталоге вопросов.

Вопросы для собеседования аналитика данных

Всего 4473 вопросов по 21 категориям. Карточки с ответами и квиз-режим.

SQL (920 вопросов)

Чем отличается INNER JOIN от LEFT JOIN и когда использовать каждый?
Как работает оператор GROUP BY и почему важно добавлять агрегаты к неагрегированным полям?
Что делает оконная функция ROW_NUMBER() и чем отличается от DENSE_RANK()?
Объясните разницу между WHERE и HAVING.
Как использовать CTE (WITH) и зачем они нужны?

...и ещё 915 вопросов

Python (654 вопросов)

Чем отличаются списки и кортежи в Python?
Как работает list comprehension и чем лучше цикла?
Что такое генератор и чем он отличается от списка?
Как работает менеджер контекста и зачем нужен?
Объясните разницу между deepcopy и copy.

...и ещё 649 вопросов

Теория вероятностей (169 вопросов)

Чем отличается дискретная случайная величина от непрерывной?
Сформулируйте закон больших чисел.
Что такое условная вероятность и как её вычислить?
Объясните формулу полной вероятности.
Что такое теорема Байеса и когда её использовать?

...и ещё 164 вопросов

Статистика (379 вопросов)

Чем отличаются выборка и генеральная совокупность?
Что такое медиана и чем она полезна?
Поясните доверительный интервал средней.
Что такое p-value и как его интерпретировать?
Разница между типами ошибок I и II рода?

...и ещё 374 вопросов

Визуализация (53 вопросов)

Как выбрать между линейным графиком и столбчатой диаграммой для отчёта?
Что такое data-ink ratio по Эдварду Тафти и как применять этот принцип к дашбордам?
Как выбрать цветовую палитру для визуализаций, доступных людям с нарушениями цветовосприятия?
Какой тип графика лучше показывает форму распределения и ключевые статистики одновременно?
Когда использовать small multiples вместо одного графика с несколькими линиями?

...и ещё 48 вопросов

ML (255 вопросов)

Как диагностировать переобучение модели и какие приёмы помогают его предотвратить?
Перечислите основные способы регуляризации и объясните, когда применять каждый.
Объясните разницу между precision и recall.
Как выбрать между ROC-AUC и PR-AUC для оценки модели классификации?
В чём принцип градиентного бустинга и почему он так популярен в продуктовой аналитике?

...и ещё 250 вопросов

Продуктовое мышление (208 вопросов)

Что такое north star metric?
Как определить основные сегменты пользователей?
Что важно учесть при постановке эксперимента на продуктовой метрике?
Как оценить влияние фичи без A/B теста?
Как выбрать метрики активации, ретенции и монетизации?

...и ещё 203 вопросов

A/B тесты (520 вопросов)

Как применить дельта-метод для метрики конверсии?
Объясните идею switchback теста с примерами.
Как проводить CUPED на практике?
Что такое switch-over bias и как его избежать?
Зачем нужна стратификация при рандомизации?

...и ещё 515 вопросов

Метрики (360 вопросов)

Что такое Activation Rate и как её рассчитать в SQL? Есть таблица events(user_id, event_name).
Опишите формулу WAU/MAU и зачем она нужна.
Как получить ARPU в разрезе тарифов? Есть таблица payments(plan, user_id, amount).
Что такое NRR и как его интерпретировать? Приведите формулу.
Как посчитать churn rate пользователей (формула и SQL)? Есть таблица customer_status(user_id, status) со статусами active_start и churned.

...и ещё 355 вопросов

Маркетинговая аналитика (46 вопросов)

Как рассчитать blended CAC и чем он отличается от channel CAC?
Что такое ROAS и как его использовать?
Опишите разницу между last-click и data-driven атрибуцией.
Как построить incremental lift тест для рекламной кампании?
Что такое MMM (Marketing Mix Modeling) и когда его использовать?

...и ещё 41 вопросов

Продуктовая аналитика (305 вопросов)

Как рассчитать конверсию по этапам продуктовой воронки в SQL?
Что такое retention curve и какие выводы по ней можно сделать?
Как измерить DAU/WAU/MAU и для чего их сравнивают?
Что такое cohort analysis и как он помогает проверить гипотезу?
Приведите пример метрики product-market fit survey.

...и ещё 300 вопросов

Продуктовые кейсы (181 вопросов)

Маркетплейс увидел падение конверсии checkout→оплата на iOS на 4 п.п. Багов в логах нет. Как структурируешь расследование?
У медиа‑сервиса просел D7 retention после отключения персонализированных пушей. Как убедиться, что причина именно в push?
Сервис доставки заметил снижение среднего чека после масштабной акции. Как показать, что кампания всё ещё выгодна?
Финтех-продукт внедрил новый KYC. Approve rate вырос, но онбординг стал занимать 10 минут. Как аргументировать, что это ок?
Команда Stories в соцсети хочет доказать, что новая лента повышает вовлечённость. Какие шаги предложишь?

...и ещё 176 вопросов

Продуктовые метрики (5 вопросов)

DAU упал на 5%. Как провести диагностику просадки?
Как определить North Star Metric для маркетплейса продажи б/у техники?
Как отличить хороший retention от плохого? Какой benchmark?
Как посчитать LTV, если у вас данные только за 3 месяца?
Retention D1, D7, D30 — что важнее и когда?

Продукт (54 вопросов)

Продакт говорит «давай просто увеличим AOV» для роста GMV. Какие подводные камни?
У тебя есть дашборд Weekly DAU. CPO спрашивает «почему на прошлой неделе был дроп?». Как ответить за 10 минут?
Как декомпозировать продуктовую метрику? На примере «retention снизился на 5%».
Что такое продуктовый эффект (product impact) и как его измерить?
Как выбрать North Star Metric (NSM) для нового продукта?

...и ещё 49 вопросов

BI (162 вопросов)

Продакт третий раз за месяц просит «прислать те же цифры по воронке», и ты опять гоняешь SQL руками. Чем BI-дашборд отличается от ad-hoc запроса и ноутбука, и по какому правилу понять, что пора его строить?
Проектируешь витрину под BI-дашборды в колоночном DWH. Команда спорит: нормализовать измерения в подтаблицы (snowflake) или держать денормализованную звезду. Что возьмёшь по умолчанию и почему?
Дашборд в Tableau подключён Live к прод-Postgres: каждый клик по фильтру шлёт тяжёлый запрос, бэкенд жалуется на тормоза приложения. Бизнесу хватает данных с обновлением раз в час. Extract или Live — что выберешь и какой ценой?
Один дашборд продаж нужен 50 региональным менеджерам: каждый должен видеть только свой регион, директор — все. Плодить 50 копий дашборда нельзя. Каким механизмом BI это решается?
Yandex DataLens: из чего состоит путь от данных до дашборда?

...и ещё 157 вопросов

Алгоритмы (120 вопросов)

Дан массив [5, 2, 8, 1, 9]. Нужно отсортировать без встроенного sort(). Самый простой алгоритм — bubble sort. Реализуй на Python, разбери worst/avg/best case. Где bubble sort реально применяется (хинт: Timsort использует его как fallback на коротких подмассивах)?
Тебе на собесе дают массив на ~50 элементов почти отсортированный (последние 3 элемента не на месте) и просят отсортировать максимально быстро. Какой алгоритм выберешь и почему insertion sort даст O(n) в этом случае? Реализуй и покажи где Python Timsort использует insertion как часть алгоритма.
Тебе задают вопрос: «У меня quick sort работает за O(n log n) на random data, но на отсортированном входе тормозит. Почему?» Объясни worst case O(n²) и причину. Какие 3 техники защищают (random pivot, median-of-three, introsort)? Реализуй quick sort с random pivot и обоснуй стабильность.
Дан массив на 10M элементов которые не помещаются в RAM. Тебя просят отсортировать их на диске (external sort). Какой алгоритм базовый? Реализуй classical merge sort и объясни почему он подходит для external sort (chunks + merge), стабилен, параллелизуется. Сравни с quick sort в этом сценарии.
У тебя приоритетная очередь задач (job scheduler). Тебе нужно постоянно вытаскивать самую важную и добавлять новые. Какая структура подходит за O(log n) на каждую операцию? Реализуй min-heap (приоритет = меньшее число) через heapq. Покажи top-K largest и median maintenance.

...и ещё 115 вопросов

Data Quality (35 вопросов)

Задача: настроить data validation на 1M строк ежедневно загружаемых из Kafka. Какие основные сущности Great Expectations нужно использовать (Expectation, Suite, Batch, Validation, Checkpoint)? Покажи минимальный пример pipeline.
Задача: Great Expectations поддерживает сотни expectations. Перечисли 10 наиболее часто используемых в production и объясни когда каждое применять.
Задача: GE Data Docs автоматически генерирует HTML-отчёты после каждого validation. Как настроить deploy этих доков в S3 для команды и интегрировать с Slack-нотификациями при failures?
Задача: GE Profiler анализирует существующий датасет и автоматически генерирует expectation suite. Когда это полезно vs ручное создание? Какие expectations Profiler ловит, а какие нет?
Задача: что такое Batch и Batch Request в Great Expectations? Покажи как validate один файл (single batch) vs целый partition (multi-batch) vs streaming через Kafka.

...и ещё 30 вопросов

Data Engineering (17 вопросов)

Объясни идемпотентность ETL на примере. Почему «вставить новые строки за вчера» — неидемпотентно, и как переписать загрузку, чтобы повторный запуск за тот же день не дублировал данные?
В dbt модель сделана incremental. После добавления нового источника-джойна исторические строки в таблице должны пересчитаться, но обычный dbt run их не трогает — обрабатываются только новые. Что нужно сделать, чтобы пересчитать всё с нуля?
Реализуй SCD Type 2 для измерения «менеджер аккаунта». Какие технические поля нужны, как закрывается старая версия и в чём типичная ошибка с границами интервалов?
ClickHouse, таблица с движком MergeTree. Ты сделал INSERT, потом сразу SELECT и не видишь некоторых только что вставленных строк через ReplacingMergeTree. В чём причина и что важно понимать про дедупликацию?
У тебя dbt-модель строит таблицу из логов событий. Источник иногда присылает дубли по event_id. Где правильнее всего навесить контроль качества, чтобы пайплайн упал ДО публикации витрины, а не после?

...и ещё 12 вопросов

AI / LLM аналитика (10 вопросов)

Что такое RAG (Retrieval-Augmented Generation) и зачем он аналитику?
LLM сгенерировала SQL-запрос по вашему описанию. Как проверить результат, прежде чем доверять цифрам?
Метрика RAGAS faithfulness при оценке RAG-ассистента показывает, что...
Что такое эмбеддинги и векторная база данных простыми словами?
Что называют «галлюцинацией» LLM в контексте аналитического ассистента?

...и ещё 5 вопросов

Инструменты (10 вопросов)

Почему ClickHouse с движком MergeTree так быстр на аналитических запросах и за что отвечает ORDER BY в определении таблицы?
Что такое DuckDB и почему он удобен для локальной аналитики над Parquet-файлами? Покажи запрос к файлам без предварительной загрузки в память.
За счёт чего Apache Iceberg обеспечивает time travel — запрос данных на состояние в прошлом?
Какую роль играет Apache Kafka в стриминговом стеке аналитика и что даёт партиционирование топика?
В чём ключевое преимущество Polars над pandas на больших таблицах?

...и ещё 5 вопросов

Excel / таблицы (10 вопросов)

Объясните разницу между СУММЕСЛИМН (SUMIFS) и СЧЁТЕСЛИМН (COUNTIFS). Как посчитать выручку по товару «A» в городе «Москва» одной формулой?
Есть плоская таблица продаж (дата, город, менеджер, товар, сумма). Нужна матрица «выручка по городам (строки) × месяцам (столбцы)». Как решить сводной таблицей и на что обратить внимание с датами?
Что такое Power Query и какую задачу аналитика он решает? Приведите 2-3 типичных сценария.
Для чего в Google Sheets нужна ARRAYFORMULA? Чем она удобнее, чем протягивать обычную формулу на 10 000 строк?
Как условным форматированием подсветить всю строку, если сделка просрочена (дата в столбце E меньше сегодняшней)? В чём подвох с абсолютными и относительными ссылками?

...и ещё 5 вопросов

Начать тренировку

Вопросы с собесов крупных IT-компаний

Реальные вопросы с подробным разбором и публичным источником:

SQL по темам

Гайды по конкретным SQL-конструкциям с примерами и задачами:

Python для аналитика — по темам

Гайды по pandas, numpy, scipy, sklearn и визуализации:

Справочник SQL-функций

Синтаксис и примеры конкретных функций с разбором:

Справочник функций pandas

Синтаксис и примеры функций pandas и numpy с разбором:

Сравнения инструментов аналитика

Когда что использовать — детальные comparison-гайды:

Блог-посты по тегам

Тематические подборки статей:

Вопросы для собеседования аналитика данных

SQL (920 вопросов)

Python (654 вопросов)

Теория вероятностей (169 вопросов)

Статистика (379 вопросов)

Визуализация (53 вопросов)

ML (255 вопросов)

Продуктовое мышление (208 вопросов)

A/B тесты (520 вопросов)

Метрики (360 вопросов)

Маркетинговая аналитика (46 вопросов)

Продуктовая аналитика (305 вопросов)

Продуктовые кейсы (181 вопросов)

Продуктовые метрики (5 вопросов)

Продукт (54 вопросов)

BI (162 вопросов)

Алгоритмы (120 вопросов)

Data Quality (35 вопросов)

Data Engineering (17 вопросов)

AI / LLM аналитика (10 вопросов)

Инструменты (10 вопросов)

Excel / таблицы (10 вопросов)

Вопросы с собесов крупных IT-компаний

SQL по темам

Python для аналитика — по темам

Справочник SQL-функций

Справочник функций pandas

Сравнения инструментов аналитика

Блог-посты по тегам

Главные разделы сайта