YandexGPT и ChatGPT для аналитика: генерация SQL

Q: Может ли LLM заменить аналитика?

Нет. LLM — multiplier, не заменитель. Аналитик с LLM решает в 2-3× больше задач, чем без. Но без понимания бизнеса / SQL / статистики LLM бесполезен — он не знает что спросить.

Q: YandexGPT или ChatGPT для русского?

YandexGPT — лучше для доменной лексики РФ. ChatGPT — лучше для сложного SQL. Профи используют оба: YandexGPT для doc/text, ChatGPT для code.

Q: Можно ли LLM использовать на собеседовании?

Нет. На live coding interview LLM запрещён. Но тренироваться с LLM — отлично: спрашивай объяснения, прорабатывай слабые места. Особенно когда готовишься через AI-Hub — AI-интервьюер задаёт вопросы, ты отвечаешь, потом LLM объясняет ошибки.

Q: Что делать если LLM врёт?

Всегда проверяй на dev-БД. Никогда не запускай LLM-SQL сразу на prod. Особенно DELETE/UPDATE — должно быть SELECT preview сначала. ---

LLM — главный новый инструмент аналитика 2026. YandexGPT (через Yandex AI Studio), ChatGPT/GPT-4o, Claude Sonnet — все умеют писать SQL по описанию, объяснять чужой код, ревьюить запросы. Но они врут. Этот гайд — как использовать LLM профессионально: что доверять, что НЕ доверять, как промптить.

5 задач аналитика, в которых LLM реально помогает

Скелет SQL по описанию: «Напиши запрос — топ-10 пользователей по выручке за прошлый квартал». LLM выдаёт ~80% правильно за 5 сек, дольше с CTE и window. Проверять обязательно — никто не отменял EXPLAIN.
Объяснение чужого кода: легаси-запрос в 200 строк — LLM делает breakdown по блокам. Экономит 30-60 мин на ревью.
Перевод между диалектами: PostgreSQL → ClickHouse, MySQL → Snowflake. Сложные функции иногда теряются, но boilerplate — точно.
Code review: «Найди потенциальные проблемы performance в этом запросе». LLM находит SELECT *, missing WHERE, fan-out JOIN. Не лучше senior DBA, но полезно для junior.
Документация: автогенерация описаний к dbt-моделям, к таблицам, к dashboard'ам. Скорее всего на 70-80% сразу OK.

Что LLM делает ПЛОХО

Задача	Почему ломается
Сложные window-функции с frame ROWS/RANGE	Confusion между ROWS и RANGE, дублирует rows
Recursive CTE	Часто бесконечный цикл, забывает termination condition
Performance optimization без EXPLAIN	LLM не видит реальный план, guess-and-check
Schema-specific квирки	ClickHouse `uniqExact` vs PostgreSQL `COUNT(DISTINCT)` — путает
Privacy / sensitive data	LLM иногда хочет «дать дополнительный контекст», утечка PII
Точные арифметические расчёты	Деление, округление, проценты — 15-25% ошибок

Правило: LLM пишет SQL быстрее, но проверка обязательна. Особенно если ты Junior — тренируйся понимать SQL в SQL-тренажёре, иначе ты не сможешь поймать LLM-ошибки.

YandexGPT через AI Studio API

С 2026 года Yandex запустил единый API через AI Studio. Доступ через тот же API-ключ что и Wordstat Search API.

import requests

YANDEX_API_KEY = "your-api-key" # из AI Studio
YANDEX_FOLDER = "your-folder-id"

def yandex_gpt(prompt):
 url = "https://llm.api.cloud.yandex.net/foundationModels/v1/completion"
 headers = {
 "Authorization": f"Api-Key {YANDEX_API_KEY}",
 "x-folder-id": YANDEX_FOLDER,
 }
 body = {
 "modelUri": f"gpt://{YANDEX_FOLDER}/yandexgpt/latest",
 "completionOptions": {"temperature": 0.2, "maxTokens": 2000},
 "messages": [{"role": "user", "text": prompt}],
 }
 r = requests.post(url, headers=headers, json=body)
 return r.json()["result"]["alternatives"][0]["message"]["text"]

# Пример: генерация SQL
sql = yandex_gpt("""
Схема: orders(order_id, user_id, product_id, amount, created_at), products(product_id, name, category)
Задача: топ-5 категорий по выручке за 2026 год
""")
print(sql)

Стоимость (на момент 2026): YandexGPT Lite — ~5₽/M input токенов, ~10₽/M output. Pro версия дороже (~15-30₽). Для аналитика — 100-200₽/мес активного использования.

RU-данные: YandexGPT обучен на русскоязычном корпусе → лучше понимает РФ-доменные термины («МСК», «УПД», «РСМД»). Для специфики российского бизнеса это plus.

ChatGPT / GPT-4o для SQL

ChatGPT остаётся самым качественным для сложного SQL (по моим личным тестам через 12 запросов с CTE, window, recursive). Доступ через VPN.

from openai import OpenAI

client = OpenAI(api_key="sk-...") # или через прокси

def gpt_sql(schema, task):
 resp = client.chat.completions.create(
 model="gpt-4o",
 messages=[
 {"role": "system", "content": "You are an expert SQL analyst. Output only SQL, no explanation."},
 {"role": "user", "content": f"Schema:\n{schema}\n\nTask:\n{task}"},
 ],
 temperature=0.1,
 )
 return resp.choices[0].message.content

Когда ChatGPT > YandexGPT: сложный SQL, английская документация, нишевые инструменты (Snowflake, Databricks). Когда YandexGPT >: РФ-доменная лексика, integration с Yandex Cloud.

Промпт-инжиниринг для SQL

LLM работает гораздо лучше с structured prompt.

Bad prompt (vague)

Напиши SQL чтобы посчитать пользователей за неделю

LLM угадает структуру таблиц, может ошибиться.

Good prompt (structured)

Контекст: e-commerce, PostgreSQL 16
Схема:
 orders(order_id BIGINT, user_id BIGINT, amount NUMERIC, status VARCHAR, created_at TIMESTAMP)
 Indexes: (user_id), (created_at)

Задача: посчитать уникальных платящих пользователей за последние 7 дней
Конвенции:
 - status='completed' = успешная оплата
 - часовой пояс UTC
 - последние 7 дней включая сегодня

Формат: Один SQL-запрос, без CTE если можно, c комментариями.

LLM напишет правильно в 95% случаев. Главное — дать ему схему + конвенции + ограничения.

Шаг 1: code-review через LLM

LLM-prompt для ревью:

Проанализируй SQL-запрос ниже. Найди:
1. Performance-проблемы (Cartesian JOIN, missing index, SELECT *)
2. Логические ошибки (NULL handling, неправильный GROUP BY)
3. Стилистические улучшения

SQL:
[твой запрос]

Формат ответа: numbered list с конкретным line/issue.

Это economic — реально находит проблемы в 60-80% запросов. Не заменяет senior DBA, но junior получает мгновенный фидбэк.

Шаг 2: миграция между диалектами

Переведи запрос с PostgreSQL на ClickHouse:

[твой PG запрос]

Особенности:
- В CH используется `uniqExact` вместо `COUNT(DISTINCT)` (быстрее)
- `date_trunc` → `toStartOfMonth` / `toStartOfDay`
- Window-функции в CH 21+ работают почти как в PG
- Сохрани комментарии

Подвох: LLM иногда забывает диалектные нюансы. Всегда тестируй на dev-БД.

Шаг 3: автогенерация docstring к dbt-моделям

Сгенерируй YAML-описание для dbt-модели:

[содержимое modelfile.sql]

Формат:
- name + description (1-2 предложения)
- columns: name + description + tests (если очевидны из контекста)

Экономит 30-60 мин на каждые 5-10 моделей. Подробнее про dbt — в нашем гайде по dbt macros.

Безопасность: что НЕ давать в LLM

Что	Почему
Реальные данные клиентов (PII)	Может попасть в training данные
Production credentials / API keys	Дамп через prompt injection
Внутренние схемы с sensitive колонками	Анонимизация обязательна
Конфиденциальные бизнес-метрики	Утечка через model providers

Используй dummy data или анонимизированные имена колонок (user_id вместо fio).

Для Enterprise: YandexGPT в Yandex Cloud Enterprise tier — данные не уходят в обучение. ChatGPT Enterprise — то же самое. Free-tier ChatGPT — по умолчанию идут в training.

Шаг 4: AI-агенты для аналитики (продвинутое)

Тренд 2026 — AI-агенты на базе LLM, которые умеют сами выполнять SQL и итерировать.

# Псевдо-пример с tool use (LangChain / LlamaIndex)
agent = create_agent(
 llm=YandexGPT(),
 tools=[
 SQLExecutorTool(database=clickhouse),
 PandasTool(),
 PlotlyTool(),
 ],
 system_prompt="Ты аналитик. Запросы тестируй сразу через SQLExecutorTool."
)
result = agent.run("Какие категории продают плохо в DE регионе?")

Агент сам итерирует: пишет SQL → запускает → видит результат → корректирует если 0 строк. Это уже не просто LLM, это data scientist в коробке. Watch-out: можно случайно дропнуть таблицу — ВСЕГДА давай LLM read-only access.

Частые вопросы

Может ли LLM заменить аналитика?

Нет. LLM — multiplier, не заменитель. Аналитик с LLM решает в 2-3× больше задач, чем без. Но без понимания бизнеса / SQL / статистики LLM бесполезен — он не знает что спросить.

YandexGPT или ChatGPT для русского?

YandexGPT — лучше для доменной лексики РФ. ChatGPT — лучше для сложного SQL. Профи используют оба: YandexGPT для doc/text, ChatGPT для code.

Сколько денег уходит в месяц?

Для аналитика с активным использованием — 200-500₽/мес (YandexGPT Lite) или $5-15/мес ChatGPT Plus. Это меньше чем час твоего времени. ROI выше 10×.

Можно ли LLM использовать на собеседовании?

Нет. На live coding interview LLM запрещён. Но тренироваться с LLM — отлично: спрашивай объяснения, прорабатывай слабые места. Особенно когда готовишься через AI-Hub — AI-интервьюер задаёт вопросы, ты отвечаешь, потом LLM объясняет ошибки.

Что делать если LLM врёт?

Всегда проверяй на dev-БД. Никогда не запускай LLM-SQL сразу на prod. Особенно DELETE/UPDATE — должно быть SELECT preview сначала.

Что дальше

Если хочешь практику — попробуй SQL-тренажёр с автопроверкой (5 задач бесплатно) или Python-тренажёр. LLM-сгенерированный SQL пишешь, гоняешь, проверяешь EXPLAIN — это лучший learning loop.

Готов к собеседованиям? AI-интервью тренирует ответы на реальных вопросах из бесплатного пула. В Pro — безлимит мок-собесов с разбором + 491 SQL-задача + 612 тестовых заданий + 50+ блог-постов.

Смежные посты

dbt macros: 8 паттернов — LLM хорошо генерит macros
SQL antipatterns — что LLM ловит, а что нет
EXPLAIN ANALYZE PostgreSQL — без EXPLAIN LLM-оптимизация неточная
Аналитик → DE roadmap 2026 — куда расти после освоения LLM-tools

Сравнить Free и Pro → (1999₽/мес, экономит часы рутины)

Источники

Habr 1030276: «Wordstat API v2 + AI Studio» (habr.com/ru/articles/1030276)
Yandex Cloud Docs: «YandexGPT API» (yandex.cloud/docs/foundation-models/concepts/yandexgpt)
OpenAI Cookbook: «SQL generation patterns» (cookbook.openai.com)
Habr: ChatGPT vs YandexGPT в SQL-задачах (habr.com)