Proxy-метрика для LLM-помощника — Sber AI

Senior Метрики Fintech

Условие задания

**Компания:** Sber AI
**Позиция:** Senior Product Analyst (GigaChat / SberAssistant)

**Контекст:** Внутренний AI-помощник для сотрудников банка. Команда хочет «хорошие ответы». Но как мерить качество в production? Опросы дороги, NPS медленный, а данные нужны daily.

**Задание:**
1. Какие proxy-метрики качества ответов LLM существуют? Назови минимум 5.
2. Какие из них automatic (без ручной разметки), а какие требуют human eval?
3. Какие risks в proxy-метриках для AI? (примеры известных провалов)
4. Дизайн final scorecard: 3-4 метрики которые войдут в weekly health report.

Темы

LLM proxy metrics product analytics AI

Подсказки

Все тестовые задания →

Частые вопросы

Какой уровень знаний нужен для задачи "Proxy-метрика для LLM-помощника — Sber AI"?

Это задание для уровня Senior. Senior-уровень — глубокое понимание темы, опыт решения нестандартных задач, обсуждение trade-off на собеседовании.

На каких собеседованиях встречается такая задача?

Подобные задания в категории «Метрики» регулярно дают на собеседованиях аналитика данных в Яндекс, Сбер, Ozon, Авито, Тинькофф, Wildberries, T-Bank, X5, ВТБ и других крупных IT-компаниях. Тематика: LLM, proxy metrics, product analytics, AI.

Сколько времени даётся на решение?

На реальном собеседовании на подобную задачу отводится 30-60 минут с обсуждением подходов, оптимизаций и trade-off. Для тренировки рекомендуем сначала решить самостоятельно, потом сверить с эталонным решением и подсказками.

Где ещё потренироваться по теме «Метрики»?

На zasqlpython.ru есть другие задания в категории «Метрики», продуктовые кейсы, справочник метрик, AI мок-собеседование с разбором ваших ответов.

← Все задания