Python+SQL: дедупликация записей — СБЕР

Senior Python Fintech

Условие задания

**Компания:** Сбер

**Контекст:** В CRM-системе одного клиента может представлять несколько записей с разными ключами. Записи считаются «связанными», если совпадает хотя бы один из идентификаторов: id, phone или email.

**Данные:**

| id | name | phone | email |
|----|------|-------|-------|
| 1 | Иван | +7-900-111 | ivan@mail.ru |
| 2 | И. Петров | +7-900-111 | petrov@gmail.com |
| 3 | Иван Петров | +7-900-222 | ivan@mail.ru |
| 4 | Мария | +7-900-333 | maria@ya.ru |
| 5 | М. Сидорова | +7-900-444 | maria@ya.ru |

**Задание:**
1. Объедините записи в группы «одного клиента»
2. Реализуйте алгоритм Union-Find
3. Для каждой группы выберите «каноническую» запись

Пример данных

Структура для ориентира — реальные значения из эталонного решения.

data = pd.DataFrame({
    'id': [1, 2, 3, 4, 5],
    'name': ['Иван', 'И. Петров', 'Иван Петров', 'Мария', 'М. Сидорова'],
    'phone': ['+7-900-111', '+7-900-111', '+7-900-222', '+7-900-333', '+7-900-444'],
    'email': ['ivan@mail.ru', 'petrov@gmail.com', 'ivan@mail.ru', 'maria@ya.ru', 'maria@ya.ru'],
})

Темы

дедупликация union-find связные записи data quality

Подсказки

Все тестовые задания →

Частые вопросы

Какой уровень знаний нужен для задачи "Python+SQL: дедупликация записей — СБЕР"?

Это задание для уровня Senior. Senior-уровень — глубокое понимание темы, опыт решения нестандартных задач, обсуждение trade-off на собеседовании.

На каких собеседованиях встречается такая задача?

Подобные задания в категории «Python» регулярно дают на собеседованиях аналитика данных в Яндекс, Сбер, Ozon, Авито, Тинькофф, Wildberries, T-Bank, X5, ВТБ и других крупных IT-компаниях. Тематика: дедупликация, union-find, связные записи, data quality.

Сколько времени даётся на решение?

На реальном собеседовании на подобную задачу отводится 30-60 минут с обсуждением подходов, оптимизаций и trade-off. Для тренировки рекомендуем сначала решить самостоятельно, потом сверить с эталонным решением и подсказками.

Где ещё потренироваться по теме «Python»?

На zasqlpython.ru есть 482 Python задачи с проверкой через Pyodide, конспекты Python и pandas, AI мок-собеседование с разбором ваших ответов.

← Все задания