Подбор текстов
Заказчик
Агентство по управлению репутацией в интернете, мониторинг упоминаний.
Ежедневно нужно отбирать тексты, которые «подходят» — а что именно делает текст подходящим, формализовать трудно: начитанный специалист просто действует интуитивно. Добавьте к этому несколько проектов одновременно, у каждого — свои критерии, и картина становится тяжёлой.
Чтобы просеять 1000 текстов под один проект вручную, специалисту требуется не меньше часа.
Задача
По сути это бинарная классификация: «да» / «нет». Тащить сюда большую языковую модель — стрелять из пушки по воробьям.
Решение
Дообучили модель семейства BERT на корпусе из 8400 текстов, размеченных самим специалистом. Модель научилась воспроизводить его интуицию.
Результат
Запись лога инференса в реальном времени: пакетная обработка по 128 текстов, обработано 7242 текста за 46 секунд.
Что получил заказчик
| До | После | |
|---|---|---|
| 1000 текстов, один проект | час ручной работы | секунды |
| Новый проект | дни обучения специалиста | минуты дообучения модели |
| Масштабирование на N проектов | × N часов в день | минуты |
Технологии
- Оборудование: NVIDIA RTX 3090, 24 GB
- Обучение, инференс: Python, PyTorch
- Данные: PostgreSQL
- Деплой: Docker