Подбор текстов

Заказчик

Агентство по управлению репутацией в интернете, мониторинг упоминаний.

Ежедневно нужно отбирать тексты, которые «подходят» — а что именно делает текст подходящим, формализовать трудно: начитанный специалист просто действует интуитивно. Добавьте к этому несколько проектов одновременно, у каждого — свои критерии, и картина становится тяжёлой.

Чтобы просеять 1000 текстов под один проект вручную, специалисту требуется не меньше часа.

Задача

По сути это бинарная классификация: «да» / «нет». Тащить сюда большую языковую модель — стрелять из пушки по воробьям.

Решение

Дообучили модель семейства BERT на корпусе из 8400 текстов, размеченных самим специалистом. Модель научилась воспроизводить его интуицию.

Результат

Запись лога инференса в реальном времени: пакетная обработка по 128 текстов, обработано 7242 текста за 46 секунд.

Что получил заказчик

	До	После
1000 текстов, один проект	час ручной работы	секунды
Новый проект	дни обучения специалиста	минуты дообучения модели
Масштабирование на N проектов	× N часов в день	минуты

Технологии

Оборудование: NVIDIA RTX 3090, 24 GB
Обучение, инференс: Python, PyTorch
Данные: PostgreSQL
Деплой: Docker