Заказчик

Агентство по управлению репутацией в интернете, мониторинг упоминаний.

Ежедневно нужно отбирать тексты, которые «подходят» — а что именно делает текст подходящим, формализовать трудно: начитанный специалист просто действует интуитивно. Добавьте к этому несколько проектов одновременно, у каждого — свои критерии, и картина становится тяжёлой.

Чтобы просеять 1000 текстов под один проект вручную, специалисту требуется не меньше часа.

Задача

По сути это бинарная классификация: «да» / «нет». Тащить сюда большую языковую модель — стрелять из пушки по воробьям.

Решение

Дообучили модель семейства BERT на корпусе из 8400 текстов, размеченных самим специалистом. Модель научилась воспроизводить его интуицию.

Результат

Запись лога инференса в реальном времени: пакетная обработка по 128 текстов, обработано 7242 текста за 46 секунд.

Что получил заказчик

ДоПосле
1000 текстов, один проектчас ручной работысекунды
Новый проектдни обучения специалистаминуты дообучения модели
Масштабирование на N проектов× N часов в деньминуты

Технологии

  • Оборудование: NVIDIA RTX 3090, 24 GB
  • Обучение, инференс: Python, PyTorch
  • Данные: PostgreSQL
  • Деплой: Docker