Стандартные тесты и метрики (accuracy, F1 и т. д.) оценивают общую эрудицию модели, но не её эффективность для вашей конкретной задачи. Клиенту всё равно, как ИИ справился с цитатами Шекспира. Его волнует, почему в вашем интернет-магазине модель отнесла платье к разделу «Обувь».
- 95% точности в классификации — звучит отлично,
- но если модель путает детскую и взрослую одежду, то это критическая ошибка.
Для оценки качества ответов ИИ-микрорешения важно сформулировать бизнес-критерии, например, для генератора описаний товаров по фото одежды бизнес-критерии таковы:
- «Описание должно содержать: материал, сезон, назначение».
- «Классификация не должна путать категории верхней и нижней одежды».
- «Синонимы должны быть стилистически нейтральными и подходить для карточки товара».
Первоначальные критерии определяют эксперты. Но чтобы выявить типичные ошибки и спорные моменты полезно организовать быстрый сбор фидбека. Для этого вполне подойдут собственные сотрудники или группа лояльных клиентов. Можно, например, создать простой бот в Telegram, где сотрудники могут «поиграться» с моделью, оценить результаты работы и дать обратную связь. Конечно, это не замена массовой разметки данных живыми людьми, зато почти бесплатно и помогает быстро сформулировать важные бизнесу критерии.
После того, как бизнес-критерии сформулированы, можно запускать автоматическое тестирование в формате LLM-as-a-Judge: