Как определить критерии приемки AI-проекта? Функциональность, производительность, безопасность — всё важно - Blog

Приемка AI-проектов добавляет к традиционным критериям измерение «эффективность» — прохождения всех функций недостаточно: точность в ключевых сценариях ≥95%, уровень галлюцинаций ≤3%, задержка P99 ≤5 секунд, безопасность 100%. Согласно отчёту Китайской академии информационно-коммуникационных технологий «Развитие AI-приложений 2025», отсутствие системных критериев приёмки — главная причина споров вокруг AI-проектов. Эта статья предлагает полный шаблон четырёхмерных критериев приёмки: функциональность, производительность, безопасность, эффективность — чтобы приёмка велась на основе объективных данных.

Как пройти функциональную приёмку?

Приёмка базовой функциональности

Элемент проверки	Критерий приёмки	Метод тестирования
Реализованы все функциональные точки	100% функций, оговоренных в контракте	Поэлементная проверка по чек-листу функций
Действует разграничение прав	Разные роли видят разный контент	Тестирование с несколькими ролями
Корректная передача данных	Данные корректно синхронизируются между системами	Сквозное тестирование процессов
Корректная обработка исключений	При ошибках выводятся сообщения и предусмотрены запасные сценарии	Тестирование исключительных ситуаций

Приёмка специфичных для AI функций

Элемент проверки	Критерий приёмки	Метод тестирования
Распознавание намерений	Точность распознавания основных намерений ≥90%	Проверка на 200+ тестовых примерах
Поиск знаний	Полнота (Recall@10) ≥85%	Оценка на стандартном тестовом наборе
Генерация ответов	Точность ответов ≥85%	Ручная разметка 100+ реальных вопросов
Переход на оператора	Плавный процесс передачи, контекст сохраняется полностью	Моделирование сценариев с низкой уверенностью

Каковы критерии приёмки по производительности?

Показатель	Целевое значение	Условия тестирования
Среднее время отклика	≤2 сек.	Нормальная нагрузка
Время отклика P99	≤5 сек.	Нормальная нагрузка
Пиковая пропускная способность	≥ значение, указанное в контракте	Нагрузочное тестирование
Доступность системы	≥99,9%	Работа в течение 7 дней
Использование памяти GPU	≤ значение, указанное в контракте	Непрерывная работа
Поддержка параллельных подключений	≥ количество, указанное в контракте	Тестирование параллельного доступа

Какие обязательные проверки безопасности?

Безопасность данных

Элемент проверки	Стандарт	Метод тестирования
Шифрование при передаче данных	TLS 1.2+	Проверка захваченных пакетов
Шифрование при хранении данных	AES-256	Проверка конфигурации
Маскирование чувствительных данных	Номера паспортов / мобильных телефонов / банковских карт	100+ тестовых примеров
Контроль доступа	RBAC + права на уровне документов	Тестирование на повышение привилегий

Безопасность AI

Элемент проверки	Стандарт	Метод тестирования
Защита от внедрения в промпты (Prompt Injection)	Вредоносные инструкции не выполняются	50+ атак с внедрением
Контроль галлюцинаций	Уровень галлюцинаций в ключевых сценариях ≤5%	Ручная разметка
Фильтрация вывода	Запрещённый контент не выводится	Тестирование на чувствительные слова и запрещённый контент
Аудит операций	Полное протоколирование всех критических операций	Проверка полноты журналов

Чек-лист тестирования безопасности

[ ] Тест на проникновение: нет уязвимостей высокого уровня

[ ] Тест на повышение привилегий: все попытки межролевого доступа блокируются

[ ] Тест на внедрение: все атаки с внедрением в промпты отражены

[ ] Тест на утечку данных: конфиденциальные данные не покидают систему

Как оценивается приёмка по эффективности? Это уникальное измерение для AI-проектов

Показатели эффективности

Сценарий	Целевая точность	Целевой уровень галлюцинаций
Ключевые сценарии	≥95%	≤3%
Обычные сценарии	≥85%	≤10%
Нетипичные сценарии	Допускается ответ «не знаю»	—

Методы тестирования эффективности

Метод	Объём выборки	Исполнитель
Автоматизированная оценка	500+ записей	Техническая команда
Ручная экспертная оценка	100+ записей	Бизнес-команда
Тестирование реальными пользователями	50+ человек	Целевые пользователи
A/B-сравнение	Сравнение со старой системой	Команда эксплуатации

Тест на деградацию эффективности

При непрерывной работе в течение 7 дней колебания точности не должны превышать ±3%.

Что включает документационная приёмка?

Тип документа	Обязательное содержание
Руководство пользователя	Пошаговые инструкции, скриншоты, часто задаваемые вопросы
Руководство по эксплуатации	Архитектура системы, шаги развёртывания, показатели мониторинга, план аварийного восстановления
Документация API	Описание интерфейсов, примеры запросов/ответов, коды ошибок
Обучающие материалы	Презентации, видеоуроки, контрольные вопросы
Управление базой знаний	Процесс обновления документов, шаблоны, стандарты качества

Как строится процесс приёмки?

```

Предварительная приёмка (внутренняя) → Исправление проблем → Официальная приёмка (с участием заказчика)

↓

Приёмка функций → Приёмка производительности → Приёмка безопасности → Приёмка эффективности → Приёмка документации

↓

Отчёт о приёмке → Список оставшихся проблем → Исправление в заданный срок → Официальный запуск

```

Критерии прохождения приёмки

Функциональная приёмка пройдена на 100%

Приёмка по производительности на 100%

Приёмка по безопасности на 100%

Приёмка по эффективности: ключевые сценарии — 100%, обычные сценарии — ≥90%

Документационная приёмка на 100%

Нет оставшихся проблем уровня P0

Часто задаваемые вопросы

Чем «приёмка по эффективности» AI-проекта отличается от «функционального тестирования» традиционного ПО?

Функциональное тестирование традиционного ПО бинарно — функция либо есть, либо нет, результат предсказуем. Приёмка по эффективности AI-проекта носит вероятностный характер — один и тот же ввод может давать разные результаты, точность составляет 95%, а не 100%. Поэтому для AI-проекта необходимо согласовать «порог точности» и «объём тестовой выборки», а не просто факт «реализована ли функция».

Как разделяются «ключевые сценарии» и «обычные сценарии» при приёмке эффективности?

Ключевые сценарии — это те, которые напрямую влияют на доходность бизнеса или соблюдение нормативных требований (например, проверка рисков, комплаенс-запросы), целевая точность ≥95%. Обычные сценарии — вспомогательные (рекомендации товаров, инструкции по использованию), достаточно точности ≥85%. Рекомендуется на старте проекта письменно согласовать с заказчиком классификацию сценариев и соответствующие стандарты.

Что делать, если после приёмки эффективность AI снижается?

При приёмке следует определить «гарантийный период эффективности» — обычно 3–6 месяцев. Если в течение гарантии точность упадёт более чем на 5%, исполнитель обязан провести бесплатную оптимизацию. Частые причины деградации: необновлённая база знаний, изменение бизнес-правил, дрейф распределения данных. В документацию приёмки необходимо включить механизм регулярной оптимизации и распределение ответственности.

Хотите разработать критерии приёмки AI-проекта? Запишитесь на бесплатную консультацию