Safety/security
Safety/security
Определение
Категория тестов, включающая запросы на вредоносные темы и попытки инжекции, а также более широкая область, охватывающая robustness к adversarial input и prompt injection. Safety предотвращает вредоносные действия, security защищает от атак.
Где встречается
- 38. Как вы fine-tune модель для функции вызов внешнего API
- 80. Какие 3 книгикурса вы рекомендуете по production LLM
- 140. Как вы проверяете, что новая версия модели не сломала старые кейсы
- 298. Как вы тестируете robustness LLM к adversarial input (не только injection)
- 341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)
- 391. Как вы проектируете агента, который может работать непрерывно (247) без дрейфа поведения
- 395. Как вы тестируете агента на «неожиданные input» (не только adversarial, но и просто странные)
- 588. Что такое agent explanation fidelity (насколько объяснение соответствует реальному решению)
- 681. Как вы генерируете синтетический датасет для instruction tuning Self-instruct, Evol-Instruct
- 750. Как устроена Memory в Harness (in-memory, fs, vector stores, relay)
- 755. Что такое эволюция (evolution) в Harness Engineering (component registry, drift detection)