Поиск
- wikiEvaluator
…Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…
- wikiCDNA3
…Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…
- wikiInfinity Fabric
…Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…
- wikiLogger
…Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…
- wikiMLPerf Inference
…Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…
- wikiZeroSCROLLS
…Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…
- wikiRCCL
…Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…
- wikiROCProfiler
…Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…
- wikiTqdm
…Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…
- wikiLong-context capability
…Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…
- wikiROCm
…Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…
- wikiAMD MI300X
…Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…
- wikiChi-squared test
…Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…
- wikiLongLoRA
…Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…
- wikiDashboard
…Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…
- wikiPosition Interpolation
…Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…
- wikiLongBench
…Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…
- wikiMann–Whitney U
…Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…
- wikiRULER
…Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…
- wikiSeaborn
…Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…
- wikiseed
…Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…
- wikiBenchmarks
# Benchmarks ## Определение Benchmarks — набор тестов для измерения accuracy, fairness, robustness. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов…
- wikiring attention
…Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…
- wikiNeedle in a Haystack
…Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…
- wikiQAMPARI
# QAMPARI ## Определение Датасет для оценки faithfulness (фактологической точности) в многоабзацевых ответах, используется для бенчмаркинга моделей и систем. ## Где встречается - [[800…
- wikidynamic benchmarks
# dynamic benchmarks ## Определение То же, что dynamic benchmark: набор тестов, обновляемый со временем для предотвращения подстройки модели под конкретные задания…
- wikiTruLens
…Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…
- wikiComposite score
…Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…
- wikiTransformer Engine
…что использовать]] - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…
- wikiEnron subset
# Enron subset ## Определение Публичный датасет, содержащий выборку писем сотрудников Enron, часто используемый для тестирования и бенчмаркинга систем обработки email. ## Где…
- wikiParquet
…Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…
- wikiYaRN
…Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…
- wikiApache Bench
# Apache Bench ## Определение Инструмент для генерации нагрузки и бенчмаркинга HTTP-сервисов, применяемый для нагрузочного тестирования. ## Где встречается - [[24. Настроить RED…
- wikisafety benchmarks
# safety benchmarks ## Определение Стандартизированные тесты (например, TruthfulQA, BBQ) для измерения безопасности и непредвзятости модели. ## Где встречается - [[330. Что такое RLAIF…
- wikiDirect I/O
# Direct I/O ## Определение Режим ввода-вывода, обходящий кэш файловой системы, используется для бенчмаркинга производительности хранилищ. ## Где встречается - [[13. Сравнить…
- wikiGIST1M
# GIST1M ## Определение Датасет эмбеддингов размером 1 миллион векторов, используемый для бенчмаркинга алгоритмов приближённого поиска ближайших соседей (ANN). ## Где встречается - [[229…
- wikiANN-benchmarks
# ANN-benchmarks ## Определение Инструмент для бенчмаркинга алгоритмов ANN на пользовательских данных, позволяющий сравнивать скорость и точность. ## Где встречается - [[235. Как…
- wikiGEMM
…для LLM]] - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…
- wikiJailbreakBench
# JailbreakBench ## Определение Датасет известных jailbreak-атак, используемый для бенчмаркинга устойчивости моделей к обходу ограничений. ## Где встречается - [[497. Как вы проектируете…
- wikiMIPRO
…Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…
- wikiClickHouse
…Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…
- answerЧто такое benchmark chasing и почему это опасно?
…Решение — комбинировать несколько бенчмарков, внедрять собственный [[Вики/Evaluation\|evaluation]] на реальных данных, использовать [[Вики/dynamic benchmarks\|динамические бенчмарки]] и [[Вики…
- wikiShadow mode
…Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…
- wikidstat
…Применяется для профилирования производительности во время бенчмаркинга и отладки узких мест. ## Где встречается - [[13. Сравнить S3 vs EBS для checkpoint…
- wikifio
# fio ## Определение Flexible I/O Tester — инструмент для бенчмаркинга дисковой подсистемы, позволяющий измерять задержки и пропускную способность. Часто применяется для…
- wikicompute-bound
…для LLM]] - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…
- wikiMemory Bandwidth
…long context]] - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…
- wikiNCCL
…контексте LLM]] - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…
- wikiCIFAR-10
# CIFAR-10 ## Определение Набор цветных изображений 32×32 для классификации на 10 классов; часто используется для бенчмаркинга и обучения моделей…
- wikiFlash Attention 2
…Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…