Поиск

wikiEvaluator
…Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…
wikiCDNA3
…Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…
wikiInfinity Fabric
…Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…
wikiLogger
…Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…
wikiMLPerf Inference
…Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…
wikiZeroSCROLLS
…Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…
wikiRCCL
…Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…
wikiROCProfiler
…Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…
wikiTqdm
…Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…
wikiLong-context capability
…Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…
wikiROCm
…Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…
wikiAMD MI300X
…Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…
wikiChi-squared test
…Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…
wikiLongLoRA
…Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…
wikiDashboard
…Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…
wikiPosition Interpolation
…Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…
wikiLongBench
…Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…
wikiMann–Whitney U
…Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…
wikiRULER
…Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…
wikiSeaborn
…Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…
wikiseed
…Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…
wikiBenchmarks
# Benchmarks ## Определение Benchmarks — набор тестов для измерения accuracy, fairness, robustness. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов…
wikiring attention
…Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…
wikiNeedle in a Haystack
…Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…
wikiQAMPARI
# QAMPARI ## Определение Датасет для оценки faithfulness (фактологической точности) в многоабзацевых ответах, используется для бенчмаркинга моделей и систем. ## Где встречается - [[800…
wikidynamic benchmarks
# dynamic benchmarks ## Определение То же, что dynamic benchmark: набор тестов, обновляемый со временем для предотвращения подстройки модели под конкретные задания…
wikiTruLens
…Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…
wikiComposite score
…Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…
wikiTransformer Engine
…что использовать]] - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…
wikiEnron subset
# Enron subset ## Определение Публичный датасет, содержащий выборку писем сотрудников Enron, часто используемый для тестирования и бенчмаркинга систем обработки email. ## Где…
wikiParquet
…Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…
wikiYaRN
…Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…
wikiApache Bench
# Apache Bench ## Определение Инструмент для генерации нагрузки и бенчмаркинга HTTP-сервисов, применяемый для нагрузочного тестирования. ## Где встречается - [[24. Настроить RED…
wikisafety benchmarks
# safety benchmarks ## Определение Стандартизированные тесты (например, TruthfulQA, BBQ) для измерения безопасности и непредвзятости модели. ## Где встречается - [[330. Что такое RLAIF…
wikiDirect I/O
# Direct I/O ## Определение Режим ввода-вывода, обходящий кэш файловой системы, используется для бенчмаркинга производительности хранилищ. ## Где встречается - [[13. Сравнить…
wikiGIST1M
# GIST1M ## Определение Датасет эмбеддингов размером 1 миллион векторов, используемый для бенчмаркинга алгоритмов приближённого поиска ближайших соседей (ANN). ## Где встречается - [[229…
wikiANN-benchmarks
# ANN-benchmarks ## Определение Инструмент для бенчмаркинга алгоритмов ANN на пользовательских данных, позволяющий сравнивать скорость и точность. ## Где встречается - [[235. Как…
wikiGEMM
…для LLM]] - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…
wikiJailbreakBench
# JailbreakBench ## Определение Датасет известных jailbreak-атак, используемый для бенчмаркинга устойчивости моделей к обходу ограничений. ## Где встречается - [[497. Как вы проектируете…
wikiMIPRO
…Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…
wikiClickHouse
…Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…
answerЧто такое benchmark chasing и почему это опасно?
…Решение — комбинировать несколько бенчмарков, внедрять собственный [[Вики/Evaluation\|evaluation]] на реальных данных, использовать [[Вики/dynamic benchmarks\|динамические бенчмарки]] и [[Вики…
wikiShadow mode
…Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…
wikidstat
…Применяется для профилирования производительности во время бенчмаркинга и отладки узких мест. ## Где встречается - [[13. Сравнить S3 vs EBS для checkpoint…
wikifio
# fio ## Определение Flexible I/O Tester — инструмент для бенчмаркинга дисковой подсистемы, позволяющий измерять задержки и пропускную способность. Часто применяется для…
wikicompute-bound
…для LLM]] - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…
wikiMemory Bandwidth
…long context]] - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…
wikiNCCL
…контексте LLM]] - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…
wikiCIFAR-10
# CIFAR-10 ## Определение Набор цветных изображений 32×32 для классификации на 10 классов; часто используется для бенчмаркинга и обучения моделей…
wikiFlash Attention 2
…Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…