Поиск

  • wikiEvaluator

    …Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…

  • wikiCDNA3

    …Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…

  • wikiInfinity Fabric

    …Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…

  • wikiLogger

    …Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…

  • wikiMLPerf Inference

    …Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…

  • wikiZeroSCROLLS

    …Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…

  • wikiRCCL

    …Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…

  • wikiROCProfiler

    …Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…

  • wikiTqdm

    …Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…

  • wikiLong-context capability

    …Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…

  • wikiROCm

    …Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…

  • wikiAMD MI300X

    …Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…

  • wikiChi-squared test

    …Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…

  • wikiLongLoRA

    …Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…

  • wikiDashboard

    …Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…

  • wikiPosition Interpolation

    …Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…

  • wikiLongBench

    …Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…

  • wikiMann–Whitney U

    …Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…

  • wikiRULER

    …Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…

  • wikiSeaborn

    …Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…

  • wikiseed

    …Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…

  • wikiBenchmarks

    # Benchmarks ## Определение Benchmarks — набор тестов для измерения accuracy, fairness, robustness. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов…

  • wikiring attention

    …Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…

  • wikiNeedle in a Haystack

    …Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…

  • wikiQAMPARI

    # QAMPARI ## Определение Датасет для оценки faithfulness (фактологической точности) в многоабзацевых ответах, используется для бенчмаркинга моделей и систем. ## Где встречается - [[800…

  • wikidynamic benchmarks

    # dynamic benchmarks ## Определение То же, что dynamic benchmark: набор тестов, обновляемый со временем для предотвращения подстройки модели под конкретные задания…

  • wikiTruLens

    …Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…

  • wikiComposite score

    …Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…

  • wikiTransformer Engine

    …что использовать]] - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…

  • wikiEnron subset

    # Enron subset ## Определение Публичный датасет, содержащий выборку писем сотрудников Enron, часто используемый для тестирования и бенчмаркинга систем обработки email. ## Где…

  • wikiParquet

    …Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…

  • wikiYaRN

    …Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…

  • wikiApache Bench

    # Apache Bench ## Определение Инструмент для генерации нагрузки и бенчмаркинга HTTP-сервисов, применяемый для нагрузочного тестирования. ## Где встречается - [[24. Настроить RED…

  • wikisafety benchmarks

    # safety benchmarks ## Определение Стандартизированные тесты (например, TruthfulQA, BBQ) для измерения безопасности и непредвзятости модели. ## Где встречается - [[330. Что такое RLAIF…

  • wikiDirect I/O

    # Direct I/O ## Определение Режим ввода-вывода, обходящий кэш файловой системы, используется для бенчмаркинга производительности хранилищ. ## Где встречается - [[13. Сравнить…

  • wikiGIST1M

    # GIST1M ## Определение Датасет эмбеддингов размером 1 миллион векторов, используемый для бенчмаркинга алгоритмов приближённого поиска ближайших соседей (ANN). ## Где встречается - [[229…

  • wikiANN-benchmarks

    # ANN-benchmarks ## Определение Инструмент для бенчмаркинга алгоритмов ANN на пользовательских данных, позволяющий сравнивать скорость и точность. ## Где встречается - [[235. Как…

  • wikiGEMM

    …для LLM]] - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…

  • wikiJailbreakBench

    # JailbreakBench ## Определение Датасет известных jailbreak-атак, используемый для бенчмаркинга устойчивости моделей к обходу ограничений. ## Где встречается - [[497. Как вы проектируете…

  • wikiMIPRO

    …Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…

  • wikiClickHouse

    …Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…

  • answerЧто такое benchmark chasing и почему это опасно?

    …Решение — комбинировать несколько бенчмарков, внедрять собственный [[Вики/Evaluation\|evaluation]] на реальных данных, использовать [[Вики/dynamic benchmarks\|динамические бенчмарки]] и [[Вики…

  • wikiShadow mode

    …Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…

  • wikidstat

    …Применяется для профилирования производительности во время бенчмаркинга и отладки узких мест. ## Где встречается - [[13. Сравнить S3 vs EBS для checkpoint…

  • wikifio

    # fio ## Определение Flexible I/O Tester — инструмент для бенчмаркинга дисковой подсистемы, позволяющий измерять задержки и пропускную способность. Часто применяется для…

  • wikicompute-bound

    …для LLM]] - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…

  • wikiMemory Bandwidth

    …long context]] - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…

  • wikiNCCL

    …контексте LLM]] - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…

  • wikiCIFAR-10

    # CIFAR-10 ## Определение Набор цветных изображений 32×32 для классификации на 10 классов; часто используется для бенчмаркинга и обучения моделей…

  • wikiFlash Attention 2

    …Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)|627. Как вы тестируете long-context capability…