Knowledge Portal

aivaro.ru

  • Оглавление
  • Вопросы
  • Практика
  • Вики
  • Тесты
  • Поиск
✈Telegram @AetSeidhe
RUEN中文
…
Оглавление/Вики/Benchmarks

Benchmarks

Benchmarks

Определение

Benchmarks — набор тестов для измерения accuracy, fairness, robustness.

Где встречается

  • 800+ вопросов

Навигация

  • Индекс терминов
  • Индекс разборов
  • Оглавление

Теги

wikiтерминevaluation

Обратные ссылки (31)

  • Индекс терминов
  • Как бы вы спроектировали RAG-систему для 10 000 документов с разной структурой (PDF, Word, сканы, HTML, Excel)?
  • Как вы делаете retrieval для структурированных данных (SQL, Knowledge Graph)?
  • Как вы детектируете data contamination в evaluation датасетах?
  • Как вы оцениваете reasoning capability (не просто recall) на длинном контексте?
  • Как вы проверяете, что RLHF не сломал базовые способности модели?
  • Как вы проектируете dynamic benchmark (меняющийся со временем)?
  • Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)?
  • Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)?
  • Как вы тестируете long-context capability модели (бенчмарки: RULER, Needle in a Haystack)?
  • Как делать evaluation для long-context RAG (>100k токенов)?
  • Как избежать benchmark contamination (когда модель видела тестовые данные)?
  • Как оценивать multi-step agents (не только final answer)?
  • Как работает model extraction attack и как защититься?
  • Как работает model stealing attack (экстракция модели через API)?
  • Как работает tensor parallelism с FP8 в vLLM?
  • Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей?
  • Какие LLM для русского языка вы используете?
  • Какие книги или ресурсы вы рекомендуете по Harness Engineering?
  • Какой размер датасета нужен для fine-tuning?
  • Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)?
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать synthetic benchmark генератор
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить GPTQ vs AWQ на reasoning задачах
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить распределенные FS (Lustre, BeeGFS, JuiceFS)
  • Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации?
  • Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации?
  • Что такое IVF (Inverted File Index) и как он сравнивается с HNSW по speed/quality?
  • Что такое LiveIdeaBench и для чего он нужен?
  • Что такое benchmark chasing и почему это опасно?
  • Что такое benchmark contamination и как ее детектировать?
  • Что такое meta-evaluation бенчмарков (оценка оценки)?