Оглавление
Вопросы
Практика
Вики
Материалы сообщества
Тесты
Поиск

✈Telegram @ai_varo

…

Оглавление/Вики/Weights & Biases

Weights & Biases

Weights & Biases

Определение

логирование метрик, сравнение экспериментов, хранение артефактов

Где встречается

24. Какой размер датасета нужен для fine-tuning
33. Какие фреймворки для fine-tuning вы используете
34. Какая у вас была самая сложная проблема при fine-tuning и как вы её решили
35. Как вы fine-tune embedding модель под свой домен (а не используете готовую)
36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF
37. Как вы избегаете переобучения при fine-tuning на маленьком датасете
43. Как спроектировать агента, который может выполнять цепочку из 5-10 действий
49. Как вы дебажите агента, который делает неправильные действия
95. Как вы храните историю изменений промптов (prompt lineage)
106. Как вы валидируете, что DSPy-оптимизация действительно улучшила модель, а не просто переобучилась под метрику
139. Как вы оцениваете cost-effectiveness LLM-пайплайна
177. Как вы измеряете дрейф модели (model drift) для LLM
192. Как вы оцениваете качество language representation для задачи
272. Как вы проверяете качество parsing документов (PDF, DOCX) в production
337. Как вы проверяете, что RLHF не сломал базовые способности модели
344. Что такое reward hacking в RLHF и как его детектировать
361. Как работает CLIP и как training contrastive loss выравнивает текст и изображения
383. Что такое error budget для AI качества и как его считать
393. Как вы измеряете «cost of reasoning» у агента (не только токены, но и шаги, время, ошибки)
398. Как вы версионируете агента целиком (prompts, tools, memory schema, orchestration graph)
485. Как вы дебажите training instability (loss spikes, divergence)
578. Что такое agent evaluation метрика successful task completion rate vs step efficiency
616. Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)
664. Что такое vanishing exploding gradients в трансформерах и как их предотвратить
699. Как вы оцениваете, сколько синтетических данных нужно для fine-tuning (power analysis)
700. Как вы комбинируете реальные и синтетические данные для максимального качества
744. Что такое Agent Loop и какие компоненты входят в production-ready loop
759. Какие книги или ресурсы вы рекомендуете по Harness Engineering
779. Что такое «token budget» для агента и как его выставлять
785. Как тестировать агентов на недетерминированность
786. Что такое «golden dataset» для агента и как его создавать
797. Как тестировать промпты (prompt regression testing)
801. Как делать AB тестирование промптов в production
873. Как детектировать reward hacking в RLHF
880. Как проектировать golden dataset для agent evaluation
52. Настроить RWKV для инференса
54. Сравнить Hyena vs FlashAttention на 128k
56. Реализовать diffusion LLM (PLANNER)
57. Настроить recurrent memory для long context
63. Реализовать verifier-guided decoding

Навигация

Индекс терминов
Индекс разборов
Оглавление