Weights & Biases
Weights & Biases
Определение
логирование метрик, сравнение экспериментов, хранение артефактов
Где встречается
- 24. Какой размер датасета нужен для fine-tuning
- 33. Какие фреймворки для fine-tuning вы используете
- 34. Какая у вас была самая сложная проблема при fine-tuning и как вы её решили
- 35. Как вы fine-tune embedding модель под свой домен (а не используете готовую)
- 36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF
- 37. Как вы избегаете переобучения при fine-tuning на маленьком датасете
- 43. Как спроектировать агента, который может выполнять цепочку из 5-10 действий
- 49. Как вы дебажите агента, который делает неправильные действия
- 95. Как вы храните историю изменений промптов (prompt lineage)
- 106. Как вы валидируете, что DSPy-оптимизация действительно улучшила модель, а не просто переобучилась под метрику
- 139. Как вы оцениваете cost-effectiveness LLM-пайплайна
- 177. Как вы измеряете дрейф модели (model drift) для LLM
- 192. Как вы оцениваете качество language representation для задачи
- 272. Как вы проверяете качество parsing документов (PDF, DOCX) в production
- 337. Как вы проверяете, что RLHF не сломал базовые способности модели
- 344. Что такое reward hacking в RLHF и как его детектировать
- 361. Как работает CLIP и как training contrastive loss выравнивает текст и изображения
- 383. Что такое error budget для AI качества и как его считать
- 393. Как вы измеряете «cost of reasoning» у агента (не только токены, но и шаги, время, ошибки)
- 398. Как вы версионируете агента целиком (prompts, tools, memory schema, orchestration graph)
- 485. Как вы дебажите training instability (loss spikes, divergence)
- 578. Что такое agent evaluation метрика successful task completion rate vs step efficiency
- 616. Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)
- 664. Что такое vanishing exploding gradients в трансформерах и как их предотвратить
- 699. Как вы оцениваете, сколько синтетических данных нужно для fine-tuning (power analysis)
- 700. Как вы комбинируете реальные и синтетические данные для максимального качества
- 744. Что такое Agent Loop и какие компоненты входят в production-ready loop
- 759. Какие книги или ресурсы вы рекомендуете по Harness Engineering
- 779. Что такое «token budget» для агента и как его выставлять
- 785. Как тестировать агентов на недетерминированность
- 786. Что такое «golden dataset» для агента и как его создавать
- 797. Как тестировать промпты (prompt regression testing)
- 801. Как делать AB тестирование промптов в production
- 873. Как детектировать reward hacking в RLHF
- 880. Как проектировать golden dataset для agent evaluation
- 52. Настроить RWKV для инференса
- 54. Сравнить Hyena vs FlashAttention на 128k
- 56. Реализовать diffusion LLM (PLANNER)
- 57. Настроить recurrent memory для long context
- 63. Реализовать verifier-guided decoding