датасеты
датасеты
Определение
Наборы данных (например, из Hugging Face Datasets), используемые для регрессионного тестирования, загрузки, обработки и fine-tuning LLM.
Где встречается
- 24. Какой размер датасета нужен для fine-tuning
- 28. Какие данные нужны для fine-tuning на кастомный стиль общения
- 32. Как вы подготовите датасет для fine-tuning, если у вас только неструктурированные диалоги с клиентами
- 34. Какая у вас была самая сложная проблема при fine-tuning и как вы её решили
- 102. Объясните концепцию «сигнатуры» (Signature) в DSPy. Чем она отличается от традиционного промпта
- 299. Как работает attention между слоями (cross-layer attention) в современных архитектурах
- 350. Как вы детектируете data contamination в evaluation датасетах
- 352. Что такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)
- 361. Как работает CLIP и как training contrastive loss выравнивает текст и изображения
- 488. Что такое benchmark contamination и как ее детектировать
- 514. Как вы генерируете synthetic данные для instruction tuning
- 523. Как вы делаете synthetic data generation для редких классов в датасете
- 675. Как работает dropout и зачем он нужен в LLM (regularization)
- 680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)
- 700. Как вы комбинируете реальные и синтетические данные для максимального качества
- 876. Как избежать evaluation overfitting (когда модель учится на тесте)
- 880. Как проектировать golden dataset для agent evaluation
- 800+ вопросов
- 26. Реализовать SLO для faithfulness
- 44. Настроить query expansion
- 60. Настроить гибрид (Mamba + Attention)
- 62. Настроить MCTS для математических задач
- 64. Настроить self-consistency для CoT
- 223. Fine-tune LoRA для стиля
- 230. RAG с DSPy оптимизацией
- 231. Agentic RAG с саморефлексией
- 235. LoRA для function calling
- 266. Сгенерировать synthetic датасет для RAG
- 267. Реализовать Evol-Instruct для instruction tuning
- 272. Настроить data augmentation для кода
- 277. Реализовать LLM-as-Judge с калибровкой
- 284. Настроить pairwise evaluation для моделей