Оглавление
Вопросы
Практика
Вики
Материалы сообщества
Тесты
Поиск

✈Telegram @ai_varo

…

Оглавление/Вики/датасеты

датасеты

датасеты

Определение

Наборы данных (например, из Hugging Face Datasets), используемые для регрессионного тестирования, загрузки, обработки и fine-tuning LLM.

Где встречается

24. Какой размер датасета нужен для fine-tuning
28. Какие данные нужны для fine-tuning на кастомный стиль общения
32. Как вы подготовите датасет для fine-tuning, если у вас только неструктурированные диалоги с клиентами
34. Какая у вас была самая сложная проблема при fine-tuning и как вы её решили
102. Объясните концепцию «сигнатуры» (Signature) в DSPy. Чем она отличается от традиционного промпта
299. Как работает attention между слоями (cross-layer attention) в современных архитектурах
350. Как вы детектируете data contamination в evaluation датасетах
352. Что такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)
361. Как работает CLIP и как training contrastive loss выравнивает текст и изображения
488. Что такое benchmark contamination и как ее детектировать
514. Как вы генерируете synthetic данные для instruction tuning
523. Как вы делаете synthetic data generation для редких классов в датасете
675. Как работает dropout и зачем он нужен в LLM (regularization)
680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)
700. Как вы комбинируете реальные и синтетические данные для максимального качества
876. Как избежать evaluation overfitting (когда модель учится на тесте)
880. Как проектировать golden dataset для agent evaluation
800+ вопросов
26. Реализовать SLO для faithfulness
44. Настроить query expansion
60. Настроить гибрид (Mamba + Attention)
62. Настроить MCTS для математических задач
64. Настроить self-consistency для CoT
223. Fine-tune LoRA для стиля
230. RAG с DSPy оптимизацией
231. Agentic RAG с саморефлексией
235. LoRA для function calling
266. Сгенерировать synthetic датасет для RAG
267. Реализовать Evol-Instruct для instruction tuning
272. Настроить data augmentation для кода
277. Реализовать LLM-as-Judge с калибровкой
284. Настроить pairwise evaluation для моделей

Навигация

Индекс терминов
Индекс разборов
Оглавление