目录
问题
实践
百科
社区资料
测试
搜索

✈Telegram @ai_varo

…

目录

中文翻译暂不可用，显示俄语原文。

Оглавление

Практика

Категория 1: Networking / Low-Level Systems

1. Развернуть NCCL бенчмарк на 2-8 GPU
2. Написать RDMA-читалку для KV cache
3. Профилировать NUMA влияние на latency
4. Настроить GPU Direct RDMA
5. Сравнить NCCL ring vs tree
6. Настроить NVLink topology для 8x GPU
7. Написать pinned memory аллокатор
8. Настроить InfiniBand partition keys
9. Профилировать network congestion на 64 GPU
10. Реализовать topology-aware scheduling

Категория 2: Storage Systems

11. Конвертировать датасет из JSONL в Parquet
12. Настроить mmap для embeddings
13. Сравнить S3 vs EBS для checkpoint'ов 70B
14. Реализовать WAL для векторной БД
15. Настроить tiered storage (hot/warm/cold)
16. Реализовать compaction в векторной БД
17. Настроить S3 consistency для RAG
18. Сравнить распределенные FS (Lustre, BeeGFS, JuiceFS)
19. Реализовать data locality scheduler
20. Настроить sharding для petabyte embeddings

Категория 3: Observability / Operability

21. Интегрировать OpenTelemetry в RAG
22. Настроить high-cardinality metrics в VictoriaMetrics
23. Реализовать distributed tracing для агента
24. Настроить RED metrics для LLM
25. Спроектировать structured logging для LLM
26. Реализовать SLO для faithfulness
27. Настроить tail latency amplification мониторинг
28. Создать runbook для инцидентов
29. Реализовать автоматический postmortem
30. Настроить correlation между метриками
251. Настроить дашборд в Grafana для LLM
252. Реализовать алертинг по faithfulness
253. Настроить логирование в ClickHouse
254. Реализовать SLO для RAG
255. Настроить correlation метрик

Категория 4: Cache Systems

31. Реализовать семантический кэш
32. Настроить Redis cluster с LFU eviction
33. Реализовать write-through cache для RAG
34. Настроить Bloom filter для retrieval
35. Реализовать cache stampede защиту
36. Настроить Redis с persistent storage
37. Реализовать sharded cache на 10+ нод
38. Настроить TTL для semantic cache
39. Реализовать cache warming
40. Настроить hot shard detection
256. Настроить LFU eviction в Redis
257. Реализовать cache invalidation
258. Настроить write-through cache
259. Реализовать Bloom filter для retrieval
260. Настроить TTL для semantic cache

Категория 5: Search / IR Theory

41. Реализовать BM25 с нуля
42. Настроить hybrid search с весами
43. Реализовать RRF (Reciprocal Rank Fusion)
44. Настроить query expansion
45. Реализовать learning-to-rank с LambdaMART
46. Настроить cross-encoder reranking
47. Реализовать query drift детекцию
48. Настроить click models для implicit feedback
49. Реализовать dense retrieval failure detection
50. Настроить contextual retrieval (Anthropic стиль)

Категория 6: Model Architectures

51. Развернуть Mamba-2 локально
52. Настроить RWKV для инференса
53. Реализовать selective scan (Mamba)
54. Сравнить Hyena vs FlashAttention на 128k
55. Настроить Mixture of Experts (Mixtral)
56. Реализовать diffusion LLM (PLANNER)
57. Настроить recurrent memory для long context
58. Реализовать latent reasoning (COCONUT)
59. Сравнить архитектуры на reasoning задачах
60. Настроить гибрид (Mamba + Attention)

Категория 7: Reasoning Models / Test-Time Compute

61. Реализовать Tree of Thoughts
62. Настроить MCTS для математических задач
63. Реализовать verifier-guided decoding
64. Настроить self-consistency для CoT
65. Реализовать process reward model
66. Настроить search-based inference (AlphaSearch)
67. Реализовать latent reasoning (∇-Reasoner)
68. Настроить inference-time scaling
69. Реализовать deliberate decoding
70. Сравнить CoT vs ToT vs MCTS на своем домене

Категория 8: Economics of AI Systems

71. Рассчитать cost per 1M tokens для разных моделей
72. Настроить capacity planning для GPU кластера
73. Сравнить spot vs on-demand для batch inference
74. Настроить auto-scaling для vLLM
75. Рассчитать ROI для fine-tuning
76. Настроить reserved instances для постоянной нагрузки
77. Реализовать cost-aware routing
78. Рассчитать TCO для self-hosted vs API
79. Настроить token economics для агентов
80. Реализовать cost attribution per feature

Категория 9: Human Factors / UX

81. Спроектировать uncertainty UI
82. Реализовать human-in-the-loop для критических действий
83. Спроектировать progressive disclosure
84. Реализовать conversational repair
85. Спроектировать escalation system
86. Реализовать user feedback loop
87. Спроектировать partial failure UI
88. Реализовать hallucination indicator
89. Спроектировать onboarding для агента
90. Реализовать user trust метрику

Категория 10: Failure Analysis & Postmortems

91. Написать postmortem для retrieval degradation
92. Профилировать GPU utilization падение
93. Настроить алерты на p99 latency spike
94. Реализовать failure injection для MoE router
95. Написать runbook для synthetic data collapse
96. Профилировать reranker negative effect
97. Настроить retrieval quality dashboard
98. Реализовать chaos testing для агента
99. Написать postmortem для cache stampede
100. Создать blameless postmortem культуру
261. Написать runbook для retrieval degradation
262. Настроить дашборд для failures
263. Реализовать автоматический postmortem
264. Настроить health checks для всех компонентов
265. Создать blameless postmortem template

Категория 11: Harness Engineering

101. Реализовать Agent Loop с нуля
102. Настроить Guardrails на NeMo
103. Интегрировать OpenTelemetry в агента
104. Реализовать Session Management с TTL
105. Настроить Memory (in-memory + vector)
106. Реализовать Tool System с JSON Schema
107. Настроить AdmissionController
108. Реализовать partial harnessing
109. Настроить cost tracking для агента
110. Реализовать quality gates для агента
111. Настроить drift detection для агента
112. Реализовать component registry
113. Собрать agentic mesh из 3 агентов
114. Настроить playground для тестирования агента
115. Написать runbook для агента

Категория 12: Delegation Engineering

116. Реализовать иерархическое делегирование
117. Настроить эскалацию человеку
118. Реализовать fallback-цепь (Агент А → Агент Б → человек)
119. Измерить cost делегирования
120. Реализовать delegation by exception
121. Настроить load balancing между агентами
122. Протестировать delegation paths
123. Реализовать rollback delegation
124. Настроить SLA между агентами
125. Реализовать market-based делегирование
126. Настроить человеческий фактор
127. Реализовать outsourcing другому LLM
128. Измерить KPD (коэффициент полезного делегирования)
129. Настроить monitoring delegation
130. Написать postmortem для неудачного делегирования

Категория 13: Cost Engineering

131. Рассчитать TCO RAG-системы на 1 год
132. Настроить cost tracking в production
133. Реализовать cost-aware routing
134. Настроить token budget для агента
135. Рассчитать ROI от fine-tuning
136. Настроить auto-scaling с учётом cost
137. Сравнить cost efficiency провайдеров
138. Реализовать semantic cache
139. Настроить cost attribution per feature
140. Рассчитать break-even point продукта
141. Настроить budgeting для команд
142. Реализовать cost-aware caching
143. Сравнить reserved vs spot vs on-demand
144. Настроить anomaly detection по cost
145. Сделать финансовую модель LLM-продукта

Категория 14: QA & Testing for Agents

146. Реализовать golden dataset для агента
147. Настроить property-based testing
148. Реализовать simulation testing
149. Настроить regression test suite
150. Реализовать canary deployment агента
151. Настроить trajectory coverage
152. Реализовать test generation для агента
153. Настроить chaos testing
154. Протестировать multi-turn диалоги
155. Реализовать tool testing изолированно
156. Настроить prompt regression suite
157. Интегрировать тестирование в CI/CD
158. Реализовать fuzzing для агента
159. Настроить A/B тестирование агентов
160. Написать test plan для агента

Категория 15: Prompt Management

161. Развернуть Prompt Registry
162. Настроить prompt as code
163. Реализовать A/B тестирование промптов
164. Настроить canary deployment промптов
165. Реализовать prompt linting
166. Настроить prompt observability
167. Реализовать dependency management промптов
168. Настроить templating (Jinja2)
169. Реализовать rollback промпта
170. Настроить version tagging
171. Реализовать prompt diff
172. Настроить regression testing промптов
173. Реализовать prompt lifecycle
174. Настроить prompt caching
175. Написать документацию промпта

Категория 16: Inter-Agent Communication

176. Развернуть message bus (NATS/Kafka)
177. Реализовать протокол A2A
178. Настроить exactly-once delivery
179. Реализовать actor model для агентов
180. Настроить rate limiting на сообщения
181. Реализовать dead letter queue для сообщений
182. Настроить schema evolution
183. Реализовать circuit breaker на вызовы агента
184. Настроить distributed tracing
185. Реализовать request-response vs fire-and-forget
186. Настроить message schema registry
187. Реализовать handshake при соединении агентов
188. Настроить monitoring сообщений
189. Реализовать compression сообщений
190. Написать тесты для меж-агентской коммуникации
191. Развернуть vLLM на 8 GPU с tensor parallelism
192. Настроить autoscaling для LLM сервера
193. Реализовать circuit breaker для LLM API
194. Настроить distributed tracing через OpenTelemetry
195. Реализовать blue-green deployment для RAG
196. Настроить backpressure в ingestion
197. Реализовать graceful degradation при отказе vector DB
198. Настроить multi-region active-passive
199. Реализовать distributed lock для обновления памяти
200. Настроить load shedding при перегрузке
201. Реализовать canary analysis
202. Настроить health checks для LLM
203. Реализовать retry storm mitigation
204. Настроить distributed DLQ для failed инференса
205. Настроить GPU scheduling для multi-tenant
206. Развернуть vLLM vs TGI, сравнить throughput
207. Настроить continuous batching в vLLM
208. Реализовать speculative decoding с draft моделью
209. Настроить AWQ quantization для LLM
210. Сравнить GPTQ vs AWQ на reasoning задачах
211. Реализовать prefix caching для system prompt
212. Настроить chunked prefill для long context
213. Настроить CUDA graphs для коротких запросов
214. Реализовать FP8 инференс на H100
215. Настроить expert parallelism для Mixtral
216. Профилировать memory fragmentation
217. Реализовать streaming с SSE
218. Настроить prompt caching (Anthropic style)
219. Сравнить inference schedulers (FCFS vs Priority)
220. Настроить wave decoding для коротких ответов

Категория 17: Distributed Systems for AI

(задачи не загружены)

Категория 18: Inference Optimization

(задачи не загружены)

Категория 19: Pet-Проекты

221. RAG на 100 PDF
222. Агент для email
223. Fine-tune LoRA для стиля
224. vLLM кластер на 4 GPU
225. Semantic cache для RAG
226. Multi-agent для планирования
227. RAG с гибридным поиском
228. Агент с памятью через векторную БД
229. Fine-tune embedding под домен
230. RAG с DSPy оптимизацией
231. Agentic RAG с саморефлексией
232. RAG с кэшированием ответов
233. Агент с human-in-the-loop
234. RAG с мультимодальными документами
235. LoRA для function calling
236. RAG с оценкой faithfulness
237. Агент с cost tracking
238. RAG с incremental update
239. Multi-tenant RAG с изоляцией
240. Агент с tree search (MCTS)
241. RAG с HyDE
242. Агент с delegated tools
243. RAG с cross-encoder reranking
244. Fine-tune QLoRA на 1 GPU
245. RAG с semantic chunking
246. Агент с наблюдаемостью (OpenTelemetry)
247. RAG с distributed tracing
248. Агент с A/B тестированием
249. RAG с cost-aware routing
250. Полный production агент

Вопросы

Основы RAG и retrieval (вопросы 1–50)

1. Как бы вы спроектировали RAG-систему для 10 000 документов с
2. Как вы решаете проблему «lost in the middle» при работе с дл
3. Какие стратегии chunking'а вы знаете и когда какую применяет
4. Какую векторную БД вы выберете для production-системы с >1 м
5. Как вы оцениваете качество retrieval'а в RAG-системе?
6. Что такое гибридный поиск и когда он нужен?
7. Как вы уменьшаете latency RAG-системы (время ответа)?
8. Как вы обрабатываете запросы, на которые нет ответа в докуме
9. Как вы обновляете документы в существующей RAG-системе?
10. Что такое Self-RAG и когда его использовать?
11. Что такое Hypothetical Document Embeddings (HyDE) и зачем?
12. Как вы фильтруете документы по метаданным в векторной БД?
13. Как вы загружаете 1000 документов в RAG максимально эффектив
14. Как вы обрезаете контекст, когда retrieved documents > конте
15. Какие embedding-модели вы использовали и почему?
16. Как вы оцениваете качество генерации в RAG? Назовите 3 ключе
17. Как вы уменьшаете галлюцинации в RAG?
18. Что такое Multi-vector retrieval и зачем он нужен?
19. Как вы храните историю диалога в RAG для multi-turn QA?
20. Как вы обеспечиваете, что RAG работает с документами на русс
21. Когда вы выбираете fine-tuning вместо RAG, а когда — наоборо
22. Какие методы fine-tuning вы знаете и какой используете чаще
23. Как вы подбираете гиперпараметры для LoRA?
24. Какой размер датасета нужен для fine-tuning?
25. Как вы оцениваете качество после fine-tuning?
26. Как вы предотвращаете catastrophic forgetting при fine-tunin
27. QLoRA vs LoRA — в чем разница и когда QLoRA лучше?
28. Какие данные нужны для fine-tuning на кастомный стиль общени
29. Как fine-tune модель для следования сложным инструкциям?
30. Как вы проверяете, что fine-tuned модель не сломала базовые
31. Что такое Parameter-Efficient Fine-Tuning (PEFT) и какие мет
32. Как вы подготовите датасет для fine-tuning, если у вас тольк
33. Какие фреймворки для fine-tuning вы используете?
34. Какая у вас была самая сложная проблема при fine-tuning и ка
35. Как вы fine-tune embedding модель под свой домен (а не испол
36. Что такое DPO (Direct Preference Optimization) и чем отличае
37. Как вы избегаете переобучения при fine-tuning на маленьком д
38. Как вы fine-tune модель для функции "вызов внешнего API"?
39. Сколько эпох достаточно для LoRA fine-tuning?
40. Как вы объединяете несколько LoRA адаптеров для разных задач
41. LangChain vs LlamaIndex vs Haystack — что выберете и почему?
42. Что такое LangGraph и зачем он нужен?
43. Как спроектировать агента, который может выполнять цепочку и
44. CrewAI vs AutoGen vs LangGraph — сравнение?
45. Как вы тестируете агентов? (сложно из-за стохастичности)
46. Какие инструменты (tools/functions) дать агенту для автомати
47. Что такое ReAct Agent и как он работает?
48. Как вы реализуете память агента (Memory) на разных уровнях?
49. Как вы дебажите агента, который делает неправильные действия
50. Как вы ограничиваете бесконечный цикл агента?

Embeddings и векторные базы данных (вопросы 51–120)

51. Как вы передаёте контекст между несколькими агентами (multi-
52. LangSmith — зачем и как используете?
53. Как вы проектируете промпт для агента с инструментами?
54. Что такое Semantic Kernel и чем отличается от LangChain?
55. Как вы измеряете стоимость (токены) агентской системы?
56. Как вы делаете агента "отказоустойчивым" (graceful degradati
57. Какие паттерны multi-agent систем вы знаете?
58. Как вы переносите агента из прототипа в production (MLOps)?
59. n8n, Make, Zapier — как вы интегрируете их с LLM?
60. Как вы обрабатываете ошибки агента (action не сработал, API
61. Как вы разворачиваете LLM в production (self-hosted)?
62. Какие метрики вы мониторите для LLM в production?
63. Как вы управляете разными версиями промптов в production?
64. Как вы обеспечиваете низкую задержку (<500ms) для LLM?
65. Как вы обрабатываете rate limiting от LLM провайдеров (OpenA
66. Как вы управляете контекстным окном (context window) для дли
67. Что такое Prompt Injection и как вы защищаетесь?
68. Как вы шифруете данные для RAG (конфиденциальность)?
69. Как вы организуете CI/CD для RAG-пайплайна?
70. Как вы снижаете стоимость LLM в production на 50%+?
71. Как вы тестируете RAG-систему на новых документах без реальн
72. OpenAI vs Антропик vs Groq vs Self-hosted — что выбираете?
73. Как вы логируете все вызовы LLM для аудита?
74. Как вы мониторите дрейф данных (data drift) для RAG?
75. Что такое structured output / constrained decoding и зачем э
76. Как вы делаете A/B тестирование двух моделей в production?
77. Как вы оптимизируете embedding генерацию для большого количе
78. Какие LLM для русского языка вы используете?
79. Как вы обновляете embedding модель без полной переиндексации
80. Какие 3 книги/курса вы рекомендуете по production LLM?
81. Как бы вы спроектировали систему для 1000 одновременных поль
82. Как бы вы спроектировали систему для реального времени (real
83. Как спроектировать систему, где LLM должна работать с конфид
84. Как бы вы спроектировали multi-tenant RAG (разные компании,
85. Как вы обрабатываете смену форматов документов (legacy + нов
86. Как вы решаете проблему “я знаю, что ответ есть в документах
87. Как вы обеспечиваете, чтобы ответы LLM были консистентными д
88. Как бы вы добавили "отмену" (cancellation) для длительных LL
89. Как вы спроектируете систему, которая может переключаться ме
90. Как вы проектируете API для внешних систем, использующих ваш
91. Что такое Semantic Caching и как вы его реализуете?
92. Зачем нужен embedding-as-a-service и когда вы его использует
93. Как вы дебажите проблему "LLM не следовала системному промпт
94. Как вы проектируете промпты, которые работают с разными моде
95. Как вы храните историю изменений промптов (prompt lineage)?
96. Как вы предотвращаете галлюцинации в production RAG системе?
97. Какую LLM вы выберете для "быстрых" (<200ms) простых задач к
98. Как вы документируете RAG-систему для команды?
99. Как вы планируете масштабирование команды вокруг LLM-системы
100. Что вы сделаете в первую неделю на новой работе Senior AI En
101. Что такое DSPy и какую проблему он решает, которую не решают
102. Объясните концепцию «сигнатуры» (Signature) в DSPy. Чем она
103. Какие оптимизаторы (teleprompters) в DSPy вы использовали и
104. Как вы интегрируете DSPy с RAG-пайплайном? Приведите пример
105. Когда DSPy не подходит? Назовите 3 сценария.
106. Как вы валидируете, что DSPy-оптимизация действительно улучш
107. Объясните концепцию «программируемых промптов» (DSPy program
108. Что такое Assertions в DSPy и зачем они нужны?
109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в
110. Какое будущее у DSPy? Вытеснит ли он LangChain в 2026-2027?
111. Чем мультимодальный RAG отличается от «OCR + текстовый RAG»?
112. Как вы извлекаете логические отношения из диаграммы, а не
113. Как вы представляете граф знаний из изображения для LLM?
114. Что такое Layout-Aware Chunking и как он связан с мультимода
115. Как вы обрабатываете большие таблицы в RAG (500+ строк)?
116. Как вы индексируете видео-контент в RAG-системе?
117. Какие embedding-модели для мультимодального поиска вы исполь
118. Как вы проверяете, что LLM правильно «понял» диаграмму, а не
119. Как вы комбинируете текстовый и визуальный поиск (early fusi
120. Как быть, если одно и то же изображение встречается в докуме

Chunking и обработка данных (вопросы 121–180)

121. Назовите OWASP Top 10 для LLM (2025) и 3 самых критичных рис
122. Что такое Indirect Prompt Injection через RAG и как защитить
123. Как вы защищаете RAG-систему от утечки данных между клиентам
124. Что такое модель «Least Privilege» для AI-агентов и как её р
125. Объясните разницу между NeMo Guardrails и Garak. Когда что и
126. Что такое MITRE ATLAS и как он связан с MITRE ATT&CK?
127. Как вы проводите red teaming LLM-приложения? Назовите 3 техн
128. Что такое Model Poisoning в контексте RAG и как защититься?
129. Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-
130. Что такое Constitutional AI и как оно применяется в производ
131. Каковы 3 главных bias-эффекта LLM-as-Judge и как их детектир
132. Как вы калибруете LLM-судью под человеческие оценки?
133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.
134. Как вы оцениваете faithfulness RAG-ответа в production автом
135. Что такое Path-level evaluation для Agentic RAG и чем оно лу
136. Как вы A/B тестируете две версии промпта в production?
137. Как вы измеряете drift retrieval-качества в RAG (когда докум
138. Что такое «оценка с подкреплением» (RLHF evaluation) и как о
139. Как вы оцениваете cost-effectiveness LLM-пайплайна?
140. Как вы проверяете, что новая версия модели не сломала старые
141. В чем разница между Naive RAG, Adaptive RAG и Agentic RAG?
142. Как вы проектируете «планировщика» (planner) для Agentic RAG
143. Как вы боретесь с «бесконечным циклом» агента в Agentic RAG?
144. Как вы передаете состояние (state) между шагами агента?
145. LangGraph vs CrewAI vs AutoGen — что вы выберете и для каких
146. Как вы обеспечиваете «человека в петле» (HITL) для критическ
147. Как вы логируете и дебажите многошаговые агенты?
148. Как вы измеряете стоимость агента в production (не только то
149. Как спроектировать агента, который может самоисправляться (s
150. Как вы переключаете агента между инструментами (function cal
151. Что такое тест-тайм компьютинг (Test-Time Compute) и чем он
152. В чем разница между Chain-of-Thought (CoT) и Latent Reasonin
153. Что такое ∇-Reasoner (nabla-reasoner) и как он использует гр
154. Как масштабируется тест-тайм компьютинг? Есть ли закон dimin
155. Что такое Recurrent Depth в контексте LLM и зачем это нужно?
156. Как вы выбираете между увеличением тест-тайм компьютинга и и
157. Какие есть методы ускорения тест-тайм компьютинга? (KV-cache
158. Что такое EAGLE-3 и чем он отличается от стандартного specul
159. Как speculative decoding взаимодействует с KV cache?
160. Что такое Variational Speculative Decoding (VSD) и чем он ре
161. Как вы измеряете эффективность speculative decoding?
162. Что такое Quasar и как quantized verification ускоряет инфер
163. Как вы деплоите speculative decoding в production?
164. Какие trade-offs между разными архитектурами speculative dec
165. Как тест-тайм компьютинг меняет MLOps?
166. Назовите 7 production failure modes для agentic AI систем по
167. Как вы детектируете Distribution Collapse у агента?
168. Что такое «Tool Degradation with Availability Masking» и как
169. Как вы измеряете объяснимость (explainability) агентских реш
170. Что такое GIM (Grounded Integration Measure) и чем он отлича
171. Что такое IRT (Item Response Theory) и как она применяется к
172. Что такое LiveIdeaBench и для чего он нужен?
173. Как вы оцениваете креативность LLM в production?
174. Что такое «многошаговая когерентность» (coherence illusion)
175. Как детектировать «объяснительно-решенческую декомпозицию»?
176. Какие инструменты для агентской эвалюации вы используете?
177. Как вы измеряете дрейф модели (model drift) для LLM?
178. Чем отличается эвалюация LLM от эвалюации традиционных ML мо
179. Как вы A/B тестируете агентов в production?
180. Какие failure modes уникальны для multi-agent систем (vs sin

Оценка качества и метрики (вопросы 181–250)

181. В чем проблема «natural language bottleneck» для LLM?
182. Что такое «схема» (schema) в контексте LLM и как она связана
183. Назовите 4 уровня языкового представления по Yang et al. (20
184. Почему естественный язык не подходит для сложного рассуждени
185. Как код как язык представления улучшает рассуждение LLM?
186. Что такое «shaping schema through language representation»?
187. Как язык промпта (русский vs английский) влияет на схему рас
188. Что такое «Schema-Activated In-Context Learning» (SA-ICL)?
189. Как вы проектируете language representation для сложной зада
190. Как вы комбинируете несколько языков представления в одном п
191. Какие типы задач требуют Level 3 представления (scientific f
192. Как вы оцениваете качество language representation для задач
193. Что такое «Clone-Structured Causal Graphs» (CSCG) и как они
194. Как вы строите DSL (Domain-Specific Language) для вашей LLM-
195. Как вы проверяете, что модель действительно использует струк
196. Как language representation связан с тест-тайм компьютингом?
197. Как вы переключаете между уровнями представления для разных
198. Какие ограничения у language representation design?
199. Как вы combine language representation с DSPy?
200. Что вы видите следующим горизонтом после language representa
201. Что такое continuous batching и как оно отличается от static
202. Как работает paged attention в vLLM? Чем это отличается от с
203. Tensor parallelism vs pipeline parallelism vs data paralleli
204. Что такое FlashAttention-3 и какие improvements он принес по
205. Как вы деплоите LLM с requirement <100ms latency при through
206. Что такое KV cache reuse в multi-turn диалогах и как его реа
207. Как работает scheduler в vLLM? Какие алгоритмы выбора запрос
208. Что такое prefix caching и когда он эффективен?
209. GGUF vs GPTQ vs AWQ — сравнение форматов квантизации для лок
210. Что такое chunked prefill и зачем он нужен?
211. Как вы измеряете и оптимизируете TTFT (Time To First Token)
212. Как работает speculative decoding с несколькими draft моделя
213. Что такое Guided Decoding и как оно связано с JSON schema?
214. Как вы реализуете streaming в production с учетом network li
215. Что такое Wave Decoding и чем отличается от стандартного авт
216. Как вы делаете load testing для LLM endpoint? Какие метрики
217. Как вы управляете memory fragmentation при длительном раннин
218. Как работает continuous batching в TGI (Hugging Face Text Ge
219. Что такое prompt caching у провайдеров (Anthropic, Google) и
220. Как вы выбираете между online и batch инференсом для LLM?
221. Как работает HNSW (Hierarchical Navigable Small World) алгор
222. Что такое IVF (Inverted File Index) и как он сравнивается с
223. Как работает Product Quantization (PQ) для сжатия векторов?
224. OPQ (Optimized Product Quantization) vs PQ — в чем разница?
225. Как вы выбираете параметры HNSW (M, ef_construction, ef_sear
226. Что такое Filtered ANN Search и как оно реализовано в Qdrant
227. ScaNN (Google) vs HNSW — сравнение для больших масштабов (>1
228. Как работает DiskANN и когда он нужен?
229. Как вы измеряем recall@k для ANN индекса и какой порог accep
230. Что такое Hierarchical Navigable Small World + IVF (HNSW+IVF
231. Как вы обновляете ANN индекс при добавлении новых векторов б
232. Что такое Memory-optimized ANN и какие алгоритмы лучшие для
233. Как вы делаете hybrid search (vector + keyword) в production
234. Что такое Learned Index Structures for ANN? Новые подходы 20
235. Как вы выбираете ANN алгоритм под ваш use case (volume, dime
236. Как вы проектируете RAG для 10k RPS с P99 latency <200ms? Ар
237. Что такое circuit breaker и как он применяется к LLM API выз
238. Как вы реализуете retry с exponential backoff для LLM API с
239. Что такое idempotency в контексте LLM API и зачем она нужна?
240. Как вы проектируете dead letter queue для failed LLM инферен
241. Как вы делаете distributed tracing для цепочки: user → gatew
242. Как вы проектируете graceful shutdown для LLM serving pod в
243. Как вы делаете blue-green deployment для RAG системы с zero
244. Как вы проектируете backpressure в LLM serving системе?
245. Как вы делаете cache invalidation для semantic cache при обн
246. Что такое sidecar pattern для LLM observability и как его ре
247. Как вы проектируете multi-region active-active для LLM API?
248. Что такое rate limiting на разных уровнях (user, API key, IP
249. Как вы делаете load shedding при перегрузке LLM сервера?
250. Как вы делаете health check для LLM сервера с учетом модели

Fine-tuning и обучение (вопросы 251–350)

251. Как вы деплоите LLM на spot instances в облаке?
252. Что такое Kafka compaction для логов LLM взаимодействий?
253. Как вы делаете асинхронную обработку long-running (>30s) LLM
254. Как вы проектируете disaster recovery для LLM системы при сб
255. Как вы управляете секретами (API keys для LLM) в Kubernetes?
256. Как вы проектируете ETL пайплайн для 1M документов/день в RA
257. Как вы дедуплицируете документы перед индексацией в RAG?
258. Что такое weak supervision для разметки данных для fine-tuni
259. Как вы генерируете synthetic данные для instruction tuning?
260. Как вы отслеживаете data drift для распределения запросов к
261. Как вы управляете качеством разметки (label quality) для DPO
262. Как вы проектируете feature store для ML фичей, используемых
263. Как вы обрабатываете PII в данных для RAG (GDPR, 152-ФЗ)?
264. Как вы делаете backfill эмбеддингов при смене embedding моде
265. Как вы проектируете data lineage для RAG (от документа к отв
266. Как вы делаете incremental ingestion для часто меняющихся до
267. Что такое data version control (DVC) для RAG корпуса докумен
268. Как вы делаете synthetic data generation для редких классов
269. Как вы обрабатываете streaming данные для real-time RAG?
270. Как вы управляете cost хранения векторной БД при миллиарде в
271. Как вы делаете schema evolution для метаданных документов в
272. Как вы проверяете качество parsing документов (PDF, DOCX) в
273. Как вы обрабатываете corrupted или empty документы в ingesti
274. Как вы проектируете feature engineering для контекста RAG (к
275. Как вы делаете data quality monitoring для RAG корпуса?
276. Как работает attention математически (Q, K, V) и как вычисли
277. Что такое multi-query attention (MQA) и grouped-query attent
278. Как работает RoPE (Rotary Position Embedding) и чем лучше аб
279. Что такое SwiGLU и почему он используется вместо ReLU в совр
280. Как работает RMSNorm (Root Mean Square Normalization) и чем
281. Что такое sliding window attention и зачем он в Mistral?
282. Как работает MoE (Mixture of Experts) внутри LLM (Mixtral, G
283. Что такое selective attention в контексте long context обраб
284. Как работают современные tokenizers (BPE, Unigram, SentenceP
285. Как вы анализируете embedding geometry для отладки retrieval
286. Как вы детектируете и фиксите attention sinks в длинных конт
287. Как работает градиентный анализ для объяснения решений LLM?
288. Как вы тестируете видение модели (vision-language) на пропущ
289. Как работает speculative decoding на уровне логитов, а не то
290. Что такое Chain-of-Thought без токенов (latent CoT) и как эт
291. Как вы измеряете uncertainty в ответах LLM (logit-based vs e
292. Как работает temperature sampling и как он влияет на качеств
293. Что такое Top-p (nucleus) sampling и как он сочетается с tem
294. Как вы калибруете вероятности LLM для classification задач?
295. Что такое logit lens и как он помогает понимать внутренние п
296. Как работает извлечение знаний (knowledge editing) из LLM бе
297. Что такое representation engineering (RepE) и зачем он нужен
298. Как вы тестируете robustness LLM к adversarial input (не тол
299. Как работает attention между слоями (cross-layer attention)
300. Как вы сравниваете две LLM архитектуры не по accuracy, а по
301. Как устроена иерархия памяти GPU (Global, L2, Shared, Regist
302. Что такое warp divergence в CUDA и как он влияет на attentio
303. Как работают Tensor Cores в H100/B200 и для чего они нужны?
304. Что такое FlashAttention с точки зрения CUDA programming?
305. Как вы профилируете GPU utilization для LLM serving (nsys, n
306. Что такое NCCL и зачем он для tensor parallelism?
307. Как PCIe bottleneck проявляется в multi-GPU инференсе?
308. Как работают CUDA streams и как они помогают оверлапить comp
309. Что такое kernel fusion и как он применяется в LLM serving?
310. Как вы читаете профиль Nsight Systems для поиска bottlenecks
311. Что такое CUDA graphs и как они ускоряют LLM инференс?
312. Как работает FP8 quantization на H100 (Transformer Engine)?
313. Как вы диагностируете, что проблема в memory bandwidth, а не
314. Как работает NVLink Switch System на DGX H100?
315. Что такое MIG (Multi-Instance GPU) и когда он полезен для LL
316. Как работает Torch Compile (torch.compile) и в чем его огран
317. Что такое MLIR и как он используется в IREE/TensorRT-LLM?
318. TensorRT-LLM vs vLLM — сравнение для production deployment.
319. Как работает XLA (Accelerated Linear Algebra) для LLM на TPU
320. Что такое ONNX Runtime и когда он выгоден для LLM?
321. Как работает graph optimization в LLM компиляторах (constant
322. Что такое operator fusion в компиляторах и какие паттерны fu
323. Как вы деплоите LLM с TensorRT-LLM в production?
324. Что такое TVM (Apache TVM) и зачем он нужен для AI инференса
325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA)
326. Как работает RLHF (Reinforcement Learning from Human Feedbac
327. Что такое PPO (Proximal Policy Optimization) и почему он исп
328. GRPO (Group Relative Policy Optimization) vs PPO — чем отлич
329. Как обучается reward model для RLHF и как избегать reward ha
330. Что такое RLAIF (RL from AI Feedback) и как он масштабируетс
331. Как вы измеряете quality RLHF модели вне стандартных бенчмар
332. Как работает KL penalty в RLHF и как подобрать коэффициент?
333. Что такое preference data collection и как минимизировать bi
334. Как вы делаете online RL для агентов (self-improvement loops
335. Как работает Direct Preference Optimization (DPO) в деталях
336. Что такое KTO (Kahneman-Tversky Optimization) и чем отличает
337. Как вы проверяете, что RLHF не сломал базовые способности мо
338. Как вы деплоите policy (RLHF модель) в production с online f
339. Как работает алгоритм ReST (Reinforced Self-Training) и когд
340. Что такое Constitutional AI и как RLHF связан с ним?
341. Как вы проектируете бенчмарк для нового домена (медицина, юр
342. Что такое statistical power evaluation и как определять разм
343. Как вы измеряете и исправляете bias в LLM-as-Judge (self-enh
344. Что такое reward hacking в RLHF и как его детектировать?
345. Как вы проектируете red teaming evaluation для jailbreak уст
346. Что такое meta-evaluation бенчмарков (оценка оценки)?
347. Как вы оцениваете alignment модели с человеческими ценностям
348. Что такое calibration ошибок модели и как ее измерять (ECE,
349. Как вы проводите A/B тест метрик качества (не бизнес-метрик)
350. Как вы детектируете data contamination в evaluation датасета

LLM инференс и оптимизация (вопросы 351–450)

351. Как работает model stealing attack и как защититься?
352. Что такое jailbreak taxonomy (OOD, refusal suppression, role
353. Как работает embedding poisoning для RAG и как защититься?
354. Что такое adversarial retrieval (атака на retrieval компонен
355. Как вы защищаете LLM от градиентных атак (white-box jailbrea
356. Что такое data poisoning атака на fine-tuning и как защитить
357. Как работает membership inference атака на LLM?
358. Что такое watermarking для LLM генераций и как его детектиро
359. Как вы защищаете multi-agent систему от вредоносного агента?
360. Что такое adversarial fine-tuning для защиты от jailbreak?
361. Как работает CLIP и как training contrastive loss выравнивае
362. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V?
363. Как работает Whisper (architecture, tokenization, training)
364. Как вы строите real-time voice agent с latency <500ms?
365. Как работает мультимодальное выравнивание (alignment) в моде
366. Как вы делаете RAG для видео (индексация subshots, аудио, кл
367. Что такое Q-Former в BLIP-2 и зачем он нужен?
368. Как вы оцениваете мультимодальную модель на hallucinations (
369. Как работает diffusion backends для генерации изображений в
370. Как вы проектируете систему для real-time video understandin
371. Что такое LambdaMART и как он используется для reranking в R
372. Как вы строите двухступенчатый ретривал (fast ANN + slow cro
373. Что такое learning-to-rank (LTR) и как он применяется к retr
374. Как вы делаете query rewriting и query expansion в RAG?
375. Как вы калибруете retrieval confidence для threshold-based f
376. Что такое hybrid search с весами (weighted hybrid) и как опт
377. Как вы делаете retrieval для структурированных данных (SQL,
378. Как работает многогранный (faceted) поиск в RAG с фильтрами?
379. Как вы оцениваете retrieval с учетом позиции (Position-aware
380. Что такое semantic ranking на основе embeddings (вторая стад
381. Как вы определяете SLO и SLA для LLM сервиса?
382. Как вы проектируете canary deployment для LLM модели?
383. Что такое error budget для AI качества и как его считать?
384. Как вы проводим chaos engineering для RAG системы?
385. Как вы автоматизируете rollback при деградации качества?
386. Как вы обрабатываете production incident с LLM (playbook)?
387. Как вы делаем multi-region failover с RTO <5 минут?
388. Что такое SLI (Service Level Indicators) для AI системы и ка
389. Как вы делаем disaster recovery с RPO <1 минута?
390. Как вы проектируем on-call ротацию для AI сервиса?
391. Как вы проектируете агента, который может работать непрерывн
392. Что такое «agentic mesh» (сеть взаимодействующих агентов) и
393. Как вы измеряете «cost of reasoning» у агента (не только ток
394. Как вы делаете агента «забывающим» (для GDPR / privacy compl
395. Как вы тестируете агента на «неожиданные input» (не только a
396. Как вы проектируете «человека в петле» для multi-agent систе
397. Как вы делаете агента, который может «просить помощи» у друг
398. Как вы версионируете агента целиком (prompts, tools, memory
399. Как вы делаете A/B тест между двумя агентами с разными архит
400. Как вы проектируете систему для continuous learning LLM-аген
401. Как работает tensor parallelism для LLM инференса? В чем отл
402. Что такое NCCL и почему он критичен для multi-GPU инференса?
403. Как вы проектируете RAG для 10k RPS с P99 latency <200ms? Ар
404. Что такое circuit breaker и как он применяется к LLM API выз
405. Как вы реализуете retry с exponential backoff для LLM API с
406. Что такое idempotency в контексте LLM API и зачем она нужна?
407. Как вы проектируете dead letter queue для failed LLM инферен
408. Как вы делаете distributed tracing для цепочки: user → gatew
409. Как вы проектируете graceful shutdown для LLM serving pod в
410. Как вы делаете blue-green deployment для RAG системы с zero
411. Как вы проектируете backpressure в LLM serving системе?
412. Как вы делаете cache invalidation для semantic cache при обн
413. Что такое sidecar pattern для LLM observability и как его ре
414. Как вы проектируете multi-region active-active для LLM API?
415. Что такое rate limiting на разных уровнях (user, API key, IP
416. Как вы делаете load shedding при перегрузке LLM сервера?
417. Как вы делаете health check для LLM сервера с учетом модели
418. Как вы деплоите LLM на spot instances в облаке?
419. Что такое Kafka compaction для логов LLM взаимодействий?
420. Как вы делаете асинхронную обработку long-running (>30s) LLM
421. Как вы проектируете disaster recovery для LLM системы при сб
422. Как вы управляете секретами (API keys для LLM) в Kubernetes?
423. Как работает tensor parallelism для LLM training? Чем отлича
424. Что такое pipeline parallelism и проблема pipeline bubbles?
425. Как работает sequence parallelism в контексте LLM?
426. Что такое 3D parallelism (data + tensor + pipeline)?
427. Как вы дебажите медленную меж-GPU коммуникацию в multi-node
428. Как вы проектируете Kafka топологии для RAG ingestion?
429. Что такое end-to-end backpressure в LLM пайплайне и как его
430. Как вы делаете canary analysis для новой LLM модели?
431. Почему LLM inference memory-bound, а не compute-bound?
432. Как работает FlashAttention-3 технически? Чем отличается от
433. Почему KV cache растет линейно с длиной контекста и как это
434. Как работает grouped-query attention (GQA) и как trade-off s
435. Почему MoE (Mixture of Experts) быстрее dense модели при инф
436. В чем разница между prefill и decode stage в LLM инференсе?
437. Почему decode stage плохо batchится?
438. Что такое continuous batching? Как реализовано в vLLM?
439. Как работает PagedAttention в vLLM внутренне?
440. Как работает speculative decoding? Как выбрать draft модель?
441. EAGLE-3 vs Medusa-2 vs Hydra: сравнение speculative decoding
442. Что такое prefix caching и когда он эффективен?
443. GGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инфе
444. Почему 4-bit inference иногда медленнее 8-bit?
445. Как вы измеряете TTFT (Time To First Token) и TPOT (Time Per
446. Что такое chunked prefill и зачем он нужен?
447. Как работает scheduler в vLLM? Какие алгоритмы выбора запрос
448. Что такое KV cache reuse в multi-turn диалогах и как его реа
449. Как вы делаете streaming в production с учетом network limit
450. Что такое Wave Decoding и чем отличается от стандартного авт

Агенты и архитектуры (вопросы 451–550)

451. Как вы делаете load testing для LLM endpoint? Какие метрики
452. Как вы управляете memory fragmentation при длительном раннин
453. Как работает continuous batching в TGI (Hugging Face Text Ge
454. Что такое prompt caching у провайдеров (Anthropic, Google) и
455. Как вы выбираете между online и batch инференсом для LLM?
456. Что такое Medusa (multiple heads) для speculative decoding?
457. Как работает quantization-aware scaling в AWQ для защиты важ
458. Что такое FP8 инференс на H100 (Transformer Engine)?
459. Как вы дебажите низкую GPU utilization (например, 40% на A10
460. Как работает tensor parallelism с FP8 в vLLM?
461. Почему training 70B модели требует optimizer sharding (ZeRO-
462. ZeRO-1 vs ZeRO-2 vs ZeRO-3: что и когда использовать?
463. Что такое activation recomputation (checkpointing) и зачем о
464. Почему BF16 лучше FP16 для training?
465. Как работает gradient checkpointing в DeepSpeed?
466. Что такое curriculum learning для LLM и как его реализовать?
467. Что такое packing sequences и зачем он нужен?
468. Почему small batch size (<32) ухудшает training стабильность
469. Как работает Mixed Precision Training (FP16 + FP32 master ве
470. Что такое DeepSpeed ZeRO-Offload и когда он полезен?
471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch?
472. Почему gradient accumulation эквивалентен большому batch с т
473. Что такое torch.compile и как он ускоряет training?
474. Как работает FlashAttention для training (не только inferenc
475. Почему tokenizer влияет на стоимость training?
476. Как работает packing для variable-length sequences в FSDP?
477. Что такое curriculum learning на уровне данных для LLM?
478. Как работает distributed optimizer в PyTorch (torch.distribu
479. Что такое activation offloading и когда он нужен?
480. Как работает selective activation recomputation?
481. Что такое LoRA для training (инференс уже знаем)?
482. Как работает QLoRA (Quantized LoRA) для training?
483. Как работает DoRA (Weight-Decomposed LoRA) и чем лучше LoRA?
484. Что такое ReFT (Representation Fine-Tuning) и когда он лучше
485. Как вы дебажите training instability (loss spikes, divergenc
486. Почему LLM-as-Judge может быть biased? Назовите 3 основных b
487. Что такое calibration ошибок модели и как ее измерять (ECE,
488. Что такое benchmark contamination и как ее детектировать?
489. Что такое reward hacking в RLHF и как его детектировать?
490. Как вы проектируете бенчмарк для нового домена (медицина, юр
491. Что такое statistical power evaluation и как определять разм
492. Как вы измеряете inter-rater reliability для human evaluatio
493. Что такое Positional bias в LLM-as-Judge и как его исправить
494. Что такое synthetic eval collapse и как его предотвратить?
495. Что такое pairwise comparison vs scalar rating? Когда что ис
496. Что такое reward correlation и как ее измерять?
497. Как вы проектируете red teaming evaluation для jailbreak уст
498. Что такое meta-evaluation бенчмарков (оценка оценки)?
499. Как вы оцениваете alignment модели с человеческими ценностям
500. Как вы измеряете uncertainty в ответах LLM (logit-based vs e
501. Что такое Path-level evaluation для Agentic RAG и чем оно лу
502. Как вы A/B тестируете две версии промпта в production?
503. Как вы измеряете drift retrieval-качества в RAG (когда докум
504. Как вы оцениваете cost-effectiveness LLM-пайплайна?
505. Как вы проверяете, что новая версия модели не сломала старые
506. Что такое IRT (Item Response Theory) и как она применяется к
507. Что такое calibration в контексте reward model для RLHF?
508. Как вы оцениваете faithfulness без ground truth (если нет пр
509. Как вы сравниваете две модели, если у них разная latency (бы
510. Что такое benchmark chasing и почему это опасно?
511. Как вы проектируете ETL пайплайн для 1M документов/день в RA
512. Как вы дедуплицируете документы перед индексацией в RAG?
513. Что такое weak supervision для разметки данных для fine-tuni
514. Как вы генерируете synthetic данные для instruction tuning?
515. Как вы отслеживаете data drift для распределения запросов к
516. Как вы управляете качеством разметки (label quality) для DPO
517. Как вы проектируете feature store для ML фичей, используемых
518. Как вы обрабатываете PII в данных для RAG (GDPR, 152-ФЗ)?
519. Как вы делаете backfill эмбеддингов при смене embedding моде
520. Как вы проектируете data lineage для RAG (от документа к отв
521. Как вы делаете incremental ingestion для часто меняющихся до
522. Что такое data version control (DVC) для RAG корпуса докумен
523. Как вы делаете synthetic data generation для редких классов
524. Как вы обрабатываете streaming данные для real-time RAG?
525. Как вы управляете cost хранения векторной БД при миллиарде в
526. Как вы делаете schema evolution для метаданных документов в
527. Как вы проверяете качество парсинга документов (PDF, DOCX) в
528. Как вы обрабатываете corrupted или empty документы в ingesti
529. Как вы проектируете feature engineering для контекста RAG (к
530. Как вы делаете data quality monitoring для RAG корпуса?
531. Как вы делаете active learning loop для улучшения retrieval?
532. Что такое data contract между сервисами в RAG пайплайне?
533. Как вы обрабатываете real-time фичи для LLM (например, текущ
534. Как вы делаете data quality для синтетических датасетов?
535. Как вы проектируете векторную БД с миллиардом векторов при о
536. Как работает CLIP (Contrastive Language-Image Pre-training)
537. Что такое SigLIP и чем отличается от CLIP?
538. Как работает vision encoder в GPT-4V / LLaVA?
539. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V?
540. Как работает Q-Former в BLIP-2 и зачем он нужен?
541. Как вы делаете RAG для изображений (image retrieval without
542. Как вы парсите сложные PDF с таблицами и графиками (не прост
543. Как работает Whisper архитектурно для ASR (Automatic Speech
544. Как вы строите real-time voice agent с latency <500ms?
545. Как работает мультимодальное выравнивание (alignment) в моде
546. Как вы индексируете видео-контент в RAG-системе?
547. Как вы оцениваете мультимодальную модель на галлюцинации (PO
548. Что такое diffusion backends для генерации изображений (Stab
549. Как вы проектируете систему для real-time video understandin
550. Как работает OCR для RAG? Недостатки и когда его недостаточн

Production и MLOps (вопросы 551–650)

551. Как работает AudioLM и MusicGen для генерации аудио?
552. Как вы делаете image captioning для RAG (извлечение описания
553. Что такое LayoutLMv3 и зачем он для document understanding?
554. Как вы делаем image retrieval по тексту с высокой точностью?
555. Как работает мультимодальный RAG с unified retrieval (один и
556. Как вы делаете extraction таблиц из PDF для RAG?
557. Как работает Zero-shot classification для изображений (CLIP
558. Как вы делаете video summarization для RAG (вход — длинное в
559. Что такое Audio RAG (RAG для аудиофайлов)?
560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL
561. Как вы проектируете multimodal RAG для диаграмм (flowchart,
562. Как работает whisper.cpp для локального ASR с low latency?
563. Как вы делаете image retrieval с фильтрацией по метаданным (
564. Как работает модели типа Kosmos-2 (grounding объектов на изо
565. Как вы делаем retrieval для изображений с защитой авторских
566. Почему агенты деградируют на длинных horizon (более 10 шагов
567. Что такое planner/executor architecture для агентов и когда
568. Как работает Toolformer-like обучение для агентов (self-supe
569. Что такое reflection loops для агентов и как они работают?
570. Что такое tree search agents (MCTS for LLM) и когда они эффе
571. Как работают verifier models для agentic RAG и зачем они нуж
572. Что такое trajectory optimization для агентов и как ее реали
573. Как вы предотвращаете tool overuse (когда агент вызывает API
574. Что такое memory corruption в агентах и как его детектироват
575. Как работает hierarchical planning для агентов (разбивка на
576. Что такое skill libraries для агентов и как их создавать?
577. Как вы делаете agent robustness к adversarial instructions (
578. Что такое agent evaluation метрика: successful task completi
579. Как работает agent replay для улучшения качества (анализ fai
580. Как вы делаем agent with theory of mind (понимание намерений
581. Что такое multi-agent debate и как он улучшает качество отве
582. Как работает agent self-improvement через self-reflection on
583. Как вы делаете agent с bounded rationality (ограниченные выч
584. Что такое agent distillation (обучение маленького агента на
585. Как вы делаете agent robustness к missing API (когда инструм
586. Что такое agent state management (состояние агента между выз
587. Как работает agent with external tool verification (проверка
588. Что такое agent explanation fidelity (насколько объяснение с
589. Как вы делаете agent с human values alignment (Constitutiona
590. Как работает multi-agent with role specialization (агенты-эк
591. Что такое agent communication protocol (формат сообщений меж
592. Как вы делаете agent with iterative refinement (улучшение от
593. Как работает agent handover (передача задачи другому агенту)
594. Что такое agent safety constraints (ограничения на действия
595. Как вы делаете agent evaluation на длинных horizon (100+ шаг
596. Как работает model stealing attack (экстракция модели через
597. Что такое jailbreak taxonomy (OOD, refusal suppression, role
598. Как работает embedding poisoning для RAG и как защититься?
599. Что такое adversarial retrieval (атака на retrieval компонен
600. Как вы защищаете LLM от градиентных атак (white-box jailbrea
601. Что такое data poisoning атака на fine-tuning и как защитить
602. Как работает membership inference атака на LLM?
603. Что такое watermarking для LLM генераций и как его детектиро
604. Как вы защищаете multi-agent систему от вредоносного агента?
605. Что такое adversarial fine-tuning для защиты от jailbreak?
606. Как работает prompt leakage (кража системного промпта) и как
607. Что такое sandbox escape для AI-агента и как защититься?
608. Как работает model inversion атака (восстановление training
609. Как вы защищаете RAG от document injection (вредоносные доку
610. Что такое malicious embeddings (атака через векторные БД)?
611. Как работает adversarial example для embedding моделей (атак
612. Что такое data exfiltration через LLM (утечка данных через о
613. Как работает model watermarking для LLM (идентификация модел
614. Как вы защищаете LLM от prompt injection через RAG (когда до
615. Что такое adversarial patch для vision-language моделей (физ
616. Как работает rainbow teaming (комбинация red + blue + purple
617. Как вы защищаете агента от tool injection (вредоносный API о
618. Что такое jailbreak as a service (коммерческие jailbreak сер
619. Как работает LLM fingerprinting (идентификация модели по отв
620. Что такое differential privacy для LLM и как она работает?
621. Как вы защищаете LLM от prompt injection через изображения (
622. Как работает membership inference через logits (разница в ве
623. Что такое secure aggregation для федеративного обучения LLM?
624. Как вы защищаете RAG от data poisoning через неявные инструк
625. Что такое adversarial prompt detection для реального времени
626. Как работают современные long-context LLM (GPT-4 1M, Claude
627. Как вы тестируете long-context capability модели (бенчмарки:
628. Что такое attention sink и почему он возникает в длинных кон
629. Как работает sliding window attention в Mistral и Longformer
630. Как работает RoPE (Rotary Position Embeddings) для экстрапол
631. Как вы делаете длинный контекст для RAG (100k+ токенов в кон
632. Как работает Infini-attention (Google, 2024) для бесконечног
633. Как вы оцениваете reasoning capability (не просто recall) на
634. Что такое "lost in the middle" и как это связано с attention
635. Как работает RAPTOR (иерархическое суммирование для длинного
636. Как вы проектируете промпт для long context рассуждения (CoT
637. Что такое Chain-of-Thought без токенов (latent CoT, COCONUT)
638. Как работает ∇-Reasoner (градиентный спуск в пространстве то
639. Как вы делаете model selection для long context (какая модел
640. Как работает Multi-query attention (MQA) для long context?
641. Что такое grouped-query attention (GQA) как компромисс для l
642. Как вы реализуете KV cache для 1M токенов на 8x H100?
643. Как работает YaRN (Yet another RoPE extensioN) для увеличени
644. Как вы оцениваете faithfulness ответа на длинном контексте (
645. Что такое hierarchical retrieval для long context RAG (когда
646. Как работает attention с линейной сложностью (Linformer, Per
647. Как вы делаете long context для code generation (модель долж
648. Что такое streaming LLM для бесконечного контекста (техника
649. Как вы измеряете reasoning degradation с ростом контекста? (
650. Что такое memory-efficient attention для long context на 8x

Безопасность и мониторинг (вопросы 651–750)

651. Как работает attention математически? Выведите формулу scale
652. Почему в формуле attention нужно делить на √d_k? Что будет б
653. Что такое position encoding? RoPE vs абсолютные позиции vs о
654. Как работает LayerNorm и RMSNorm? В чем разница и почему RMS
655. Что такое SwiGLU и почему он лучше ReLU в LLM?
656. Как работает кросс-энтропия (cross-entropy loss) для LLM обу
657. Что такое KL divergence и где она применяется в LLM (RLHF, d
658. Как работает perplexity и как ее интерпретировать? Связь с c
659. Что такое Adam optimizer и как работают его параметры (β1, β
660. Что такое gradient clipping и зачем он нужен при обучении LL
661. Как работает softmax и почему он вызывает проблемы с градиен
662. Что такое logits и как они связаны с вероятностями? temperat
663. Как работает обратное распространение (backpropagation) в тр
664. Что такое vanishing / exploding gradients в трансформерах и
665. Как работает инициализация весов в LLM (Xavier, Kaiming, поч
666. Что такое FP16, BF16, FP8, INT8 quantization? Когда что испо
667. Как работает FlashAttention математически (tiling, recomputa
668. Что такое индуктивные biases трансформеров? (positional inva
669. Как работает связь между SGD и Adam? Почему Adam лучше для L
670. Что такое loss landscape LLM и как оно влияет на обучение (s
671. Как работает эмбеддинг слой и почему его размер (embedding d
672. Что такое residual connections и зачем они нужны в трансформ
673. Как работает нормализация перед attention (pre-norm) vs посл
674. Что такое logit lens (интерпретация скрытых состояний)?
675. Как работает dropout и зачем он нужен в LLM? (regularization
676. Что такое residual stream и как он связан с информационным п
677. Как работает forward pass LLM: от токена до вероятности след
678. Как работает greedy decoding vs beam search vs sampling?
679. Что такое repetition penalty и как он работает?
680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг а
681. Как вы генерируете синтетический датасет для instruction tun
682. Как вы оцениваете качество синтетических данных? (Self-consi
683. Что такое data augmentation для LLM (back-translation, parap
684. Как вы генерируете hard negative примеры для retrieval обуче
685. Как вы детектируете и удаляете низкокачественные примеры из
686. Как работает synthetic data для RLHF (предпочтения)?
687. Как вы делаете synthetic eval (генерация тестовых вопросов п
688. Что такое synthetic data collapse (когда синтетические данны
689. Как вы проектируете dynamic benchmark (меняющийся со времене
690. Как вы измеряете diversity синтетического датасета?
691. Как вы делаем synthetic data для редких языков (не английски
692. Что такое curriculum learning for synthetic data (обучение н
693. Как вы обнаруживаете contamination (пересечение synthetic да
694. Как работает weak supervision для synthetic данных (создание
695. Как вы делаете synthetic data для multi-turn диалогов (агент
696. Что такое active learning для сбора синтетических данных?
697. Как вы масштабируете синтетическую генерацию до миллионов пр
698. Как вы делаете synthetic data для сложного рассуждения (math
699. Как вы оцениваете, сколько синтетических данных нужно для fi
700. Как вы комбинируете реальные и синтетические данные для макс
701. Как работает warp scheduling на NVIDIA GPU и как это влияет
702. Что такое memory coalescing и почему оно важно для attention
703. Как работает L1/L2 cache hierarchy в A100/H100 и как ее испо
704. Что такое bank conflicts в shared memory и как их избежать?
705. Как работает Tensor Core microarchitecture (WGMMA, MMA инстр
706. Что такое TMA (Tensor Memory Accelerator) в H100 и как он ус
707. Как работает asynchronous execution на Hopper (copy engine v
708. Что такое MIG (Multi-Instance GPU) и как настроить для разны
709. NVIDIA Grace Hopper: CPU-GPU unified memory, как это меняет
710. Бенчмаркинг LLM на AMD MI300X vs H100: различия в архитектур
711. Как работает speculative execution на GPU для LLM (branch pr
712. Что такое Cooperative Groups в CUDA и как использовать для a
713. Как работает Mamba (State Space Model) и чем она лучше транс
714. RWKV (RNN with Transformer attention): как комбинирует RNN и
715. Hyena: как заменить attention на свертки, сохранив качество?
716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформе
717. Почему трансформеры до сих пор побеждают SSM на большинстве
718. Что такое Test-Time Training (TTT) слои и как они работают?
719. Как проектировать аукцион для allocation вычислительных ресу
720. Что такое mechanism design для multi-agent systems и как при
721. Как предотвращать collusion (сговор) между агентами в децент
722. Что такое VCG auction (Vickrey-Clarke-Groves) и как он обесп
723. Как моделировать экономику агентов с ограниченными бюджетами
724. Что такое emergent specialization в multi-agent systems (аге
725. Как проектировать reputation system для агентов в децентрали
726. Как предотвращать free-riding в multi-agent системе (агенты
727. Как LLM применяются для protein folding (AlphaFold 3, ESM3)?
728. Что такое AI for materials science (GNoME, MatterGen) и как
729. Как LLM используются для code generation с формальной верифи
730. Что такое LLM для symbolic regression (AI Feynman) и как это
731. Как комбинировать LLM с симуляторами физики (digital twins)?
732. Что такое EU AI Act и как оно влияет на деплой LLM в product
733. Как выполнять requirement on transparency (статья 13 EU AI A
734. Что такое model cards и system cards и как их составлять?
735. Как проводить safety case для LLM системы (аналог safety cas
736. Что такое red teaming certification (стандарты 2026 для оцен
737. Что такое Harness Engineering и чем он отличается от Prompt
738. Назовите 12+ слоёв эталонной архитектуры Harness.
739. Как изменилась роль инженера с приходом Harness Engineering?
740. Что такое Context Engineering в рамках Harness и почему это
741. Что такое Partial Harnessing (частичное управление)?
742. В чем разница между Workflow и Guidance в теории harness-eng
743. Какие есть типичные failure modes в harness-engineering (ove
744. Что такое Agent Loop и какие компоненты входят в production-
745. Что такое AgentPool и Handoff в multi-agent orchestration?
746. Что такое Safety & Guardrails как слой Harness? Чем runtime
747. Что такое AdmissionController в Harness и зачем он нужен?
748. Как в Harness Engineering реализована эвалюация и дрейф (eva
749. Что такое Session Management в Harness и какие стратегии (TT
750. Как устроена Memory в Harness (in-memory, fs, vector stores,

Специализированные темы (вопросы 751–900)

751. Что такое Tool System в Harness (defineTool, registry, JSON
752. Как Harness Engineering помогает решить проблему "гарантий и
753. Что такое Coordination Engineering и чем он отличается от Ha
754. Как Harness Engineering связан с наблюдаемостью (OpenTelemet
755. Что такое эволюция (evolution) в Harness Engineering (compon
756. Как выглядит process operational excellence в Harness Engine
757. Какие инструменты и фреймворки существуют для Harness Engine
758. Как вы проектируете Harness для mission-critical приложения?
759. Какие книги или ресурсы вы рекомендуете по Harness Engineeri
760. Что такое Delegation Engineering и чем он отличается от Harn
761. Какие паттерны делегирования существуют (hierarchical, peer-
762. Что такое «эскалация человеку» (human escalation) и как её п
763. Как проектировать fallback-цепи (агент А → агент Б → человек
764. Что такое graceful degradation в multi-agent системах?
765. Как измерять «стоимость делегирования» (токены + время + ден
766. Что такое delegation by exception (делегирование только по и
767. Как проектировать SLA между агентом-менеджером и агентами-ис
768. Что такое «ротация агентов» (load balancing между агентами)?
769. Как тестировать delegation paths (интеграционное тестировани
770. Что такое «откат делегирования» (rollback delegation) при ош
771. Как проектировать delegation с учётом человеческого фактора
772. Что такое «аутсорсинг» задачи другому LLM (с другим API, дру
773. Как измерять «коэффициент полезного делегирования» (сколько
774. Какие инструменты для Delegation Engineering существуют (Air
775. Что такое Cost Engineering для LLM-систем?
776. Как считать TCO (Total Cost of Ownership) для RAG/Agent сист
777. Что такое «cost per good answer» и как его измерять?
778. Как проектировать cost-aware routing (дешёвая модель для про
779. Что такое «token budget» для агента и как его выставлять?
780. Как измерять ROI от fine-tuning (окупается ли дообучение бол
781. Как проектировать auto-scaling с учётом cost (spot vs on-dem
782. Что такое «cost attribution» (какой компонент сколько стоит)
783. Как сравнивать cost efficiency разных LLM провайдеров?
784. Как строить финансовую модель LLM-продукта для бизнеса?
785. Как тестировать агентов на недетерминированность?
786. Что такое «golden dataset» для агента и как его создавать?
787. Как делать property-based testing для агентов?
788. Что такое «simulation testing» (тестирование в симулированно
789. Как тестировать multi-turn диалоги агента?
790. Что такое «canary testing» для агентов (10% трафика на новую
791. Как тестировать fallback и graceful degradation?
792. Что такое «regression testing» для агентов (старый кейс слом
793. Как тестировать инструменты агента (tool testing изолированн
794. Что такое «test coverage» для агента (покрытие траекторий, а
795. Как автоматизировать test generation для агента?
796. Что такое «chaos testing» для агента (внезапно API вернул ош
797. Как тестировать промпты (prompt regression testing)?
798. Как тестировать промпты на регрессии (prompt regression suit
799. Как интегрировать тестирование агентов в CI/CD?
800. Что такое Prompt Registry (каталог промптов с версиями)?
801. Как делать A/B тестирование промптов в production?
802. Что такое «prompt as code» (промпты в Git, code review)?
803. Как делать canary deployment для промптов (5% трафика)?
804. Как делать rollback промпта (auto-rollback при деградации ме
805. Что такое «prompt linting» (статический анализ промптов)?
806. Как управлять dependency между промптами (один промпт вызыва
807. Что такое «prompt observability» (мониторинг эффективности п
808. Что такое «prompt templating» и как его версионировать?
809. Как управлять версиями промптов в production (best practices
810. Какие протоколы меж-агентской коммуникации существуют (A2A,
811. Что такое «message bus» для агентов (Kafka, NATS, Redis PubS
812. Как обеспечивать exactly-once delivery между агентами?
813. Что такое «actor model» для агентов (Akka, Orleans)?
814. Как проектировать rate limiting на уровне сообщений?
815. Что такое «dead letter queue» для сообщений агентов?
816. Как обеспечивать backward compatibility при изменении проток
817. Что такое «message schema evolution» (Avro/Protobuf)?
818. Как проектировать request-response vs fire-and-forget для аг
819. Что такое «circuit breaker» на уровне меж-агентских вызовов?
820. Как масштабировать vLLM на несколько GPU/нод?
821. Как избежать hot shard в Qdrant (или другой векторной БД)?
822. Что делать, если embedding pipeline отстаёт от ingestion (ba
823. Как проектировать AI pipeline с at-least-once семантикой?
824. Как организовать distributed tracing для agent pipeline?
825. Что такое autoscaling inference и как его настроить?
826. Как организовать GPU scheduling для multi-tenant LLM serving
827. Какие есть стратегии распределённого кэширования для LLM (Re
828. Как проектировать distributed locking для LLM agents?
829. Что такое rate limiting на уровне API Gateway для LLM?
830. Как проектировать retry storm mitigation (защита от лавинных
831. Как проектировать graceful degradation при отказе vector DB?
832. Как проектировать graceful degradation при отказе LLM API?
833. Как организовать multi-region active-passive для LLM API?
834. Как учитывать CAP theorem в AI systems?
835. Как проектировать distributed dead letter queue для сообщени
836. Почему vLLM быстрее TGI (Hugging Face Text Generation Infere
837. Как работает paged attention? (детально)
838. Как speculative decoding ускоряет inference? (детально)
839. Чем AWQ отличается от GPTQ?
840. Когда tensor parallelism хуже pipeline parallelism?
841. Как устроен KV cache? Почему он bottleneck?
842. Как работает prefix caching и prompt caching у провайдеров?
843. Что такое continuous batching и как оно влияет на throughput
844. Как работает FlashAttention-3 математически?
845. Как работают CUDA graphs и когда их использовать?
846. Как дебажить memory fragmentation в LLM сервере?
847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsand
848. Как работает динамическое бэтчирование в TGI vs vLLM?
849. Что такое expert parallelism для MoE моделей (Mixtral)?
850. Как работают inference schedulers (FCFS, Priority, Fairness)
851. Как строить streaming RAG pipeline (real-time ingestion)?
852. Как обрабатывать schema drift в данных для RAG?
853. Как организовать feature store для AI (Feast, Hopsworks)?
854. Почему Kafka лучше RabbitMQ для event streaming?
855. Как проектировать CDC (Change Data Capture) для документов?
856. Как организовать data versioning (DVC, LakeFS, Delta Lake)?
857. Как реализовать online/offline feature consistency для LLM?
858. Как проектировать ETL vs ELT для RAG?
859. Как организовать streaming feature pipelines для real-time R
860. Как обеспечивать exactly-once semantics в Kafka для embeddin
861. Как проектировать data contracts для RAG пайплайна?
862. Как делать feature engineering для RAG (кроме текста)?
863. Как проектировать Airflow DAG для RAG ingestion?
864. Как обрабатывать late-arriving data в ingestion?
865. Как проектировать schema registry для метаданных RAG?
866. Как генерировать synthetic датасеты для RAG evaluation?
867. Как делать adversarial evals для RAG (проверка на устойчивос
868. Что такое red teaming для LLM и как его проводить?
869. Как избежать benchmark contamination (когда модель видела те
870. Как работает LLM-as-judge и почему он biased?
871. Как делать pairwise ranking для сравнения моделей?
872. Что такое calibration для LLM и как её измерять (ECE)?
873. Как детектировать reward hacking в RLHF?
874. Как оценивать multi-step agents (не только final answer)?
875. Как делать synthetic eval datasets для agentic workflows?
876. Как избежать evaluation overfitting (когда модель учится на
877. Как работает process reward model (PRM) vs outcome reward mo
878. Как измерять faithfulness для long-form ответов (1000+ токен
879. Как делать evaluation для long-context RAG (>100k токенов)?
880. Как проектировать golden dataset для agent evaluation?
881. Что такое jailbreak taxonomy (полная классификация)?
882. Как происходит tool poisoning (атака через инструменты агент
883. Как защитить RAG от poisoning (вредоносные документы в базе
884. Как работает model extraction attack и как защититься?
885. Как происходит PII leakage через LLM и как защититься?
886. Как делать sandboxing для agent tools (изоляция выполнения)?
887. Как проектировать agent permissions (least privilege модель)
888. Как защититься от prompt stealing (кража системного промпта)
889. Как детектировать и предотвращать vector DB poisoning?
890. Как тестировать robustness LLM к adversarial inputs?
891. Что такое planner-executor архитектура для агентов?
892. Как работают verifier models для agentic RAG?
893. Как работает tree search (MCTS) для LLM агентов?
894. Как работает memory compression для агентов (long-term memor
895. Как оптимизировать траектории агента (trajectory optimizatio
896. Как сделать агента самовосстанавливающимся (self-healing)?
897. Как работают agent swarms (рой агентов)?
898. Как работает Toolformer (обучение агента использованию инстр
899. Что такое DSPy в контексте агентов?
900. Как работают browser agents и computer use agents (Claude Co

Классический NLP и обработка русского языка (вопросы 901–950)

901. Что такое pymorphy2 и Natasha? В чем разница между морфологическим
902. Объясните разницу между стеммингом и лемматизацией. Приведите приме
903. Что такое NER (Named Entity Recognition)? Как извлекать организации
904. Какие типы NER существуют (BIO, BIOES, span-based)? В чем проблема
905. Как вы оцениваете качество модели NER? Почему micro-F1 и macro-F1 м
906. Что такое RE (Relation Extraction)? Приведите пример: как извлечь п
907. Объясните задачу Coreference Resolution. Зачем она нужна в RAG-сист
908. Какие подходы к суммаризации текста вы знаете? Чем extractive отлич
909. Что такое метрика ROUGE (ROUGE-1, ROUGE-2, ROUGE-L)? Как она считае
910. Что такое BLEU? Почему он плохо подходит для суммаризации на русско
911. Что такое Word2Vec (CBOW и Skip-gram) и fastText? Чем отличаются от
912. Что такое TF-IDF и BM25? Почему BM25 до сих пор используется в гибр
913. Как работает scikit-learn для классификации текстов (TfidfVectorize
914. Объясните задачу Text Classification (Sentiment, Topic, Intent). Ка
915. Что такое Multilabel Classification (в отличие от Multiclass)? Каку
916. Что такое Zero-shot Classification на базе NLI (Natural Language In
917. Что такое Few-shot Classification для NLP? Какие подходы существуют
918. Какие библиотеки для русского NLP вы знаете? (pymorphy2, Natasha, D
919. Как вы парсите сложные PDF с таблицами и колонками? Назовите инстру
920. Как работает LayoutLMv3? Почему он лучше, чем просто OCR + BERT, дл
921. Как вы очищаете текст от шума (HTML-теги, спецсимволы, стоп-слова)
922. Что такое Language Model с точки зрения вероятности последовательно
923. Что такое Perplexity (PPL)? Как интерпретировать значение 100 или 5
924. Как обучается Word2Vec? Объясните Negative Sampling и иерархический
925. Что такое GloVe? Чем отличается от Word2Vec (матричные разложения v
926. Что такое Sparse Vector vs Dense Vector в контексте NLP? Назовите п
927. Как работает Byte-Pair Encoding (BPE) в токенизаторах GPT? Решите п
928. Что такое SentencePiece и чем он отличается от BPE (например, в мод
929. Как токенизируются редкие слова (out-of-vocabulary) с помощью BPE и
930. Как влияет размер словаря токенизатора на количество параметров мод
931. Что такое Sequence-to-Sequence (Seq2Seq) модели? Чем архитектура T5
932. Объясните Attention как взвешенную сумму. Зачем нужна маска (paddin
933. Что такое Teacher Forcing при обучении декодера? В чем проблема Exp
934. Как работают рекуррентные нейросети (RNN, LSTM, GRU)? Почему трансф
935. В чем проблема Vanishing Gradient в RNN и как LSTM её решает?
937. Как спроектировать систему Intent Detection для чат-бота на русском
938. Как вы делаете Data Augmentation для текста (back-translation, EDA,
939. Как вы собираете датасет для классификации интентов (согласование р
940. Что такое Active Learning для NLP? Как уменьшить стоимость разметки
941. Что такое Text Augmentation с помощью LLM (генерация парафраз, изме
942. Как вы проверяете, что модель не переобучилась на конкретном авторе
943. Что такое Explainable AI (XAI) для NLP (LIME, SHAP, Attention Visua
944. Как вы дебажите, почему классификатор ошибся на конкретном примере
945. Как работает CRF (Conditional Random Field) сверху BiLSTM для NER?
946. Что такое Transformer-XL? Как решает проблему ограниченного контекс
947. Как извлекать ключевые фразы (keyword extraction) из текста без LLM
948. Что такое Topic Modeling (LDA, BERTopic)? Как найти темы в большой
949. Как работает Text Similarity через эмбеддинги (cosine similarity) п
950. Как спроектировать систему поиска ответов на вопросы (QA) на основе

Агенты и архитектуры (вопросы 936–936)

936. Как вы храните историю чата для long-term памяти агента (сжатие, су

Fine-Tuning и PEFT для LLM (вопросы 951–980)

951. Что такое Fine-tuning LLM? Чем отличается от обучения с нуля (pre-t
952. Что такое LoRA (Low-Rank Adaptation)? Объясните математическую идею
953. Как выбрать rank (r) в LoRA? Что будет при слишком маленьком или сл
954. Чем отличается LoRA от Adapter-слоев (Houlsby et al.)?
955. Что такое QLoRA? Как 4-bit NormalFloat (NF4) quantization и Double
956. Что такое P-tuning и Prefix Tuning? Как они отличаются от LoRA (обу
957. Что такое (IA)^3 (Infused Adapter by Inhibiting and Amplifying Inne
958. Как объединить несколько LoRA адаптеров для разных доменов (LoRA Hu
959. Как деплоить несколько LoRA адаптеров без перезагрузки базовой моде
960. Как вы подбираете гиперпараметры для LoRA (learning rate, batch siz
961. Что такое Parameter-Efficient Fine-Tuning (PEFT)? Назовите 3 метода
962. Как fine-tune модель для Function Calling (tool use)? Какую структу
963. Какие данные нужны для fine-tuning на инструкции (instruction tunin
964. Как вы генерируете синтетический датасет для instruction tuning (Se
965. Как вы проверяете качество синтетических данных (LLM-as-Judge, чело
966. Что такое Catastrophic Forgetting при fine-tuning? Как его предотвр
967. Как вы бенчмарките fine-tuned модель: на удержанном датасете, на ou
968. Какой размер датасета нужен для LoRA (тысячи, десятки тысяч примеро
969. Как вы fine-tune embedding модель под свой домен? (sentence-transfo
970. Как вы fine-tune reranker (cross-encoder) для RAG? Как генерировать
971. Что такое Distillation для LLM? Как обучить маленькую модель (stude
972. Что такое Quantization-Aware Training (QAT)? Чем отличается от Post
973. Какие фреймворки для fine-tuning вы используете? (Hugging Face PEFT
974. Как вы логируете и отслеживаете эксперименты по fine-tuning (MLflow
975. Какую функцию потерь использовать для fine-tuning на диалогах (Cros
976. Как вы делаете fine-tuning на последовательностях разной длины (pac
977. Как вы оцениваете, окупился ли fine-tuning? Расчет ROI: стоимость о
978. Как вы тонко настраиваете (fine-tune) модель для "стиля речи" (акад
979. Что такое ReFT (Representation Fine-Tuning)? Чем отличается от LoRA
980. Как сделать fine-tuning модели на 1 млн токенов контекста (например

RLHF, Alignment и Reward модели (вопросы 981–1000)

981. Что такое RLHF (Reinforcement Learning from Human Feedback) в 3 шаг
982. Для чего нужен этап Supervised Fine-Tuning (SFT) перед RLHF? Что бу
983. Как собирать preference data для RLHF? (A/B сравнение ответов, rank
984. Как обучается Reward Model (RM)? Вход: (prompt, answer_chosen, answ
985. Что такое Bradley-Terry model в контексте обучения Reward Model? Ка
986. Как работает PPO (Proximal Policy Optimization) для LLM? Объясните:
987. Что такое KL penalty в PPO? Зачем ограничивать новую модель от стар
988. Почему DPO (Direct Preference Optimization) проще PPO? В чем разниц
989. Что такое GRPO (Group Relative Policy Optimization)? Как он отличае
990. Как работает ReST (Reinforced Self-Training)? Чем отличается от PPO
991. Как оценивать качество Reward Model (accuracy, calibration, ROC-AUC
992. Что такое reward hacking? Приведите пример: как модель может обману
993. Как вы боретесь с reward hacking? (ансамбли RM, regularization, adv
994. Что такое Constitutional AI? Как использовать правила (constitution
995. Как вы проверяете, что RLHF улучшил модель на целевых задачах, но н
996. Как деплоить RLHF-модель в production? (A/B тест с SFT-моделью, мон
997. Что такое RLAIF (RL from AI Feedback)? Как масштабировать RLHF с по
998. Как работает DPOP (Dual Policy Optimization)? Когда он лучше DPO (р
999. Как собрать preference датасет для задачи reasoning (математика, ло
1000. Как test-time compute связан с RLHF? Можно ли заменить дообучение

Оглавление сгенерировано автоматически.