面试问题

共 1000 篇解析

1. Как бы вы спроектировали RAG-систему для 10 000 документов с разной структурой (PDF, Word, сканы, HTML, Excel)?
2. Как вы решаете проблему «lost in the middle» при работе с длинными контекстами?
3. Какие стратегии chunking'а вы знаете и когда какую применяете?
4. Какую векторную БД вы выберете для production-системы с >1 млн векторов?
5. Как вы оцениваете качество retrieval'а в RAG-системе?
6. Что такое гибридный поиск и когда он нужен?
7. Как вы уменьшаете latency RAG-системы (время ответа)?
8. Как вы обрабатываете запросы, на которые нет ответа в документах?
9. Как вы обновляете документы в существующей RAG-системе?
10. Что такое Self-RAG и когда его использовать?
11. Что такое Hypothetical Document Embeddings (HyDE) и зачем?
12. Как вы фильтруете документы по метаданным в векторной БД?
13. Как вы загружаете 1000 документов в RAG максимально эффективно?
14. Как вы обрезаете контекст, когда retrieved documents > контекстного окна LLM?
15. Какие embedding-модели вы использовали и почему?
16. Как вы оцениваете качество генерации в RAG? Назовите 3 ключевые метрики.
17. Как вы уменьшаете галлюцинации в RAG?
18. Что такое Multi-vector retrieval и зачем он нужен?
19. Как вы храните историю диалога в RAG для multi-turn QA?
20. Как вы обеспечиваете, что RAG работает с документами на русском и английском одновременно?
21. Когда вы выбираете fine-tuning вместо RAG, а когда — наоборот?
22. Какие методы fine-tuning вы знаете и какой используете чаще всего?
23. Как вы подбираете гиперпараметры для LoRA?
24. Какой размер датасета нужен для fine-tuning?
25. Как вы оцениваете качество после fine-tuning?
26. Как вы предотвращаете catastrophic forgetting при fine-tuning?
27. QLoRA vs LoRA — в чем разница и когда QLoRA лучше?
28. Какие данные нужны для fine-tuning на кастомный стиль общения?
29. Как fine-tune модель для следования сложным инструкциям?
30. Как вы проверяете, что fine-tuned модель не сломала базовые способности?
31. Что такое Parameter-Efficient Fine-Tuning (PEFT) и какие методы вы знаете?
32. Как вы подготовите датасет для fine-tuning, если у вас только неструктурированные диалоги с клиентами?
33. Какие фреймворки для fine-tuning вы используете?
34. Какая у вас была самая сложная проблема при fine-tuning и как вы её решили?
35. Как вы fine-tune embedding модель под свой домен (а не используете готовую)?
36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF?
37. Как вы избегаете переобучения при fine-tuning на маленьком датасете?
38. Как вы fine-tune модель для функции "вызов внешнего API"?
39. Сколько эпох достаточно для LoRA fine-tuning?
40. Как вы объединяете несколько LoRA адаптеров для разных задач?
41. LangChain vs LlamaIndex vs Haystack — что выберете и почему?
42. Что такое LangGraph и зачем он нужен?
43. Как спроектировать агента, который может выполнять цепочку из 5-10 действий?
44. CrewAI vs AutoGen vs LangGraph — сравнение?
45. Как вы тестируете агентов? (сложно из-за стохастичности)
46. Какие инструменты (tools/functions) дать агенту для автоматизации бизнес-задач? (ваш кейс!)
47. Что такое ReAct Agent и как он работает?
48. Как вы реализуете память агента (Memory) на разных уровнях?
49. Как вы дебажите агента, который делает неправильные действия?
50. Как вы ограничиваете бесконечный цикл агента?
51. Как вы передаёте контекст между несколькими агентами (multi-agent system)?
52. LangSmith — зачем и как используете?
53. Как вы проектируете промпт для агента с инструментами?
54. Что такое Semantic Kernel и чем отличается от LangChain?
55. Как вы измеряете стоимость (токены) агентской системы?
56. Как вы делаете агента "отказоустойчивым" (graceful degradation)?
57. Какие паттерны multi-agent систем вы знаете?
58. Как вы переносите агента из прототипа в production (MLOps)?
59. n8n, Make, Zapier — как вы интегрируете их с LLM?
60. Как вы обрабатываете ошибки агента (action не сработал, API вернул ошибку)?
61. Как вы разворачиваете LLM в production (self-hosted)?
62. Какие метрики вы мониторите для LLM в production?
63. Как вы управляете разными версиями промптов в production?
64. Как вы обеспечиваете низкую задержку (<500ms) для LLM?
65. Как вы обрабатываете rate limiting от LLM провайдеров (OpenAI, Anthropic)?
66. Как вы управляете контекстным окном (context window) для длинных диалогов?
67. Что такое Prompt Injection и как вы защищаетесь?
68. Как вы шифруете данные для RAG (конфиденциальность)?
69. Как вы организуете CI/CD для RAG-пайплайна?
70. Как вы снижаете стоимость LLM в production на 50%+?
71. Как вы тестируете RAG-систему на новых документах без реальных пользователей?
72. OpenAI vs Anthropic vs Groq vs Self-hosted — что выбираете?
73. Как вы логируете все вызовы LLM для аудита?
74. Как вы мониторите дрейф данных (data drift) для RAG?
75. Что такое structured output / constrained decoding и зачем это нужно?
76. Как вы делаете A/B тестирование двух моделей в production?
77. Как вы оптимизируете embedding генерацию для большого количества документов?
78. Какие LLM для русского языка вы используете?
79. Как вы обновляете embedding модель без полной переиндексации?
80. Какие 3 книги/курса вы рекомендуете по production LLM?
81. Как бы вы спроектировали систему для 1000 одновременных пользователей чат-бота с RAG?
82. Как бы вы спроектировали систему для реального времени (real-time) обработки документов?
83. Как спроектировать систему, где LLM должна работать с конфиденциальными данными (медицина, финансы)?
84. Как бы вы спроектировали multi-tenant RAG (разные компании, изолированные данные)?
85. Как вы обрабатываете смену форматов документов (legacy + новые форматы)?
86. Как вы решаете проблему “я знаю, что ответ есть в документах, но retrieval не находит”?
87. Как вы обеспечиваете, чтобы ответы LLM были консистентными для одинаковых вопросов?
88. Как бы вы добавили "отмену" (cancellation) для длительных LLM операций?
89. Как вы спроектируете систему, которая может переключаться между разными LLM провайдерами без даунтайма?
90. Как вы проектируете API для внешних систем, использующих вашу LLM?
91. Что такое Semantic Caching и как вы его реализуете?
92. Зачем нужен embedding-as-a-service и когда вы его используете?
93. Как вы дебажите проблему "LLM не следовала системному промпту"?
94. Как вы проектируете промпты, которые работают с разными моделями?
95. Как вы храните историю изменений промптов (prompt lineage)?
96. Как вы предотвращаете галлюцинации в production RAG системе?
97. Какую LLM вы выберете для "быстрых" (<200ms) простых задач классификации?
98. Как вы документируете RAG-систему для команды?
99. Как вы планируете масштабирование команды вокруг LLM-системы?
100. Что вы сделаете в первую неделю на новой работе Senior AI Engineer?
101. Что такое DSPy и какую проблему он решает, которую не решают LangChain или LlamaIndex?
102. Объясните концепцию «сигнатуры» (Signature) в DSPy. Чем она отличается от традиционного промпта?
103. Какие оптимизаторы (teleprompters) в DSPy вы использовали и когда? BootstrapFewShot, MIPRO, COPRO?
104. Как вы интегрируете DSPy с RAG-пайплайном? Приведите пример сигнатуры.
105. Когда DSPy *не* подходит? Назовите 3 сценария.
106. Как вы валидируете, что DSPy-оптимизация действительно улучшила модель, а не просто переобучилась под метрику?
107. Объясните концепцию «программируемых промптов» (DSPy programs). Как это связано с MIPRO?
108. Что такое Assertions в DSPy и зачем они нужны?
109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production?
110. Какое будущее у DSPy? Вытеснит ли он LangChain в 2026-2027?
111. Чем мультимодальный RAG отличается от «OCR + текстовый RAG»? Почему второго недостаточно?
112. Как вы извлекаете *логические отношения* из диаграммы, а не просто текст?
113. Как вы представляете граф знаний из изображения для LLM?
114. Что такое Layout-Aware Chunking и как он связан с мультимодальностью?
115. Как вы обрабатываете большие таблицы в RAG (500+ строк)?
116. Как вы индексируете видео-контент в RAG-системе?
117. Какие embedding-модели для мультимодального поиска вы используете? CLIP, BLIP-2, ImageBind?
118. Как вы проверяете, что LLM правильно «понял» диаграмму, а не просто угадал?
119. Как вы комбинируете текстовый и визуальный поиск (early fusion vs late fusion)?
120. Как быть, если одно и то же изображение встречается в документах с разными подписями?
121. Назовите OWASP Top 10 для LLM (2025) и 3 самых критичных риска?
122. Что такое Indirect Prompt Injection через RAG и как защититься?
123. Как вы защищаете RAG-систему от утечки данных между клиентами (multi-tenant isolation)?
124. Что такое модель «Least Privilege» для AI-агентов и как её реализовать?
125. Объясните разницу между NeMo Guardrails и Garak. Когда что используется?
126. Что такое MITRE ATLAS и как он связан с MITRE ATT&CK?
127. Как вы проводите red teaming LLM-приложения? Назовите 3 техники.
128. Что такое Model Poisoning в контексте RAG и как защититься?
129. Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20 сообщений)?
130. Что такое Constitutional AI и как оно применяется в производстве?
131. Каковы 3 главных bias-эффекта LLM-as-Judge и как их детектировать?
132. Как вы калибруете LLM-судью под человеческие оценки?
133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения?
134. Как вы оцениваете faithfulness RAG-ответа в production автоматически?
135. Что такое Path-level evaluation для Agentic RAG и чем оно лучше token-level?
136. Как вы A/B тестируете две версии промпта в production?
137. Как вы измеряете drift retrieval-качества в RAG (когда документы меняются)?
138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной?
139. Как вы оцениваете cost-effectiveness LLM-пайплайна?
140. Как вы проверяете, что новая версия модели не сломала старые кейсы?
141. В чем разница между Naive RAG, Adaptive RAG и Agentic RAG?
142. Как вы проектируете «планировщика» (planner) для Agentic RAG?
143. Как вы боретесь с «бесконечным циклом» агента в Agentic RAG?
144. Как вы передаете состояние (state) между шагами агента?
145. LangGraph vs CrewAI vs AutoGen — что вы выберете и для каких задач?
146. Как вы обеспечиваете «человека в петле» (HITL) для критических действий агента?
147. Как вы логируете и дебажите многошаговые агенты?
148. Как вы измеряете стоимость агента в production (не только токены)?
149. Как спроектировать агента, который может самоисправляться (self-correction)?
150. Как вы переключаете агента между инструментами (function calling) с разными сигнатурами?
151. Что такое тест-тайм компьютинг (Test-Time Compute) и чем он отличается от обычного инференса?
152. В чем разница между Chain-of-Thought (CoT) и Latent Reasoning?
153. Что такое ∇-Reasoner (nabla-reasoner) и как он использует градиентный спуск на этапе теста?
154. Как масштабируется тест-тайм компьютинг? Есть ли закон diminishing returns?
155. Что такое Recurrent Depth в контексте LLM и зачем это нужно?
156. Как вы выбираете между увеличением тест-тайм компьютинга и использованием большей модели?
157. Какие есть методы ускорения тест-тайм компьютинга? (KV-cache, speculative decoding)
158. Что такое EAGLE-3 и чем он отличается от стандартного speculative decoding?
159. Как speculative decoding взаимодействует с KV cache?
160. Что такое Variational Speculative Decoding (VSD) и чем он революционен?
161. Как вы измеряете эффективность speculative decoding?
162. Что такое Quasar и как quantized verification ускоряет инференс?
163. Как вы деплоите speculative decoding в production?
164. Какие trade-offs между разными архитектурами speculative decoding?
165. Как тест-тайм компьютинг меняет MLOps?
166. Назовите 7 production failure modes для agentic AI систем по PAEF (Pandey, 2026)?
167. Как вы детектируете Distribution Collapse у агента?
168. Что такое «Tool Degradation with Availability Masking» и как ее обнаружить?
169. Как вы измеряете объяснимость (explainability) агентских решений?
170. Что такое GIM (Grounded Integration Measure) и чем он отличается от GPQA?
171. Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации?
172. Что такое LiveIdeaBench и для чего он нужен?
173. Как вы оцениваете креативность LLM в production?
174. Что такое «многошаговая когерентность» (coherence illusion) в cascading agent systems?
175. Как детектировать «объяснительно-решенческую декомпозицию»?
176. Какие инструменты для агентской эвалюации вы используете?
177. Как вы измеряете дрейф модели (model drift) для LLM?
178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей?
179. Как вы A/B тестируете агентов в production?
180. Какие failure modes уникальны для multi-agent систем (vs single agent)?
181. В чем проблема «natural language bottleneck» для LLM?
182. Что такое «схема» (schema) в контексте LLM и как она связана с языковым представлением?
183. Назовите 4 уровня языкового представления по Yang et al. (2026) и объясните разницу?
184. Почему естественный язык не подходит для сложного рассуждения?
185. Как код как язык представления улучшает рассуждение LLM?
186. Что такое «shaping schema through language representation»?
187. Как язык промпта (русский vs английский) влияет на схему рассуждения?
188. Что такое «Schema-Activated In-Context Learning» (SA-ICL)?
189. Как вы проектируете language representation для сложной задачи?
190. Как вы комбинируете несколько языков представления в одном пайплайне?
191. Какие типы задач требуют Level 3 представления (scientific formalization)?
192. Как вы оцениваете качество language representation для задачи?
193. Что такое «Clone-Structured Causal Graphs» (CSCG) и как они связаны со схемами?
194. Как вы строите DSL (Domain-Specific Language) для вашей LLM-системы?
195. Как вы проверяете, что модель действительно использует структуру представления, а не игнорирует ее?
196. Как language representation связан с тест-тайм компьютингом?
197. Как вы переключаете между уровнями представления для разных типов запросов?
198. Какие ограничения у language representation design?
199. Как вы combine language representation с DSPy?
200. Что вы видите следующим горизонтом после language representation?
201. Что такое continuous batching и как оно отличается от static batching? Как это реализовано в vLLM/TGI?
202. Как работает paged attention в vLLM? Чем это отличается от стандартного attention механизма?
203. Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса?
204. Что такое FlashAttention-3 и какие improvements он принес по сравнению с FA2?
205. Как вы деплоите LLM с requirement <100ms latency при throughput 1000 req/s? Архитектура.
206. Что такое KV cache reuse в multi-turn диалогах и как его реализовать?
207. Как работает scheduler в vLLM? Какие алгоритмы выбора запросов?
208. Что такое prefix caching и когда он эффективен?
209. GGUF vs GPTQ vs AWQ — сравнение форматов квантизации для локального запуска?
210. Что такое chunked prefill и зачем он нужен?
211. Как вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)?
212. Как работает speculative decoding с несколькими draft моделями?
213. Что такое Guided Decoding и как оно связано с JSON schema?
214. Как вы реализуете streaming в production с учетом network limitations?
215. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного?
216. Как вы делаете load testing для LLM endpoint? Какие метрики ключевые?
217. Как вы управляете memory fragmentation при длительном раннинге LLM сервера?
218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)?
219. Что такое prompt caching у провайдеров (Anthropic, Google) и как его использовать?
220. Как вы выбираете между online и batch инференсом для LLM?
221. Как работает HNSW (Hierarchical Navigable Small World) алгоритм внутренне?
222. Что такое IVF (Inverted File Index) и как он сравнивается с HNSW по speed/quality?
223. Как работает Product Quantization (PQ) для сжатия векторов?
224. OPQ (Optimized Product Quantization) vs PQ — в чем разница?
225. Как вы выбираете параметры HNSW (M, ef_construction, ef_search) под свои данные?
226. Что такое Filtered ANN Search и как оно реализовано в Qdrant vs Weaviate?
227. ScaNN (Google) vs HNSW — сравнение для больших масштабов (>100M векторов)?
228. Как работает DiskANN и когда он нужен?
229. Как вы измеряете recall@k для ANN индекса и какой порог acceptable?
230. Что такое Hierarchical Navigable Small World + IVF (HNSW+IVF) гибрид?
231. Как вы обновляете ANN индекс при добавлении новых векторов без перестроения?
232. Что такое Memory-optimized ANN и какие алгоритмы лучшие для ограниченной RAM (<16GB)?
233. Как вы делаете hybrid search (vector + keyword) в production на 10M документов?
234. Что такое Learned Index Structures for ANN? Новые подходы 2025-2026?
235. Как вы выбираете ANN алгоритм под ваш use case (volume, dimensionality, budget)?
236. Как вы проектируете RAG для 10k RPS с P99 latency <200ms? Архитектура.
237. Что такое circuit breaker и как он применяется к LLM API вызовам?
238. Как вы реализуете retry с exponential backoff для LLM API с rate limit?
239. Что такое idempotency в контексте LLM API и зачем она нужна?
240. Как вы проектируете dead letter queue для failed LLM инференс запросов?
241. Как вы делаете distributed tracing для цепочки: user → gateway → RAG → LLM → user?
242. Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes?
243. Как вы делаете blue-green deployment для RAG системы с zero downtime?
244. Как вы проектируете backpressure в LLM serving системе?
245. Как вы делаете cache invalidation для semantic cache при обновлении знаний?
246. Что такое sidecar pattern для LLM observability и как его реализовать?
247. Как вы проектируете multi-region active-active для LLM API?
248. Что такое rate limiting на разных уровнях (user, API key, IP, global) и как реализовать?
249. Как вы делаете load shedding при перегрузке LLM сервера?
250. Как вы делаете health check для LLM сервера с учетом модели (не только процесс)?
251. Как вы деплоите LLM на spot instances в облаке?
252. Что такое Kafka compaction для логов LLM взаимодействий?
253. Как вы делаете асинхронную обработку long-running (>30s) LLM задач?
254. Как вы проектируете disaster recovery для LLM системы при сбое региона?
255. Как вы управляете секретами (API keys для LLM) в Kubernetes?
256. Как вы проектируете ETL пайплайн для 1M документов/день в RAG систему?
257. Как вы дедуплицируете документы перед индексацией в RAG?
258. Что такое weak supervision для разметки данных для fine-tuning и как его применить?
259. Как вы генерируете synthetic данные для instruction tuning?
260. Как вы отслеживаете data drift для распределения запросов к RAG?
261. Как вы управляете качеством разметки (label quality) для DPO датасетов?
262. Как вы проектируете feature store для ML фичей, используемых LLM?
263. Как вы обрабатываете PII в данных для RAG (GDPR, 152-ФЗ)?
264. Как вы делаете backfill эмбеддингов при смене embedding модели?
265. Как вы проектируете data lineage для RAG (от документа к ответу)?
266. Как вы делаете incremental ingestion для часто меняющихся документов?
267. Что такое data version control (DVC) для RAG корпуса документов?
268. Как вы делаете synthetic data generation для редких классов в датасете?
269. Как вы обрабатываете streaming данные для real-time RAG?
270. Как вы управляете cost хранения векторной БД при миллиарде векторов?
271. Как вы делаете schema evolution для метаданных документов в RAG?
272. Как вы проверяете качество parsing документов (PDF, DOCX) в production?
273. Как вы обрабатываете corrupted или empty документы в ingestion пайплайне?
274. Как вы проектируете feature engineering для контекста RAG (кроме текста)?
275. Как вы делаете data quality monitoring для RAG корпуса?
276. Как работает attention математически (Q, K, V) и как вычислительная сложность масштабируется?
277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они?
278. Как работает RoPE (Rotary Position Embedding) и чем лучше абсолютных позиций?
279. Что такое SwiGLU и почему он используется вместо ReLU в современных LLM?
280. Как работает RMSNorm (Root Mean Square Normalization) и чем лучше LayerNorm?
281. Что такое sliding window attention и зачем он в Mistral?
282. Как работает MoE (Mixture of Experts) внутри LLM (Mixtral, GPT-4)?
283. Что такое selective attention в контексте long context обработки?
284. Как работают современные tokenizers (BPE, Unigram, SentencePiece) и их ограничения?
285. Как вы анализируете embedding geometry для отладки retrieval качества?
286. Как вы детектируете и фиксите attention sinks в длинных контекстах?
287. Как работает градиентный анализ для объяснения решений LLM?
288. Как вы тестируете видение модели (vision-language) на пропущенные детали?
289. Как работает speculative decoding на уровне логитов, а не токенов?
290. Что такое Chain-of-Thought без токенов (latent CoT) и как это реализовано?
291. Как вы измеряете uncertainty в ответах LLM (logit-based vs ensemble methods)?
292. Как работает temperature sampling и как он влияет на качество при разных значениях?
293. Что такое Top-p (nucleus) sampling и как он сочетается с temperature?
294. Как вы калибруете вероятности LLM для classification задач?
295. Что такое logit lens и как он помогает понимать внутренние представления?
296. Как работает извлечение знаний (knowledge editing) из LLM без переобучения?
297. Что такое representation engineering (RepE) и зачем он нужен?
298. Как вы тестируете robustness LLM к adversarial input (не только injection)?
299. Как работает attention между слоями (cross-layer attention) в современных архитектурах?
300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency?
301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс?
302. Что такое warp divergence в CUDA и как он влияет на attention?
303. Как работают Tensor Cores в H100/B200 и для чего они нужны?
304. Что такое FlashAttention с точки зрения CUDA programming?
305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)?
306. Что такое NCCL и зачем он для tensor parallelism?
307. Как PCIe bottleneck проявляется в multi-GPU инференсе?
308. Как работают CUDA streams и как они помогают оверлапить compute и communication?
309. Что такое kernel fusion и как он применяется в LLM serving?
310. Как вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM?
311. Что такое CUDA graphs и как они ускоряют LLM инференс?
312. Как работает FP8 quantization на H100 (Transformer Engine)?
313. Как вы диагностируете, что проблема в memory bandwidth, а не в compute?
314. Как работает NVLink Switch System на DGX H100?
315. Что такое MIG (Multi-Instance GPU) и когда он полезен для LLM?
316. Как работает Torch Compile (torch.compile) и в чем его ограничения для LLM?
317. Что такое MLIR и как он используется в IREE/TensorRT-LLM?
318. TensorRT-LLM vs vLLM — сравнение для production deployment?
319. Как работает XLA (Accelerated Linear Algebra) для LLM на TPU?
320. Что такое ONNX Runtime и когда он выгоден для LLM?
321. Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)?
322. Что такое operator fusion в компиляторах и какие паттерны fusion существуют?
323. Как вы деплоите LLM с TensorRT-LLM в production?
324. Что такое TVM (Apache TVM) и зачем он нужен для AI инференса?
325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели?
326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически?
327. Что такое PPO (Proximal Policy Optimization) и почему он используется в RLHF?
328. GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен?
329. Как обучается reward model для RLHF и как избегать reward hacking?
330. Что такое RLAIF (RL from AI Feedback) и как он масштабируется?
331. Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)?
332. Как работает KL penalty в RLHF и как подобрать коэффициент?
333. Что такое preference data collection и как минимизировать bias в сравнениях?
334. Как вы делаете online RL для агентов (self-improvement loops)?
335. Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)?
336. Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO?
337. Как вы проверяете, что RLHF не сломал базовые способности модели?
338. Как вы деплоите policy (RLHF модель) в production с online feedback loop?
339. Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO?
340. Что такое Constitutional AI и как RLHF связан с ним?
341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)?
342. Что такое statistical power evaluation и как определять размер выборки?
343. Как вы измеряете и исправляете bias в LLM-as-Judge (self-enhancement, position, verbosity)?
344. Что такое reward hacking в RLHF и как его детектировать?
345. Как вы проектируете red teaming evaluation для jailbreak устойчивости?
346. Что такое meta-evaluation бенчмарков (оценка оценки)?
347. Как вы оцениваете alignment модели с человеческими ценностями без gold standard?
348. Что такое calibration ошибок модели и как ее измерять (ECE, MCE, Brier score)?
349. Как вы проводите A/B тест метрик качества (не бизнес-метрик)?
350. Как вы детектируете data contamination в evaluation датасетах?
351. Как работает model stealing attack и как защититься?
352. Что такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)?
353. Как работает embedding poisoning для RAG и как защититься?
354. Что такое adversarial retrieval (атака на retrieval компонент)?
355. Как вы защищаете LLM от градиентных атак (white-box jailbreak)?
356. Что такое data poisoning атака на fine-tuning и как защититься?
357. Как работает membership inference атака на LLM?
358. Что такое watermarking для LLM генераций и как его детектировать?
359. Как вы защищаете multi-agent систему от вредоносного агента?
360. Что такое adversarial fine-tuning для защиты от jailbreak?
361. Как работает CLIP и как training contrastive loss выравнивает текст и изображения?
362. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V?
363. Как работает Whisper (architecture, tokenization, training) для ASR?
364. Как вы строите real-time voice agent с latency <500ms?
365. Как работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)?
366. Как вы делаете RAG для видео (индексация subshots, аудио, ключевые кадры)?
367. Что такое Q-Former в BLIP-2 и зачем он нужен?
368. Как вы оцениваете мультимодальную модель на hallucinations (POPE, MMHal-Bench)?
369. Как работает diffusion backends для генерации изображений в AI-агентах?
370. Как вы проектируете систему для real-time video understanding (поток с камер)?
371. Что такое LambdaMART и как он используется для reranking в RAG?
372. Как вы строите двухступенчатый ретривал (fast ANN + slow cross-encoder) в RAG?
373. Что такое learning-to-rank (LTR) и как он применяется к retrieval для LLM?
374. Как вы делаете query rewriting и query expansion в RAG?
375. Как вы калибруете retrieval confidence для threshold-based filtering?
376. Что такое hybrid search с весами (weighted hybrid) и как оптимизировать веса?
377. Как вы делаете retrieval для структурированных данных (SQL, Knowledge Graph)?
378. Как работает многогранный (faceted) поиск в RAG с фильтрами?
379. Как вы оцениваете retrieval с учетом позиции (Position-aware metrics)?
380. Что такое semantic ranking на основе embeddings (вторая стадия после ANN)?
381. Как вы определяете SLO и SLA для LLM сервиса?
382. Как вы проектируете canary deployment для LLM модели?
383. Что такое error budget для AI качества и как его считать?
384. Как вы проводите chaos engineering для RAG системы?
385. Как вы автоматизируете rollback при деградации качества?
386. Как вы обрабатываете production incident с LLM (playbook)?
387. Как вы делаете multi-region failover с RTO <5 минут?
388. Что такое SLI (Service Level Indicators) для AI системы и как их собирать?
389. Как вы делаете disaster recovery с RPO <1 минута?
390. Как вы проектируете on-call ротацию для AI сервиса?
391. Как вы проектируете агента, который может работать непрерывно (24/7) без дрейфа поведения?
392. Что такое «agentic mesh» (сеть взаимодействующих агентов) и как вы его дебажите?
393. Как вы измеряете «cost of reasoning» у агента (не только токены, но и шаги, время, ошибки)?
394. Как вы делаете агента «забывающим» (для GDPR / privacy compliance)?
395. Как вы тестируете агента на «неожиданные input» (не только adversarial, но и просто странные)?
396. Как вы проектируете «человека в петле» для multi-agent системы с минимальным overhead?
397. Как вы делаете агента, который может «просить помощи» у другого агента или человека?
398. Как вы версионируете агента целиком (prompts, tools, memory schema, orchestration graph)?
399. Как вы делаете A/B тест между двумя агентами с разными архитектурами (ReAct vs Plan-and-Execute)?
400. Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения на шум и без катастрофического забывания?
401. Как работает tensor parallelism для LLM инференса? В чем отличие от pipeline parallelism?
402. Что такое NCCL и почему он критичен для multi-GPU инференса?
403. Как вы проектируете RAG для 10k RPS с P99 latency <200ms? Архитектура.
404. Что такое circuit breaker и как он применяется к LLM API вызовам?
405. Как вы реализуете retry с exponential backoff для LLM API с rate limit?
406. Что такое idempotency в контексте LLM API и зачем она нужна?
407. Как вы проектируете dead letter queue для failed LLM инференс запросов?
408. Как вы делаете distributed tracing для цепочки: user → gateway → RAG → LLM → user?
409. Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes?
410. Как вы делаете blue-green deployment для RAG системы с zero downtime?
411. Как вы проектируете backpressure в LLM serving системе?
412. Как вы делаете cache invalidation для semantic cache при обновлении знаний?
413. Что такое sidecar pattern для LLM observability и как его реализовать?
414. Как вы проектируете multi-region active-active для LLM API?
415. Что такое rate limiting на разных уровнях (user, API key, IP, global) и как реализовать?
416. Как вы делаете load shedding при перегрузке LLM сервера?
417. Как вы делаете health check для LLM сервера с учетом модели (не только процесс)?
418. Как вы деплоите LLM на spot instances в облаке?
419. Что такое Kafka compaction для логов LLM взаимодействий?
420. Как вы делаете асинхронную обработку long-running (>30s) LLM задач?
421. Как вы проектируете disaster recovery для LLM системы при сбое региона?
422. Как вы управляете секретами (API keys для LLM) в Kubernetes?
423. Как работает tensor parallelism для LLM training? Чем отличается от инференса?
424. Что такое pipeline parallelism и проблема pipeline bubbles?
425. Как работает sequence parallelism в контексте LLM?
426. Что такое 3D parallelism (data + tensor + pipeline)?
427. Как вы дебажите медленную меж-GPU коммуникацию в multi-node инференсе?
428. Как вы проектируете Kafka топологии для RAG ingestion?
429. Что такое end-to-end backpressure в LLM пайплайне и как его реализовать?
430. Как вы делаете canary analysis для новой LLM модели?
431. Почему LLM inference memory-bound, а не compute-bound?
432. Как работает FlashAttention-3 технически? Чем отличается от FA2?
433. Почему KV cache растет линейно с длиной контекста и как это оптимизировать?
434. Как работает grouped-query attention (GQA) и как trade-off speed/quality?
435. Почему MoE (Mixture of Experts) быстрее dense модели при инференсе?
436. В чем разница между prefill и decode stage в LLM инференсе?
437. Почему decode stage плохо batchится?
438. Что такое continuous batching? Как реализовано в vLLM?
439. Как работает PagedAttention в vLLM внутренне?
440. Как работает speculative decoding? Как выбрать draft модель?
441. EAGLE-3 vs Medusa-2 vs Hydra: сравнение speculative decoding методов?
442. Что такое prefix caching и когда он эффективен?
443. GGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инференса?
444. Почему 4-bit inference иногда медленнее 8-bit?
445. Как вы измеряете TTFT (Time To First Token) и TPOT (Time Per Output Token)?
446. Что такое chunked prefill и зачем он нужен?
447. Как работает scheduler в vLLM? Какие алгоритмы выбора запросов?
448. Что такое KV cache reuse в multi-turn диалогах и как его реализовать?
449. Как вы делаете streaming в production с учетом network limitations?
450. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного?
451. Как вы делаете load testing для LLM endpoint? Какие метрики ключевые?
452. Как вы управляете memory fragmentation при длительном раннинге LLM сервера?
453. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)?
454. Что такое prompt caching у провайдеров (Anthropic, Google) и как его использовать?
455. Как вы выбираете между online и batch инференсом для LLM?
456. Что такое Medusa (multiple heads) для speculative decoding?
457. Как работает quantization-aware scaling в AWQ для защиты важных весов?
458. Что такое FP8 инференс на H100 (Transformer Engine)?
459. Как вы дебажите низкую GPU utilization (например, 40% на A100)?
460. Как работает tensor parallelism с FP8 в vLLM?
461. Почему training 70B модели требует optimizer sharding (ZeRO-3)?
462. ZeRO-1 vs ZeRO-2 vs ZeRO-3: что и когда использовать?
463. Что такое activation recomputation (checkpointing) и зачем оно нужно?
464. Почему BF16 лучше FP16 для training?
465. Как работает gradient checkpointing в DeepSpeed?
466. Что такое curriculum learning для LLM и как его реализовать?
467. Что такое packing sequences и зачем он нужен?
468. Почему small batch size (<32) ухудшает training стабильность?
469. Как работает Mixed Precision Training (FP16 + FP32 master веса)?
470. Что такое DeepSpeed ZeRO-Offload и когда он полезен?
471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch?
472. Почему gradient accumulation эквивалентен большому batch с точки зрения оптимизации?
473. Что такое torch.compile и как он ускоряет training?
474. Как работает FlashAttention для training (не только inference)?
475. Почему tokenizer влияет на стоимость training?
476. Как работает packing для variable-length sequences в FSDP?
477. Что такое curriculum learning на уровне данных для LLM?
478. Как работает distributed optimizer в PyTorch (torch.distributed.optim)?
479. Что такое activation offloading и когда он нужен?
480. Как работает selective activation recomputation?
481. Что такое LoRA для training (инференс уже знаем)?
482. Как работает QLoRA (Quantized LoRA) для training?
483. Как работает DoRA (Weight-Decomposed LoRA) и чем лучше LoRA?
484. Что такое ReFT (Representation Fine-Tuning) и когда он лучше LoRA?
485. Как вы дебажите training instability (loss spikes, divergence)?
486. Почему LLM-as-Judge может быть biased? Назовите 3 основных bias и как их детектировать.
487. Что такое calibration ошибок модели и как ее измерять (ECE, MCE, Brier score)?
488. Что такое benchmark contamination и как ее детектировать?
489. Что такое reward hacking в RLHF и как его детектировать?
490. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)?
491. Что такое statistical power evaluation и как определять размер выборки для A/B теста?
492. Как вы измеряете inter-rater reliability для human evaluation?
493. Что такое Positional bias в LLM-as-Judge и как его исправить?
494. Что такое synthetic eval collapse и как его предотвратить?
495. Что такое pairwise comparison vs scalar rating? Когда что использовать?
496. Что такое reward correlation и как ее измерять?
497. Как вы проектируете red teaming evaluation для jailbreak устойчивости?
498. Что такое meta-evaluation бенчмарков (оценка оценки)?
499. Как вы оцениваете alignment модели с человеческими ценностями без gold standard?
500. Как вы измеряете uncertainty в ответах LLM (logit-based vs ensemble methods)?
501. Что такое Path-level evaluation для Agentic RAG и чем оно лучше token-level?
502. Как вы A/B тестируете две версии промпта в production?
503. Как вы измеряете drift retrieval-качества в RAG (когда документы меняются)?
504. Как вы оцениваете cost-effectiveness LLM-пайплайна?
505. Как вы проверяете, что новая версия модели не сломала старые кейсы?
506. Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации?
507. Что такое calibration в контексте reward model для RLHF?
508. Как вы оцениваете faithfulness без ground truth (если нет правильного ответа)?
509. Как вы сравниваете две модели, если у них разная latency (быстрая неточная vs медленная точная)?
510. Что такое benchmark chasing и почему это опасно?
511. Как вы проектируете ETL пайплайн для 1M документов/день в RAG систему?
512. Как вы дедуплицируете документы перед индексацией в RAG?
513. Что такое weak supervision для разметки данных для fine-tuning и как его применить?
514. Как вы генерируете synthetic данные для instruction tuning?
515. Как вы отслеживаете data drift для распределения запросов к RAG?
516. Как вы управляете качеством разметки (label quality) для DPO датасетов?
517. Как вы проектируете feature store для ML фичей, используемых LLM?
518. Как вы обрабатываете PII в данных для RAG (GDPR, 152-ФЗ)?
519. Как вы делаете backfill эмбеддингов при смене embedding модели?
520. Как вы проектируете data lineage для RAG (от документа к ответу)?
521. Как вы делаете incremental ingestion для часто меняющихся документов?
522. Что такое data version control (DVC) для RAG корпуса документов?
523. Как вы делаете synthetic data generation для редких классов в датасете?
524. Как вы обрабатываете streaming данные для real-time RAG?
525. Как вы управляете cost хранения векторной БД при миллиарде векторов?
526. Как вы делаете schema evolution для метаданных документов в RAG?
527. Как вы проверяете качество парсинга документов (PDF, DOCX) в production?
528. Как вы обрабатываете corrupted или empty документы в ingestion пайплайне?
529. Как вы проектируете feature engineering для контекста RAG (кроме текста)?
530. Как вы делаете data quality monitoring для RAG корпуса?
531. Как вы делаете active learning loop для улучшения retrieval?
532. Что такое data contract между сервисами в RAG пайплайне?
533. Как вы обрабатываете real-time фичи для LLM (например, текущий сток товара)?
534. Как вы делаете data quality для синтетических датасетов?
535. Как вы проектируете векторную БД с миллиардом векторов при ограниченном бюджете?
536. Как работает CLIP (Contrastive Language-Image Pre-training) внутренне?
537. Что такое SigLIP и чем отличается от CLIP?
538. Как работает vision encoder в GPT-4V / LLaVA?
539. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V?
540. Как работает Q-Former в BLIP-2 и зачем он нужен?
541. Как вы делаете RAG для изображений (image retrieval without text)?
542. Как вы парсите сложные PDF с таблицами и графиками (не просто текст)?
543. Как работает Whisper архитектурно для ASR (Automatic Speech Recognition)?
544. Как вы строите real-time voice agent с latency <500ms?
545. Как работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)?
546. Как вы индексируете видео-контент в RAG-системе?
547. Как вы оцениваете мультимодальную модель на галлюцинации (POPE, MMHal-Bench)?
548. Что такое diffusion backends для генерации изображений (Stable Diffusion, Flux) и как их вызывать из агента?
549. Как вы проектируете систему для real-time video understanding (поток с камеры)?
550. Как работает OCR для RAG? Недостатки и когда его недостаточно?
551. Как работает AudioLM и MusicGen для генерации аудио?
552. Как вы делаете image captioning для RAG (извлечение описания изображения)?
553. Что такое LayoutLMv3 и зачем он для document understanding?
554. Как вы делаете image retrieval по тексту с высокой точностью?
555. Как работает мультимодальный RAG с unified retrieval (один индекс для текста и изображений)?
556. Как вы делаете extraction таблиц из PDF для RAG?
557. Как работает Zero-shot classification для изображений (CLIP vs другие методы)?
558. Как вы делаете video summarization для RAG (вход — длинное видео, выход — краткое описание)?
559. Что такое Audio RAG (RAG для аудиофайлов)?
560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей?
561. Как вы проектируете multimodal RAG для диаграмм (flowchart, architecture diagram)?
562. Как работает whisper.cpp для локального ASR с low latency?
563. Как вы делаете image retrieval с фильтрацией по метаданным (дата, местоположение, камера)?
564. Как работает модели типа Kosmos-2 (grounding объектов на изображении)?
565. Как вы делаете retrieval для изображений с защитой авторских прав (watermarking)?
566. Почему агенты деградируют на длинных horizon (более 10 шагов)?
567. Что такое planner/executor architecture для агентов и когда она нужна?
568. Как работает Toolformer-like обучение для агентов (self-supervised tool use)?
569. Что такое reflection loops для агентов и как они работают?
570. Что такое tree search agents (MCTS for LLM) и когда они эффективны?
571. Как работают verifier models для agentic RAG и зачем они нужны?
572. Что такое trajectory optimization для агентов и как ее реализовать?
573. Как вы предотвращаете tool overuse (когда агент вызывает API даже когда не нужно)?
574. Что такое memory corruption в агентах и как его детектировать?
575. Как работает hierarchical planning для агентов (разбивка на подзадачи)?
576. Что такое skill libraries для агентов и как их создавать?
577. Как вы делаете agent robustness к adversarial instructions (jailbreak через агента)?
578. Что такое agent evaluation метрика: successful task completion rate vs step efficiency?
579. Как работает agent replay для улучшения качества (анализ failed траекторий)?
580. Как вы делаем agent with theory of mind (понимание намерений пользователя)?
581. Что такое multi-agent debate и как он улучшает качество ответов?
582. Как работает agent self-improvement через self-reflection on failures?
583. Как вы делаете agent с bounded rationality (ограниченные вычислительные ресурсы)?
584. Что такое **agent distillation** (обучение маленького агента на траекториях большого)?
585. Как вы делаете agent robustness к missing API (когда инструмент временно недоступен)?
586. Что такое agent state management (состояние агента между вызовами)?
587. Как работает agent with external tool verification (проверка результатов API)?
588. Что такое agent explanation fidelity (насколько объяснение соответствует реальному решению)?
589. Как вы делаете agent с human values alignment (Constitutional AI для агентов)?
590. Как работает multi-agent with role specialization (агенты-эксперты в разных доменах)?
591. Что такое agent communication protocol (формат сообщений между агентами)?
592. Как вы делаете agent with iterative refinement (улучшение ответа через обратную связь)?
593. Как работает agent handover (передача задачи другому агенту)?
594. Что такое agent safety constraints (ограничения на действия агента)?
595. Как вы делаете agent evaluation на длинных horizon (100+ шагов)?
596. Как работает model stealing attack (экстракция модели через API)?
597. Что такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)?
598. Как работает embedding poisoning для RAG и как защититься?
599. Что такое adversarial retrieval (атака на retrieval компонент RAG)?
600. Как вы защищаете LLM от градиентных атак (white-box jailbreak)?
601. Что такое data poisoning атака на fine-tuning и как защититься?
602. Как работает membership inference атака на LLM?
603. Что такое watermarking для LLM генераций и как его детектировать?
604. Как вы защищаете multi-agent систему от вредоносного агента?
605. Что такое adversarial fine-tuning для защиты от jailbreak?
606. Как работает prompt leakage (кража системного промпта) и как защититься?
607. Что такое sandbox escape для AI-агента и как защититься?
608. Как работает model inversion атака (восстановление training данных)?
609. Как вы защищаете RAG от document injection (вредоносные документы в базе знаний)?
610. Что такое malicious embeddings (атака через векторные БД)?
611. Как работает adversarial example для embedding моделей (атака на retrieval)?
612. Что такое data exfiltration через LLM (утечка данных через ответы)?
613. Как работает model watermarking для LLM (идентификация модели-источника)?
614. Как вы защищаете LLM от prompt injection через RAG (когда документ содержит инструкцию)?
615. Что такое adversarial patch для vision-language моделей (физическая атака)?
616. Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)?
617. Как вы защищаете агента от tool injection (вредоносный API ответ)?
618. Что такое jailbreak as a service (коммерческие jailbreak сервисы) и как защититься?
619. Как работает LLM fingerprinting (идентификация модели по ответам)?
620. Что такое differential privacy для LLM и как она работает?
621. Как вы защищаете LLM от prompt injection через изображения (VL-модели)?
622. Как работает membership inference через logits (разница в вероятностях)?
623. Что такое secure aggregation для федеративного обучения LLM?
624. Как вы защищаете RAG от data poisoning через неявные инструкции (subtle injections)?
625. Что такое adversarial prompt detection для реального времени (runtime)?
626. Как работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)?
627. Как вы тестируете long-context capability модели (бенчмарки: RULER, Needle in a Haystack)?
628. Что такое attention sink и почему он возникает в длинных контекстах?
629. Как работает sliding window attention в Mistral и Longformer?
630. Как работает RoPE (Rotary Position Embeddings) для экстраполяции на длинные контексты?
631. Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)?
632. Как работает Infini-attention (Google, 2024) для бесконечного контекста?
633. Как вы оцениваете reasoning capability (не просто recall) на длинном контексте?
634. Что такое "lost in the middle" и как это связано с attention sink?
635. Как работает RAPTOR (иерархическое суммирование для длинного контекста)?
636. Как вы проектируете промпт для long context рассуждения (CoT, ToT, GoT)?
637. Что такое Chain-of-Thought без токенов (latent CoT, COCONUT)?
638. Как работает ∇-Reasoner (градиентный спуск в пространстве токенов на этапе теста)?
639. Как вы делаете model selection для long context (какая модель лучше держит 100k+)?
640. Как работает Multi-query attention (MQA) для long context?
641. Что такое grouped-query attention (GQA) как компромисс для long context?
642. Как вы реализуете KV cache для 1M токенов на 8x H100?
643. Как работает YaRN (Yet another RoPE extensioN) для увеличения контекста?
644. Как вы оцениваете faithfulness ответа на длинном контексте (когда много информации)?
645. Что такое hierarchical retrieval для long context RAG (когда контекст > 100k)?
646. Как работает attention с линейной сложностью (Linformer, Performer, Longformer)?
647. Как вы делаете long context для code generation (модель должна видеть весь репозиторий)?
648. Что такое streaming LLM для бесконечного контекста (техника rollback)?
649. Как вы измеряете reasoning degradation с ростом контекста? (curse of length)
650. Что такое memory-efficient attention для long context на 8x H100?
651. Как работает attention математически? Выведите формулу scaled dot-product attention.
652. Почему в формуле attention нужно делить на √d_k? Что будет без масштабирования?
653. Что такое position encoding? RoPE vs абсолютные позиции vs относительные позиции?
654. Как работает LayerNorm и RMSNorm? В чем разница и почему RMSNorm быстрее?
655. Что такое SwiGLU и почему он лучше ReLU в LLM?
656. Как работает кросс-энтропия (cross-entropy loss) для LLM обучения?
657. Что такое KL divergence и где она применяется в LLM (RLHF, distillation)?
658. Как работает perplexity и как ее интерпретировать? Связь с cross-entropy?
659. Что такое Adam optimizer и как работают его параметры (β1, β2, ε, learning rate)?
660. Что такое gradient clipping и зачем он нужен при обучении LLM?
661. Как работает softmax и почему он вызывает проблемы с градиентами при больших logits?
662. Что такое logits и как они связаны с вероятностями? temperature scaling?
663. Как работает обратное распространение (backpropagation) в трансформере?
664. Что такое vanishing / exploding gradients в трансформерах и как их предотвратить?
665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)?
666. Что такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?
667. Как работает FlashAttention математически (tiling, recomputation, не материализуя S)?
668. Что такое индуктивные biases трансформеров? (positional invariance, order sensitivity)?
669. Как работает связь между SGD и Adam? Почему Adam лучше для LLM?
670. Что такое loss landscape LLM и как оно влияет на обучение (sharp vs flat minima)?
671. Как работает эмбеддинг слой и почему его размер (embedding dimension) важен?
672. Что такое residual connections и зачем они нужны в трансформере?
673. Как работает нормализация перед attention (pre-norm) vs после (post-norm)?
674. Что такое logit lens (интерпретация скрытых состояний)?
675. Как работает dropout и зачем он нужен в LLM? (regularization)
676. Что такое residual stream и как он связан с информационным потоком в трансформере?
677. Как работает forward pass LLM: от токена до вероятности следующего токена?
678. Как работает greedy decoding vs beam search vs sampling?
679. Что такое repetition penalty и как он работает?
680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)?
681. Как вы генерируете синтетический датасет для instruction tuning? Self-instruct, Evol-Instruct?
682. Как вы оцениваете качество синтетических данных? (Self-consistency, LLM-as-Judge)
683. Что такое data augmentation для LLM (back-translation, paraphrasing, masking)?
684. Как вы генерируете hard negative примеры для retrieval обучения?
685. Как вы детектируете и удаляете низкокачественные примеры из синтетического датасета?
686. Как работает synthetic data для RLHF (предпочтения)?
687. Как вы делаете synthetic eval (генерация тестовых вопросов по документам)?
688. Что такое synthetic data collapse (когда синтетические данные деградируют со временем)?
689. Как вы проектируете dynamic benchmark (меняющийся со временем)?
690. Как вы измеряете diversity синтетического датасета?
691. Как вы делаете synthetic data для редких языков (не английский)?
692. Что такое curriculum learning for synthetic data (обучение на легких данных сначала)?
693. Как вы обнаруживаете contamination (пересечение synthetic данных с тестовыми)?
694. Как работает weak supervision для synthetic данных (создание правил разметки)?
695. Как вы делаете synthetic data для multi-turn диалогов (агентов)?
696. Что такое active learning для сбора синтетических данных?
697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)?
698. Как вы делаете synthetic data для сложного рассуждения (math, code)?
699. Как вы оцениваете, сколько синтетических данных нужно для fine-tuning (power analysis)?
700. Как вы комбинируете реальные и синтетические данные для максимального качества?
701. Как работает warp scheduling на NVIDIA GPU и как это влияет на LLM kernels?
702. Что такое memory coalescing и почему оно важно для attention?
703. Как работает L1/L2 cache hierarchy в A100/H100 и как ее использовать для LLM?
704. Что такое bank conflicts в shared memory и как их избежать?
705. Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100?
706. Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3?
707. Как работает asynchronous execution на Hopper (copy engine vs compute)?
708. Что такое MIG (Multi-Instance GPU) и как настроить для разных LLM?
709. NVIDIA Grace Hopper: CPU-GPU unified memory, как это меняет LLM serving?
710. Бенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?
711. Как работает speculative execution на GPU для LLM (branch prediction)?
712. Что такое Cooperative Groups в CUDA и как использовать для attention?
713. Как работает Mamba (State Space Model) и чем она лучше трансформера?
714. RWKV (RNN with Transformer attention): как комбинирует RNN и attention?
715. Hyena: как заменить attention на свертки, сохранив качество?
716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context?
717. Почему трансформеры до сих пор побеждают SSM на большинстве задач (2026)?
718. Что такое Test-Time Training (TTT) слои и как они работают?
719. Как проектировать аукцион для allocation вычислительных ресурсов между агентами?
720. Что такое mechanism design для multi-agent systems и как применить к LLM-агентам?
721. Как предотвращать collusion (сговор) между агентами в децентрализованной системе?
722. Что такое VCG auction (Vickrey-Clarke-Groves) и как он обеспечивает truthfulness?
723. Как моделировать экономику агентов с ограниченными бюджетами на API вызовы?
724. Что такое emergent specialization в multi-agent systems (агенты сами распределяют роли)?
725. Как проектировать reputation system для агентов в децентрализованной системе?
726. Как предотвращать free-riding в multi-agent системе (агенты не вносят вклад, но потребляют)?
727. Как LLM применяются для protein folding (AlphaFold 3, ESM3)? Архитектура и отличия?
728. Что такое AI for materials science (GNoME, MatterGen) и как это отличается от text LLM?
729. Как LLM используются для code generation с формальной верификацией (Dafny, Lean)?
730. Что такое LLM для symbolic regression (AI Feynman) и как это работает?
731. Как комбинировать LLM с симуляторами физики (digital twins)?
732. Что такое EU AI Act и как оно влияет на деплой LLM в production?
733. Как выполнять requirement on transparency (статья 13 EU AI Act) для LLM?
734. Что такое model cards и system cards и как их составлять?
735. Как проводить safety case для LLM системы (аналог safety case в авиации)?
736. Что такое red teaming certification (стандарты 2026 для оценки robustness)?
737. Что такое Harness Engineering и чем он отличается от Prompt Engineering и MLOps?
738. Назовите 12+ слоёв эталонной архитектуры Harness?
739. Как изменилась роль инженера с приходом Harness Engineering?
740. Что такое Context Engineering в рамках Harness и почему это отдельный слой?
741. Что такое Partial Harnessing (частичное управление)?
742. В чем разница между Workflow и Guidance в теории harness-engineering?
743. Какие есть типичные failure modes в harness-engineering (over-decomposition, over-pruning)?
744. Что такое Agent Loop и какие компоненты входят в production-ready loop?
745. Что такое AgentPool и Handoff в multi-agent orchestration?
746. Что такое Safety & Guardrails как слой Harness? Чем runtime guardrails отличаются от тестирования?
747. Что такое AdmissionController в Harness и зачем он нужен?
748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)?
749. Что такое Session Management в Harness и какие стратегии (TTL, LRU, GC)?
750. Как устроена Memory в Harness (in-memory, fs, vector stores, relay)?
751. Что такое Tool System в Harness (defineTool, registry, JSON schema validation, rate limiting)?
752. Как Harness Engineering помогает решить проблему "гарантий исполнения" в критических миссиях (mission-critical)?
753. Что такое Coordination Engineering и чем он отличается от Harness Engineering?
754. Как Harness Engineering связан с наблюдаемостью (OpenTelemetry, LangSmith, трассировка)?
755. Что такое эволюция (evolution) в Harness Engineering (component registry, drift detection)?
756. Как выглядит process operational excellence в Harness Engineering (ORR, Operational Reviews)?
757. Какие инструменты и фреймворки существуют для Harness Engineering?
758. Как вы проектируете Harness для mission-critical приложения? Приведите пример с агентом для банковских переводов.
759. Какие книги или ресурсы вы рекомендуете по Harness Engineering?
760. Что такое Delegation Engineering и чем он отличается от Harness Engineering?
761. Какие паттерны делегирования существуют (hierarchical, peer-to-peer, market-based)?
762. Что такое «эскалация человеку» (human escalation) и как её проектировать?
763. Как проектировать fallback-цепи (агент А → агент Б → человек)?
764. Что такое graceful degradation в multi-agent системах?
765. Как измерять «стоимость делегирования» (токены + время + деньги)?
766. Что такое delegation by exception (делегирование только по исключению)?
767. Как проектировать SLA между агентом-менеджером и агентами-исполнителями?
768. Что такое «ротация агентов» (load balancing между агентами)?
769. Как тестировать delegation paths (интеграционное тестирование multi-agent)?
770. Что такое «откат делегирования» (rollback delegation) при ошибке?
771. Как проектировать delegation с учётом человеческого фактора (усталость, занятость)?
772. Что такое «аутсорсинг» задачи другому LLM (с другим API, другой ценой)?
773. Как измерять «коэффициент полезного делегирования» (сколько задач решено правильно)?
774. Какие инструменты для Delegation Engineering существуют (Airflow для агентов)?
775. Что такое Cost Engineering для LLM-систем?
776. Как считать TCO (Total Cost of Ownership) для RAG/Agent системы?
777. Что такое «cost per good answer» и как его измерять?
778. Как проектировать cost-aware routing (дешёвая модель для простых запросов, дорогая — для сложных)?
779. Что такое «token budget» для агента и как его выставлять?
780. Как измерять ROI от fine-tuning (окупается ли дообучение более дешёвым инференсом)?
781. Как проектировать auto-scaling с учётом cost (spot vs on-demand)?
782. Что такое «cost attribution» (какой компонент сколько стоит)?
783. Как сравнивать cost efficiency разных LLM провайдеров?
784. Как строить финансовую модель LLM-продукта для бизнеса?
785. Как тестировать агентов на недетерминированность?
786. Что такое «golden dataset» для агента и как его создавать?
787. Как делать property-based testing для агентов?
788. Что такое «simulation testing» (тестирование в симулированной среде)?
789. Как тестировать multi-turn диалоги агента?
790. Что такое «canary testing» для агентов (10% трафика на новую версию)?
791. Как тестировать fallback и graceful degradation?
792. Что такое «regression testing» для агентов (старый кейс сломался)?
793. Как тестировать инструменты агента (tool testing изолированно)?
794. Что такое «test coverage» для агента (покрытие траекторий, а не кода)?
795. Как автоматизировать test generation для агента?
796. Что такое «chaos testing» для агента (внезапно API вернул ошибку)?
797. Как тестировать промпты (prompt regression testing)?
798. Как тестировать промпты на регрессии (prompt regression suite)?
799. Как интегрировать тестирование агентов в CI/CD?
800. Что такое Prompt Registry (каталог промптов с версиями)?
801. Как делать A/B тестирование промптов в production?
802. Что такое «prompt as code» (промпты в Git, code review)?
803. Как делать canary deployment для промптов (5% трафика)?
804. Как делать rollback промпта (auto-rollback при деградации метрик)?
805. Что такое «prompt linting» (статический анализ промптов)?
806. Как управлять dependency между промптами (один промпт вызывает другой)?
807. Что такое «prompt observability» (мониторинг эффективности промптов в production)?
808. Что такое «prompt templating» и как его версионировать?
809. Как управлять версиями промптов в production (best practices)?
810. Какие протоколы меж-агентской коммуникации существуют (A2A, MCP, OpenAI swarm)?
811. Что такое «message bus» для агентов (Kafka, NATS, Redis PubSub)?
812. Как обеспечивать exactly-once delivery между агентами?
813. Что такое «actor model» для агентов (Akka, Orleans)?
814. Как проектировать rate limiting на уровне сообщений?
815. Что такое «dead letter queue» для сообщений агентов?
816. Как обеспечивать backward compatibility при изменении протокола?
817. Что такое «message schema evolution» (Avro/Protobuf)?
818. Как проектировать request-response vs fire-and-forget для агентов?
819. Что такое «circuit breaker» на уровне меж-агентских вызовов?
820. Как масштабировать vLLM на несколько GPU/нод?
821. Как избежать hot shard в Qdrant (или другой векторной БД)?
822. Что делать, если embedding pipeline отстаёт от ingestion (backpressure)?
823. Как проектировать AI pipeline с at-least-once семантикой?
824. Как организовать distributed tracing для agent pipeline?
825. Что такое autoscaling inference и как его настроить?
826. Как организовать GPU scheduling для multi-tenant LLM serving?
827. Какие есть стратегии распределённого кэширования для LLM (Redis Cluster, Memcached, Hazelcast)?
828. Как проектировать distributed locking для LLM agents?
829. Что такое rate limiting на уровне API Gateway для LLM?
830. Как проектировать retry storm mitigation (защита от лавинных ретраев)?
831. Как проектировать graceful degradation при отказе vector DB?
832. Как проектировать graceful degradation при отказе LLM API?
833. Как организовать multi-region active-passive для LLM API?
834. Как учитывать CAP theorem в AI systems?
835. Как проектировать distributed dead letter queue для сообщений?
836. Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)?
837. Как работает paged attention? (детально)
838. Как speculative decoding ускоряет inference? (детально)
839. Чем AWQ отличается от GPTQ?
840. Когда tensor parallelism хуже pipeline parallelism?
841. Как устроен KV cache? Почему он bottleneck?
842. Как работает prefix caching и prompt caching у провайдеров?
843. Что такое continuous batching и как оно влияет на throughput?
844. Как работает FlashAttention-3 математически?
845. Как работают CUDA graphs и когда их использовать?
846. Как дебажить memory fragmentation в LLM сервере?
847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)?
848. Как работает динамическое бэтчирование в TGI vs vLLM?
849. Что такое expert parallelism для MoE моделей (Mixtral)?
850. Как работают inference schedulers (FCFS, Priority, Fairness)?
851. Как строить streaming RAG pipeline (real-time ingestion)?
852. Как обрабатывать schema drift в данных для RAG?
853. Как организовать feature store для AI (Feast, Hopsworks)?
854. Почему Kafka лучше RabbitMQ для event streaming?
855. Как проектировать CDC (Change Data Capture) для документов?
856. Как организовать data versioning (DVC, LakeFS, Delta Lake)?
857. Как реализовать online/offline feature consistency для LLM?
858. Как проектировать ETL vs ELT для RAG?
859. Как организовать streaming feature pipelines для real-time RAG?
860. Инициализация транзакционного продюсера
861. Как проектировать data contracts для RAG пайплайна?
862. Как делать feature engineering для RAG (кроме текста)?
863. Как проектировать Airflow DAG для RAG ingestion?
864. Как обрабатывать late-arriving data в ingestion?
865. Как проектировать schema registry для метаданных RAG?
866. Как генерировать synthetic датасеты для RAG evaluation?
867. Как делать adversarial evals для RAG (проверка на устойчивость)?
868. Что такое red teaming для LLM и как его проводить?
869. Как избежать benchmark contamination (когда модель видела тестовые данные)?
870. Как работает LLM-as-judge и почему он biased?
871. Как делать pairwise ranking для сравнения моделей?
872. Что такое calibration для LLM и как её измерять (ECE)?
873. Как детектировать reward hacking в RLHF?
874. Как оценивать multi-step agents (не только final answer)?
875. Как делать synthetic eval datasets для agentic workflows?
876. Как избежать evaluation overfitting (когда модель учится на тесте)?
877. Как работает process reward model (PRM) vs outcome reward model (ORM)?
878. Как измерять faithfulness для long-form ответов (1000+ токенов)?
879. Как делать evaluation для long-context RAG (>100k токенов)?
880. Как проектировать golden dataset для agent evaluation?
881. Что такое jailbreak taxonomy (полная классификация)?
882. Как происходит tool poisoning (атака через инструменты агента)?
883. Как защитить RAG от poisoning (вредоносные документы в базе знаний)?
884. Как работает model extraction attack и как защититься?
885. Как происходит PII leakage через LLM и как защититься?
886. Как делать sandboxing для agent tools (изоляция выполнения)?
887. Как проектировать agent permissions (least privilege модель)?
888. Как защититься от prompt stealing (кража системного промпта)?
889. Как детектировать и предотвращать vector DB poisoning?
890. Как тестировать robustness LLM к adversarial inputs?
891. Что такое planner-executor архитектура для агентов?
892. Как работают verifier models для agentic RAG?
893. Как работает tree search (MCTS) для LLM агентов?
894. Как работает memory compression для агентов (long-term memory)?
895. Как оптимизировать траектории агента (trajectory optimization)?
896. Как сделать агента самовосстанавливающимся (self-healing)?
897. Как работают agent swarms (рой агентов)?
898. Как работает Toolformer (обучение агента использованию инструментов)?
899. Что такое DSPy в контексте агентов?
900. Как работают browser agents и computer use agents (Claude Computer Use)?
901. Что такое pymorphy2 и Natasha? В чем разница между морфологическим анализом и синтаксическим парсингом?
902. Объясните разницу между стеммингом и лемматизацией. Приведите примеры для русского языка. Какой подход лучше для информационного поиска?
903. Что такое NER (Named Entity Recognition)? Как извлекать организации, даты и персоны из текста с помощью библиотеки DeepPavlov?
904. Какие типы NER существуют (BIO, BIOES, span-based)? В чем проблема вложенных сущностей (nested NER)?
905. Как вы оцениваете качество модели NER? Почему micro-F1 и macro-F1 могут давать разную картину?
906. Что такое RE (Relation Extraction)? Приведите пример: как извлечь пары «(сущность_1, отношение, сущность_2)» из предложения?
907. Объясните задачу Coreference Resolution. Зачем она нужна в RAG-системах для работы с длинными документами?
908. Какие подходы к суммаризации текста вы знаете? Чем extractive отличается от abstractive? Назовите плюсы и минусы.
909. Что такое метрика ROUGE (ROUGE-1, ROUGE-2, ROUGE-L)? Как она считается и в чем её недостатки для оценки генерации?
910. Что такое BLEU? Почему он плохо подходит для суммаризации на русском языке?
911. Что такое Word2Vec (CBOW и Skip-gram) и fastText? Чем отличаются от контекстуальных эмбеддингов типа BERT?
912. Что такое TF-IDF и BM25? Почему BM25 до сих пор используется в гибридном поиске, даже при наличии эмбеддингов?
913. Как работает scikit-learn для классификации текстов (TfidfVectorizer + LogisticRegression)? Когда такой пайплайн лучше нейросети?
914. Объясните задачу Text Classification (Sentiment, Topic, Intent). Как бороться с дисбалансом классов в текстовых датасетах?
915. Что такое Multilabel Classification (в отличие от Multiclass)? Какую функцию потерь использовать для multilabel?
916. Что такое Zero-shot Classification на базе NLI (Natural Language Inference) или с использованием XLM-RoBERTa?
917. Что такое Few-shot Classification для NLP? Какие подходы существуют (SetFit, мета-обучение, промптинг LLM)?
918. Какие библиотеки для русского NLP вы знаете? (pymorphy2, Natasha, DeepPavlov, Yandex GPT API, GigaChat API)
919. Как вы парсите сложные PDF с таблицами и колонками? Назовите инструменты (pdfplumber, pymupdf, Camelot, Unstructured.io)
920. Как работает LayoutLMv3? Почему он лучше, чем просто OCR + BERT, для понимания отсканированных документов?
921. Как вы очищаете текст от шума (HTML-теги, спецсимволы, стоп-слова) в production RAG-пайплайне?
922. Что такое Language Model с точки зрения вероятности последовательности? Как P(w₁, …, wₙ) раскладывается через chain rule?
923. Что такое Perplexity (PPL)? Как интерпретировать значение 100 или 50? Почему низкий PPL не гарантирует хорошего текста?
924. Как обучается Word2Vec? Объясните Negative Sampling и иерархический softmax.
925. Что такое GloVe? Чем отличается от Word2Vec (матричные разложения vs локальные контексты)?
926. Что такое Sparse Vector vs Dense Vector в контексте NLP? Назовите плюсы и минусы.
927. Как работает Byte-Pair Encoding (BPE) в токенизаторах GPT? Решите пример на псевдокоде.
928. Что такое SentencePiece и чем он отличается от BPE (например, в модели T5)? Как обрабатывает пробелы?
929. Как токенизируются редкие слова (out-of-vocabulary) с помощью BPE или Unigram?
930. Как влияет размер словаря токенизатора на количество параметров модели и скорость инференса?
931. Что такое Sequence-to-Sequence (Seq2Seq) модели? Чем архитектура T5 отличается от GPT?
932. Объясните Attention как взвешенную сумму. Зачем нужна маска (padding mask) в энкодере?
933. Что такое Teacher Forcing при обучении декодера? В чем проблема Exposure Bias?
934. Как работают рекуррентные нейросети (RNN, LSTM, GRU)? Почему трансформеры их вытеснили в NLP?
935. В чем проблема Vanishing Gradient в RNN и как LSTM её решает?
936. Как вы храните историю чата для long-term памяти агента (сжатие, суммаризация, векторная память)?
937. Как спроектировать систему Intent Detection для чат-бота на русском языке (классика + LLM)?
938. Как вы делаете Data Augmentation для текста (back-translation, EDA, synonym replacement)?
939. Как вы собираете датасет для классификации интентов (согласование разметчиков, Cohen's Kappa)?
940. Что такое Active Learning для NLP? Как уменьшить стоимость разметки датасета?
941. Что такое Text Augmentation с помощью LLM (генерация парафраз, изменение тональности)?
942. Как вы проверяете, что модель не переобучилась на конкретном авторе или стиле текста?
943. Что такое Explainable AI (XAI) для NLP (LIME, SHAP, Attention Visualization)?
944. Как вы дебажите, почему классификатор ошибся на конкретном примере (анализ эмбеддингов, ошибки токенизации)?
945. Как работает CRF (Conditional Random Field) сверху BiLSTM для NER? Зачем нужен слой CRF?
946. Что такое Transformer-XL? Как решает проблему ограниченного контекста через recurrence?
947. Как извлекать ключевые фразы (keyword extraction) из текста без LLM (YAKE, RAKE, TF-IDF)?
948. Что такое Topic Modeling (LDA, BERTopic)? Как найти темы в большой коллекции текстов?
949. Как работает Text Similarity через эмбеддинги (cosine similarity) против BM25 (keyword overlap)?
950. Как спроектировать систему поиска ответов на вопросы (QA) на основе SQuAD-подобных датасетов?
951. Что такое Fine-tuning LLM? Чем отличается от обучения с нуля (pre-training) с точки зрения данных и вычислительных затрат?
952. Что такое LoRA (Low-Rank Adaptation)? Объясните математическую идею: W' = W + BA. Почему это экономит память?
953. Как выбрать rank (r) в LoRA? Что будет при слишком маленьком или слишком большом r?
954. Чем отличается LoRA от Adapter-слоев (Houlsby et al.)?
955. Что такое QLoRA? Как 4-bit NormalFloat (NF4) quantization и Double Quantization позволяют fine-tune 70B модель на одной 24GB GPU?
956. Что такое P-tuning и Prefix Tuning? Как они отличаются от LoRA (обучаемые векторы на входе vs матрицы внутри слоев)?
957. Что такое (IA)^3 (Infused Adapter by Inhibiting and Amplifying Inner Activations)? Как он масштабирует LoRA?
958. Как объединить несколько LoRA адаптеров для разных доменов (LoRA Hub)? Проблема конфликта весов и пути её решения.
959. Как деплоить несколько LoRA адаптеров без перезагрузки базовой модели (Punica, S-LoRA)?
960. Как вы подбираете гиперпараметры для LoRA (learning rate, batch size, rank, alpha)?
961. Что такое Parameter-Efficient Fine-Tuning (PEFT)? Назовите 3 метода, которые не масштабируются на большие модели (кроме LoRA).
962. Как fine-tune модель для Function Calling (tool use)? Какую структуру данных (JSON schema) использовать?
963. Какие данные нужны для fine-tuning на инструкции (instruction tuning)? Формат: (инструкция, контекст, ответ).
964. Как вы генерируете синтетический датасет для instruction tuning (Self-Instruct, Evol-Instruct)?
965. Как вы проверяете качество синтетических данных (LLM-as-Judge, человеческая валидация, outlier detection)?
966. Что такое Catastrophic Forgetting при fine-tuning? Как его предотвратить (EWC, replay, LoRA)?
967. Как вы бенчмарките fine-tuned модель: на удержанном датасете, на out-of-distribution задачах, на adversarial кейсах?
968. Какой размер датасета нужен для LoRA (тысячи, десятки тысяч примеров) против полного fine-tuning?
969. Как вы fine-tune embedding модель под свой домен? (sentence-transformers, SimCSE, MultipleNegativesRankingLoss)
970. Как вы fine-tune reranker (cross-encoder) для RAG? Как генерировать hard negatives?
971. Что такое Distillation для LLM? Как обучить маленькую модель (student) на выходах большой (teacher)?
972. Что такое Quantization-Aware Training (QAT)? Чем отличается от Post-Training Quantization (PTQ)?
973. Какие фреймворки для fine-tuning вы используете? (Hugging Face PEFT, Unsloth, Axolotl, LLaMA-Factory)
974. Как вы логируете и отслеживаете эксперименты по fine-tuning (MLflow, Weights & Biases, TensorBoard)?
975. Какую функцию потерь использовать для fine-tuning на диалогах (CrossEntropyLoss с masking падинга)?
976. Как вы делаете fine-tuning на последовательностях разной длины (packing, dynamic batching)?
977. Как вы оцениваете, окупился ли fine-tuning? Расчет ROI: стоимость обучения vs экономия на контексте или улучшение конверсии.
978. Как вы тонко настраиваете (fine-tune) модель для "стиля речи" (академический, дружелюбный, формальный)?
979. Что такое ReFT (Representation Fine-Tuning)? Чем отличается от LoRA (обучение на скрытых представлениях, а не весах)?
980. Как сделать fine-tuning модели на 1 млн токенов контекста (например, для анализа кодовой базы)? Технические ограничения.
981. Что такое RLHF (Reinforcement Learning from Human Feedback) в 3 шагах? (SFT, Reward Model, RL)
982. Для чего нужен этап Supervised Fine-Tuning (SFT) перед RLHF? Что будет, если его пропустить?
983. Как собирать preference data для RLHF? (A/B сравнение ответов, ranking, Elo score)
984. Как обучается Reward Model (RM)? Вход: (prompt, answer_chosen, answer_rejected), выход: скаляр.
985. Что такое Bradley-Terry model в контексте обучения Reward Model? Как превратить парные сравнения в вероятности?
986. Как работает PPO (Proximal Policy Optimization) для LLM? Объясните: Actor (LLM), Critic (Value model), Clipping, KL penalty.
987. Что такое KL penalty в PPO? Зачем ограничивать новую модель от старой?
988. Почему DPO (Direct Preference Optimization) проще PPO? В чем разница в формуле потерь и требованиях к памяти?
989. Что такое GRPO (Group Relative Policy Optimization)? Как он отличается от PPO (нет Value model, усреднение по группе ответов)?
990. Как работает ReST (Reinforced Self-Training)? Чем отличается от PPO (итеративное обучение на собственных генерациях)?
991. Как оценивать качество Reward Model (accuracy, calibration, ROC-AUC)?
992. Что такое reward hacking? Приведите пример: как модель может обмануть Reward Model, не улучшая качество ответа?
993. Как вы боретесь с reward hacking? (ансамбли RM, regularization, adversarial training)
994. Что такое Constitutional AI? Как использовать правила (constitution) для генерации preference данных без людей?
995. Как вы проверяете, что RLHF улучшил модель на целевых задачах, но не сломал общие способности (general capabilities)?
996. Как деплоить RLHF-модель в production? (A/B тест с SFT-моделью, мониторинг качества и safety)
997. Что такое RLAIF (RL from AI Feedback)? Как масштабировать RLHF с помощью LLM-асессоров?
998. Как работает DPOP (Dual Policy Optimization)? Когда он лучше DPO (работа с multi-turn, длинные ответы)?
999. Как собрать preference датасет для задачи reasoning (математика, логика)? Важен процесс решения или только финальный ответ?
1000. Как test-time compute связан с RLHF? Можно ли заменить дообучение увеличением времени рассуждения на тесте?