面试问题
共 900 篇解析
- 1. Как бы вы спроектировали RAG-систему для 10 000 документов с разной структурой (PDF, Word, сканы, HTML, Excel)?
- 2. Как вы решаете проблему «lost in the middle» при работе с длинными контекстами?
- 3. Какие стратегии chunking'а вы знаете и когда какую применяете?
- 4. Какую векторную БД вы выберете для production-системы с >1 млн векторов?
- 5. Как вы оцениваете качество retrieval'а в RAG-системе?
- 6. Что такое гибридный поиск и когда он нужен?
- 7. Как вы уменьшаете latency RAG-системы (время ответа)?
- 8. Как вы обрабатываете запросы, на которые нет ответа в документах?
- 9. Как вы обновляете документы в существующей RAG-системе?
- 10. Что такое Self-RAG и когда его использовать?
- 11. Что такое Hypothetical Document Embeddings (HyDE) и зачем?
- 12. Как вы фильтруете документы по метаданным в векторной БД?
- 13. Как вы загружаете 1000 документов в RAG максимально эффективно?
- 14. Как вы обрезаете контекст, когда retrieved documents > контекстного окна LLM?
- 15. Какие embedding-модели вы использовали и почему?
- 16. Как вы оцениваете качество генерации в RAG? Назовите 3 ключевые метрики.
- 17. Как вы уменьшаете галлюцинации в RAG?
- 18. Что такое Multi-vector retrieval и зачем он нужен?
- 19. Как вы храните историю диалога в RAG для multi-turn QA?
- 20. Как вы обеспечиваете, что RAG работает с документами на русском и английском одновременно?
- 21. Когда вы выбираете fine-tuning вместо RAG, а когда — наоборот?
- 22. Какие методы fine-tuning вы знаете и какой используете чаще всего?
- 23. Как вы подбираете гиперпараметры для LoRA?
- 24. Какой размер датасета нужен для fine-tuning?
- 25. Как вы оцениваете качество после fine-tuning?
- 26. Как вы предотвращаете catastrophic forgetting при fine-tuning?
- 27. QLoRA vs LoRA — в чем разница и когда QLoRA лучше?
- 28. Какие данные нужны для fine-tuning на кастомный стиль общения?
- 29. Как fine-tune модель для следования сложным инструкциям?
- 30. Как вы проверяете, что fine-tuned модель не сломала базовые способности?
- 31. Что такое Parameter-Efficient Fine-Tuning (PEFT) и какие методы вы знаете?
- 32. Как вы подготовите датасет для fine-tuning, если у вас только неструктурированные диалоги с клиентами?
- 33. Какие фреймворки для fine-tuning вы используете?
- 34. Какая у вас была самая сложная проблема при fine-tuning и как вы её решили?
- 35. Как вы fine-tune embedding модель под свой домен (а не используете готовую)?
- 36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF?
- 37. Как вы избегаете переобучения при fine-tuning на маленьком датасете?
- 38. Как вы fine-tune модель для функции "вызов внешнего API"?
- 39. Сколько эпох достаточно для LoRA fine-tuning?
- 40. Как вы объединяете несколько LoRA адаптеров для разных задач?
- 41. LangChain vs LlamaIndex vs Haystack — что выберете и почему?
- 42. Что такое LangGraph и зачем он нужен?
- 43. Как спроектировать агента, который может выполнять цепочку из 5-10 действий?
- 44. CrewAI vs AutoGen vs LangGraph — сравнение?
- 45. Как вы тестируете агентов? (сложно из-за стохастичности)
- 46. Какие инструменты (tools/functions) дать агенту для автоматизации бизнес-задач? (ваш кейс!)
- 47. Что такое ReAct Agent и как он работает?
- 48. Как вы реализуете память агента (Memory) на разных уровнях?
- 49. Как вы дебажите агента, который делает неправильные действия?
- 50. Как вы ограничиваете бесконечный цикл агента?
- 51. Как вы передаёте контекст между несколькими агентами (multi-agent system)?
- 52. LangSmith — зачем и как используете?
- 53. Как вы проектируете промпт для агента с инструментами?
- 54. Что такое Semantic Kernel и чем отличается от LangChain?
- 55. Как вы измеряете стоимость (токены) агентской системы?
- 56. Как вы делаете агента "отказоустойчивым" (graceful degradation)?
- 57. Какие паттерны multi-agent систем вы знаете?
- 58. Как вы переносите агента из прототипа в production (MLOps)?
- 59. n8n, Make, Zapier — как вы интегрируете их с LLM?
- 60. Как вы обрабатываете ошибки агента (action не сработал, API вернул ошибку)?
- 61. Как вы разворачиваете LLM в production (self-hosted)?
- 62. Какие метрики вы мониторите для LLM в production?
- 63. Как вы управляете разными версиями промптов в production?
- 64. Как вы обеспечиваете низкую задержку (<500ms) для LLM?
- 65. Как вы обрабатываете rate limiting от LLM провайдеров (OpenAI, Anthropic)?
- 66. Как вы управляете контекстным окном (context window) для длинных диалогов?
- 67. Что такое Prompt Injection и как вы защищаетесь?
- 68. Как вы шифруете данные для RAG (конфиденциальность)?
- 69. Как вы организуете CI/CD для RAG-пайплайна?
- 70. Как вы снижаете стоимость LLM в production на 50%+?
- 71. Как вы тестируете RAG-систему на новых документах без реальных пользователей?
- 72. OpenAI vs Anthropic vs Groq vs Self-hosted — что выбираете?
- 73. Как вы логируете все вызовы LLM для аудита?
- 74. Как вы мониторите дрейф данных (data drift) для RAG?
- 75. Что такое structured output / constrained decoding и зачем это нужно?
- 76. Как вы делаете A/B тестирование двух моделей в production?
- 77. Как вы оптимизируете embedding генерацию для большого количества документов?
- 78. Какие LLM для русского языка вы используете?
- 79. Как вы обновляете embedding модель без полной переиндексации?
- 80. Какие 3 книги/курса вы рекомендуете по production LLM?
- 81. Как бы вы спроектировали систему для 1000 одновременных пользователей чат-бота с RAG?
- 82. Как бы вы спроектировали систему для реального времени (real-time) обработки документов?
- 83. Как спроектировать систему, где LLM должна работать с конфиденциальными данными (медицина, финансы)?
- 84. Как бы вы спроектировали multi-tenant RAG (разные компании, изолированные данные)?
- 85. Как вы обрабатываете смену форматов документов (legacy + новые форматы)?
- 86. Как вы решаете проблему “я знаю, что ответ есть в документах, но retrieval не находит”?
- 87. Как вы обеспечиваете, чтобы ответы LLM были консистентными для одинаковых вопросов?
- 88. Как бы вы добавили "отмену" (cancellation) для длительных LLM операций?
- 89. Как вы спроектируете систему, которая может переключаться между разными LLM провайдерами без даунтайма?
- 90. Как вы проектируете API для внешних систем, использующих вашу LLM?
- 91. Что такое Semantic Caching и как вы его реализуете?
- 92. Зачем нужен embedding-as-a-service и когда вы его используете?
- 93. Как вы дебажите проблему "LLM не следовала системному промпту"?
- 94. Как вы проектируете промпты, которые работают с разными моделями?
- 95. Как вы храните историю изменений промптов (prompt lineage)?
- 96. Как вы предотвращаете галлюцинации в production RAG системе?
- 97. Какую LLM вы выберете для "быстрых" (<200ms) простых задач классификации?
- 98. Как вы документируете RAG-систему для команды?
- 99. Как вы планируете масштабирование команды вокруг LLM-системы?
- 100. Что вы сделаете в первую неделю на новой работе Senior AI Engineer?
- 101. Что такое DSPy и какую проблему он решает, которую не решают LangChain или LlamaIndex?
- 102. Объясните концепцию «сигнатуры» (Signature) в DSPy. Чем она отличается от традиционного промпта?
- 103. Какие оптимизаторы (teleprompters) в DSPy вы использовали и когда? BootstrapFewShot, MIPRO, COPRO?
- 104. Как вы интегрируете DSPy с RAG-пайплайном? Приведите пример сигнатуры.
- 105. Когда DSPy *не* подходит? Назовите 3 сценария.
- 106. Как вы валидируете, что DSPy-оптимизация действительно улучшила модель, а не просто переобучилась под метрику?
- 107. Объясните концепцию «программируемых промптов» (DSPy programs). Как это связано с MIPRO?
- 108. Что такое Assertions в DSPy и зачем они нужны?
- 109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production?
- 110. Какое будущее у DSPy? Вытеснит ли он LangChain в 2026-2027?
- 111. Чем мультимодальный RAG отличается от «OCR + текстовый RAG»? Почему второго недостаточно?
- 112. Как вы извлекаете *логические отношения* из диаграммы, а не просто текст?
- 113. Как вы представляете граф знаний из изображения для LLM?
- 114. Что такое Layout-Aware Chunking и как он связан с мультимодальностью?
- 115. Как вы обрабатываете большие таблицы в RAG (500+ строк)?
- 116. Как вы индексируете видео-контент в RAG-системе?
- 117. Какие embedding-модели для мультимодального поиска вы используете? CLIP, BLIP-2, ImageBind?
- 118. Как вы проверяете, что LLM правильно «понял» диаграмму, а не просто угадал?
- 119. Как вы комбинируете текстовый и визуальный поиск (early fusion vs late fusion)?
- 120. Как быть, если одно и то же изображение встречается в документах с разными подписями?
- 121. Назовите OWASP Top 10 для LLM (2025) и 3 самых критичных риска?
- 122. Что такое Indirect Prompt Injection через RAG и как защититься?
- 123. Как вы защищаете RAG-систему от утечки данных между клиентами (multi-tenant isolation)?
- 124. Что такое модель «Least Privilege» для AI-агентов и как её реализовать?
- 125. Объясните разницу между NeMo Guardrails и Garak. Когда что используется?
- 126. Что такое MITRE ATLAS и как он связан с MITRE ATT&CK?
- 127. Как вы проводите red teaming LLM-приложения? Назовите 3 техники.
- 128. Что такое Model Poisoning в контексте RAG и как защититься?
- 129. Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20 сообщений)?
- 130. Что такое Constitutional AI и как оно применяется в производстве?
- 131. Каковы 3 главных bias-эффекта LLM-as-Judge и как их детектировать?
- 132. Как вы калибруете LLM-судью под человеческие оценки?
- 133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения?
- 134. Как вы оцениваете faithfulness RAG-ответа в production автоматически?
- 135. Что такое Path-level evaluation для Agentic RAG и чем оно лучше token-level?
- 136. Как вы A/B тестируете две версии промпта в production?
- 137. Как вы измеряете drift retrieval-качества в RAG (когда документы меняются)?
- 138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной?
- 139. Как вы оцениваете cost-effectiveness LLM-пайплайна?
- 140. Как вы проверяете, что новая версия модели не сломала старые кейсы?
- 141. В чем разница между Naive RAG, Adaptive RAG и Agentic RAG?
- 142. Как вы проектируете «планировщика» (planner) для Agentic RAG?
- 143. Как вы боретесь с «бесконечным циклом» агента в Agentic RAG?
- 144. Как вы передаете состояние (state) между шагами агента?
- 145. LangGraph vs CrewAI vs AutoGen — что вы выберете и для каких задач?
- 146. Как вы обеспечиваете «человека в петле» (HITL) для критических действий агента?
- 147. Как вы логируете и дебажите многошаговые агенты?
- 148. Как вы измеряете стоимость агента в production (не только токены)?
- 149. Как спроектировать агента, который может самоисправляться (self-correction)?
- 150. Как вы переключаете агента между инструментами (function calling) с разными сигнатурами?
- 151. Что такое тест-тайм компьютинг (Test-Time Compute) и чем он отличается от обычного инференса?
- 152. В чем разница между Chain-of-Thought (CoT) и Latent Reasoning?
- 153. Что такое ∇-Reasoner (nabla-reasoner) и как он использует градиентный спуск на этапе теста?
- 154. Как масштабируется тест-тайм компьютинг? Есть ли закон diminishing returns?
- 155. Что такое Recurrent Depth в контексте LLM и зачем это нужно?
- 156. Как вы выбираете между увеличением тест-тайм компьютинга и использованием большей модели?
- 157. Какие есть методы ускорения тест-тайм компьютинга? (KV-cache, speculative decoding)
- 158. Что такое EAGLE-3 и чем он отличается от стандартного speculative decoding?
- 159. Как speculative decoding взаимодействует с KV cache?
- 160. Что такое Variational Speculative Decoding (VSD) и чем он революционен?
- 161. Как вы измеряете эффективность speculative decoding?
- 162. Что такое Quasar и как quantized verification ускоряет инференс?
- 163. Как вы деплоите speculative decoding в production?
- 164. Какие trade-offs между разными архитектурами speculative decoding?
- 165. Как тест-тайм компьютинг меняет MLOps?
- 166. Назовите 7 production failure modes для agentic AI систем по PAEF (Pandey, 2026)?
- 167. Как вы детектируете Distribution Collapse у агента?
- 168. Что такое «Tool Degradation with Availability Masking» и как ее обнаружить?
- 169. Как вы измеряете объяснимость (explainability) агентских решений?
- 170. Что такое GIM (Grounded Integration Measure) и чем он отличается от GPQA?
- 171. Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации?
- 172. Что такое LiveIdeaBench и для чего он нужен?
- 173. Как вы оцениваете креативность LLM в production?
- 174. Что такое «многошаговая когерентность» (coherence illusion) в cascading agent systems?
- 175. Как детектировать «объяснительно-решенческую декомпозицию»?
- 176. Какие инструменты для агентской эвалюации вы используете?
- 177. Как вы измеряете дрейф модели (model drift) для LLM?
- 178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей?
- 179. Как вы A/B тестируете агентов в production?
- 180. Какие failure modes уникальны для multi-agent систем (vs single agent)?
- 181. В чем проблема «natural language bottleneck» для LLM?
- 182. Что такое «схема» (schema) в контексте LLM и как она связана с языковым представлением?
- 183. Назовите 4 уровня языкового представления по Yang et al. (2026) и объясните разницу?
- 184. Почему естественный язык не подходит для сложного рассуждения?
- 185. Как код как язык представления улучшает рассуждение LLM?
- 186. Что такое «shaping schema through language representation»?
- 187. Как язык промпта (русский vs английский) влияет на схему рассуждения?
- 188. Что такое «Schema-Activated In-Context Learning» (SA-ICL)?
- 189. Как вы проектируете language representation для сложной задачи?
- 190. Как вы комбинируете несколько языков представления в одном пайплайне?
- 191. Какие типы задач требуют Level 3 представления (scientific formalization)?
- 192. Как вы оцениваете качество language representation для задачи?
- 193. Что такое «Clone-Structured Causal Graphs» (CSCG) и как они связаны со схемами?
- 194. Как вы строите DSL (Domain-Specific Language) для вашей LLM-системы?
- 195. Как вы проверяете, что модель действительно использует структуру представления, а не игнорирует ее?
- 196. Как language representation связан с тест-тайм компьютингом?
- 197. Как вы переключаете между уровнями представления для разных типов запросов?
- 198. Какие ограничения у language representation design?
- 199. Как вы combine language representation с DSPy?
- 200. Что вы видите следующим горизонтом после language representation?
- 201. Что такое continuous batching и как оно отличается от static batching? Как это реализовано в vLLM/TGI?
- 202. Как работает paged attention в vLLM? Чем это отличается от стандартного attention механизма?
- 203. Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса?
- 204. Что такое FlashAttention-3 и какие improvements он принес по сравнению с FA2?
- 205. Как вы деплоите LLM с requirement <100ms latency при throughput 1000 req/s? Архитектура.
- 206. Что такое KV cache reuse в multi-turn диалогах и как его реализовать?
- 207. Как работает scheduler в vLLM? Какие алгоритмы выбора запросов?
- 208. Что такое prefix caching и когда он эффективен?
- 209. GGUF vs GPTQ vs AWQ — сравнение форматов квантизации для локального запуска?
- 210. Что такое chunked prefill и зачем он нужен?
- 211. Как вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)?
- 212. Как работает speculative decoding с несколькими draft моделями?
- 213. Что такое Guided Decoding и как оно связано с JSON schema?
- 214. Как вы реализуете streaming в production с учетом network limitations?
- 215. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного?
- 216. Как вы делаете load testing для LLM endpoint? Какие метрики ключевые?
- 217. Как вы управляете memory fragmentation при длительном раннинге LLM сервера?
- 218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)?
- 219. Что такое prompt caching у провайдеров (Anthropic, Google) и как его использовать?
- 220. Как вы выбираете между online и batch инференсом для LLM?
- 221. Как работает HNSW (Hierarchical Navigable Small World) алгоритм внутренне?
- 222. Что такое IVF (Inverted File Index) и как он сравнивается с HNSW по speed/quality?
- 223. Как работает Product Quantization (PQ) для сжатия векторов?
- 224. OPQ (Optimized Product Quantization) vs PQ — в чем разница?
- 225. Как вы выбираете параметры HNSW (M, ef_construction, ef_search) под свои данные?
- 226. Что такое Filtered ANN Search и как оно реализовано в Qdrant vs Weaviate?
- 227. ScaNN (Google) vs HNSW — сравнение для больших масштабов (>100M векторов)?
- 228. Как работает DiskANN и когда он нужен?
- 229. Как вы измеряете recall@k для ANN индекса и какой порог acceptable?
- 230. Что такое Hierarchical Navigable Small World + IVF (HNSW+IVF) гибрид?
- 231. Как вы обновляете ANN индекс при добавлении новых векторов без перестроения?
- 232. Что такое Memory-optimized ANN и какие алгоритмы лучшие для ограниченной RAM (<16GB)?
- 233. Как вы делаете hybrid search (vector + keyword) в production на 10M документов?
- 234. Что такое Learned Index Structures for ANN? Новые подходы 2025-2026?
- 235. Как вы выбираете ANN алгоритм под ваш use case (volume, dimensionality, budget)?
- 236. Как вы проектируете RAG для 10k RPS с P99 latency <200ms? Архитектура.
- 237. Что такое circuit breaker и как он применяется к LLM API вызовам?
- 238. Как вы реализуете retry с exponential backoff для LLM API с rate limit?
- 239. Что такое idempotency в контексте LLM API и зачем она нужна?
- 240. Как вы проектируете dead letter queue для failed LLM инференс запросов?
- 241. Как вы делаете distributed tracing для цепочки: user → gateway → RAG → LLM → user?
- 242. Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes?
- 243. Как вы делаете blue-green deployment для RAG системы с zero downtime?
- 244. Как вы проектируете backpressure в LLM serving системе?
- 245. Как вы делаете cache invalidation для semantic cache при обновлении знаний?
- 246. Что такое sidecar pattern для LLM observability и как его реализовать?
- 247. Как вы проектируете multi-region active-active для LLM API?
- 248. Что такое rate limiting на разных уровнях (user, API key, IP, global) и как реализовать?
- 249. Как вы делаете load shedding при перегрузке LLM сервера?
- 250. Как вы делаете health check для LLM сервера с учетом модели (не только процесс)?
- 251. Как вы деплоите LLM на spot instances в облаке?
- 252. Что такое Kafka compaction для логов LLM взаимодействий?
- 253. Как вы делаете асинхронную обработку long-running (>30s) LLM задач?
- 254. Как вы проектируете disaster recovery для LLM системы при сбое региона?
- 255. Как вы управляете секретами (API keys для LLM) в Kubernetes?
- 256. Как вы проектируете ETL пайплайн для 1M документов/день в RAG систему?
- 257. Как вы дедуплицируете документы перед индексацией в RAG?
- 258. Что такое weak supervision для разметки данных для fine-tuning и как его применить?
- 259. Как вы генерируете synthetic данные для instruction tuning?
- 260. Как вы отслеживаете data drift для распределения запросов к RAG?
- 261. Как вы управляете качеством разметки (label quality) для DPO датасетов?
- 262. Как вы проектируете feature store для ML фичей, используемых LLM?
- 263. Как вы обрабатываете PII в данных для RAG (GDPR, 152-ФЗ)?
- 264. Как вы делаете backfill эмбеддингов при смене embedding модели?
- 265. Как вы проектируете data lineage для RAG (от документа к ответу)?
- 266. Как вы делаете incremental ingestion для часто меняющихся документов?
- 267. Что такое data version control (DVC) для RAG корпуса документов?
- 268. Как вы делаете synthetic data generation для редких классов в датасете?
- 269. Как вы обрабатываете streaming данные для real-time RAG?
- 270. Как вы управляете cost хранения векторной БД при миллиарде векторов?
- 271. Как вы делаете schema evolution для метаданных документов в RAG?
- 272. Как вы проверяете качество parsing документов (PDF, DOCX) в production?
- 273. Как вы обрабатываете corrupted или empty документы в ingestion пайплайне?
- 274. Как вы проектируете feature engineering для контекста RAG (кроме текста)?
- 275. Как вы делаете data quality monitoring для RAG корпуса?
- 276. Как работает attention математически (Q, K, V) и как вычислительная сложность масштабируется?
- 277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они?
- 278. Как работает RoPE (Rotary Position Embedding) и чем лучше абсолютных позиций?
- 279. Что такое SwiGLU и почему он используется вместо ReLU в современных LLM?
- 280. Как работает RMSNorm (Root Mean Square Normalization) и чем лучше LayerNorm?
- 281. Что такое sliding window attention и зачем он в Mistral?
- 282. Как работает MoE (Mixture of Experts) внутри LLM (Mixtral, GPT-4)?
- 283. Что такое selective attention в контексте long context обработки?
- 284. Как работают современные tokenizers (BPE, Unigram, SentencePiece) и их ограничения?
- 285. Как вы анализируете embedding geometry для отладки retrieval качества?
- 286. Как вы детектируете и фиксите attention sinks в длинных контекстах?
- 287. Как работает градиентный анализ для объяснения решений LLM?
- 288. Как вы тестируете видение модели (vision-language) на пропущенные детали?
- 289. Как работает speculative decoding на уровне логитов, а не токенов?
- 290. Что такое Chain-of-Thought без токенов (latent CoT) и как это реализовано?
- 291. Как вы измеряете uncertainty в ответах LLM (logit-based vs ensemble methods)?
- 292. Как работает temperature sampling и как он влияет на качество при разных значениях?
- 293. Что такое Top-p (nucleus) sampling и как он сочетается с temperature?
- 294. Как вы калибруете вероятности LLM для classification задач?
- 295. Что такое logit lens и как он помогает понимать внутренние представления?
- 296. Как работает извлечение знаний (knowledge editing) из LLM без переобучения?
- 297. Что такое representation engineering (RepE) и зачем он нужен?
- 298. Как вы тестируете robustness LLM к adversarial input (не только injection)?
- 299. Как работает attention между слоями (cross-layer attention) в современных архитектурах?
- 300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency?
- 301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс?
- 302. Что такое warp divergence в CUDA и как он влияет на attention?
- 303. Как работают Tensor Cores в H100/B200 и для чего они нужны?
- 304. Что такое FlashAttention с точки зрения CUDA programming?
- 305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)?
- 306. Что такое NCCL и зачем он для tensor parallelism?
- 307. Как PCIe bottleneck проявляется в multi-GPU инференсе?
- 308. Как работают CUDA streams и как они помогают оверлапить compute и communication?
- 309. Что такое kernel fusion и как он применяется в LLM serving?
- 310. Как вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM?
- 311. Что такое CUDA graphs и как они ускоряют LLM инференс?
- 312. Как работает FP8 quantization на H100 (Transformer Engine)?
- 313. Как вы диагностируете, что проблема в memory bandwidth, а не в compute?
- 314. Как работает NVLink Switch System на DGX H100?
- 315. Что такое MIG (Multi-Instance GPU) и когда он полезен для LLM?
- 316. Как работает Torch Compile (torch.compile) и в чем его ограничения для LLM?
- 317. Что такое MLIR и как он используется в IREE/TensorRT-LLM?
- 318. TensorRT-LLM vs vLLM — сравнение для production deployment?
- 319. Как работает XLA (Accelerated Linear Algebra) для LLM на TPU?
- 320. Что такое ONNX Runtime и когда он выгоден для LLM?
- 321. Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)?
- 322. Что такое operator fusion в компиляторах и какие паттерны fusion существуют?
- 323. Как вы деплоите LLM с TensorRT-LLM в production?
- 324. Что такое TVM (Apache TVM) и зачем он нужен для AI инференса?
- 325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели?
- 326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически?
- 327. Что такое PPO (Proximal Policy Optimization) и почему он используется в RLHF?
- 328. GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен?
- 329. Как обучается reward model для RLHF и как избегать reward hacking?
- 330. Что такое RLAIF (RL from AI Feedback) и как он масштабируется?
- 331. Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)?
- 332. Как работает KL penalty в RLHF и как подобрать коэффициент?
- 333. Что такое preference data collection и как минимизировать bias в сравнениях?
- 334. Как вы делаете online RL для агентов (self-improvement loops)?
- 335. Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)?
- 336. Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO?
- 337. Как вы проверяете, что RLHF не сломал базовые способности модели?
- 338. Как вы деплоите policy (RLHF модель) в production с online feedback loop?
- 339. Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO?
- 340. Что такое Constitutional AI и как RLHF связан с ним?
- 341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)?
- 342. Что такое statistical power evaluation и как определять размер выборки?
- 343. Как вы измеряете и исправляете bias в LLM-as-Judge (self-enhancement, position, verbosity)?
- 344. Что такое reward hacking в RLHF и как его детектировать?
- 345. Как вы проектируете red teaming evaluation для jailbreak устойчивости?
- 346. Что такое meta-evaluation бенчмарков (оценка оценки)?
- 347. Как вы оцениваете alignment модели с человеческими ценностями без gold standard?
- 348. Что такое calibration ошибок модели и как ее измерять (ECE, MCE, Brier score)?
- 349. Как вы проводите A/B тест метрик качества (не бизнес-метрик)?
- 350. Как вы детектируете data contamination в evaluation датасетах?
- 351. Как работает model stealing attack и как защититься?
- 352. Что такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)?
- 353. Как работает embedding poisoning для RAG и как защититься?
- 354. Что такое adversarial retrieval (атака на retrieval компонент)?
- 355. Как вы защищаете LLM от градиентных атак (white-box jailbreak)?
- 356. Что такое data poisoning атака на fine-tuning и как защититься?
- 357. Как работает membership inference атака на LLM?
- 358. Что такое watermarking для LLM генераций и как его детектировать?
- 359. Как вы защищаете multi-agent систему от вредоносного агента?
- 360. Что такое adversarial fine-tuning для защиты от jailbreak?
- 361. Как работает CLIP и как training contrastive loss выравнивает текст и изображения?
- 362. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V?
- 363. Как работает Whisper (architecture, tokenization, training) для ASR?
- 364. Как вы строите real-time voice agent с latency <500ms?
- 365. Как работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)?
- 366. Как вы делаете RAG для видео (индексация subshots, аудио, ключевые кадры)?
- 367. Что такое Q-Former в BLIP-2 и зачем он нужен?
- 368. Как вы оцениваете мультимодальную модель на hallucinations (POPE, MMHal-Bench)?
- 369. Как работает diffusion backends для генерации изображений в AI-агентах?
- 370. Как вы проектируете систему для real-time video understanding (поток с камер)?
- 371. Что такое LambdaMART и как он используется для reranking в RAG?
- 372. Как вы строите двухступенчатый ретривал (fast ANN + slow cross-encoder) в RAG?
- 373. Что такое learning-to-rank (LTR) и как он применяется к retrieval для LLM?
- 374. Как вы делаете query rewriting и query expansion в RAG?
- 375. Как вы калибруете retrieval confidence для threshold-based filtering?
- 376. Что такое hybrid search с весами (weighted hybrid) и как оптимизировать веса?
- 377. Как вы делаете retrieval для структурированных данных (SQL, Knowledge Graph)?
- 378. Как работает многогранный (faceted) поиск в RAG с фильтрами?
- 379. Как вы оцениваете retrieval с учетом позиции (Position-aware metrics)?
- 380. Что такое semantic ranking на основе embeddings (вторая стадия после ANN)?
- 381. Как вы определяете SLO и SLA для LLM сервиса?
- 382. Как вы проектируете canary deployment для LLM модели?
- 383. Что такое error budget для AI качества и как его считать?
- 384. Как вы проводите chaos engineering для RAG системы?
- 385. Как вы автоматизируете rollback при деградации качества?
- 386. Как вы обрабатываете production incident с LLM (playbook)?
- 387. Как вы делаете multi-region failover с RTO <5 минут?
- 388. Что такое SLI (Service Level Indicators) для AI системы и как их собирать?
- 389. Как вы делаете disaster recovery с RPO <1 минута?
- 390. Как вы проектируете on-call ротацию для AI сервиса?
- 391. Как вы проектируете агента, который может работать непрерывно (24/7) без дрейфа поведения?
- 392. Что такое «agentic mesh» (сеть взаимодействующих агентов) и как вы его дебажите?
- 393. Как вы измеряете «cost of reasoning» у агента (не только токены, но и шаги, время, ошибки)?
- 394. Как вы делаете агента «забывающим» (для GDPR / privacy compliance)?
- 395. Как вы тестируете агента на «неожиданные input» (не только adversarial, но и просто странные)?
- 396. Как вы проектируете «человека в петле» для multi-agent системы с минимальным overhead?
- 397. Как вы делаете агента, который может «просить помощи» у другого агента или человека?
- 398. Как вы версионируете агента целиком (prompts, tools, memory schema, orchestration graph)?
- 399. Как вы делаете A/B тест между двумя агентами с разными архитектурами (ReAct vs Plan-and-Execute)?
- 400. Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения на шум и без катастрофического забывания?
- 401. Как работает tensor parallelism для LLM инференса? В чем отличие от pipeline parallelism?
- 402. Что такое NCCL и почему он критичен для multi-GPU инференса?
- 403. Как вы проектируете RAG для 10k RPS с P99 latency <200ms? Архитектура.
- 404. Что такое circuit breaker и как он применяется к LLM API вызовам?
- 405. Как вы реализуете retry с exponential backoff для LLM API с rate limit?
- 406. Что такое idempotency в контексте LLM API и зачем она нужна?
- 407. Как вы проектируете dead letter queue для failed LLM инференс запросов?
- 408. Как вы делаете distributed tracing для цепочки: user → gateway → RAG → LLM → user?
- 409. Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes?
- 410. Как вы делаете blue-green deployment для RAG системы с zero downtime?
- 411. Как вы проектируете backpressure в LLM serving системе?
- 412. Как вы делаете cache invalidation для semantic cache при обновлении знаний?
- 413. Что такое sidecar pattern для LLM observability и как его реализовать?
- 414. Как вы проектируете multi-region active-active для LLM API?
- 415. Что такое rate limiting на разных уровнях (user, API key, IP, global) и как реализовать?
- 416. Как вы делаете load shedding при перегрузке LLM сервера?
- 417. Как вы делаете health check для LLM сервера с учетом модели (не только процесс)?
- 418. Как вы деплоите LLM на spot instances в облаке?
- 419. Что такое Kafka compaction для логов LLM взаимодействий?
- 420. Как вы делаете асинхронную обработку long-running (>30s) LLM задач?
- 421. Как вы проектируете disaster recovery для LLM системы при сбое региона?
- 422. Как вы управляете секретами (API keys для LLM) в Kubernetes?
- 423. Как работает tensor parallelism для LLM training? Чем отличается от инференса?
- 424. Что такое pipeline parallelism и проблема pipeline bubbles?
- 425. Как работает sequence parallelism в контексте LLM?
- 426. Что такое 3D parallelism (data + tensor + pipeline)?
- 427. Как вы дебажите медленную меж-GPU коммуникацию в multi-node инференсе?
- 428. Как вы проектируете Kafka топологии для RAG ingestion?
- 429. Что такое end-to-end backpressure в LLM пайплайне и как его реализовать?
- 430. Как вы делаете canary analysis для новой LLM модели?
- 431. Почему LLM inference memory-bound, а не compute-bound?
- 432. Как работает FlashAttention-3 технически? Чем отличается от FA2?
- 433. Почему KV cache растет линейно с длиной контекста и как это оптимизировать?
- 434. Как работает grouped-query attention (GQA) и как trade-off speed/quality?
- 435. Почему MoE (Mixture of Experts) быстрее dense модели при инференсе?
- 436. В чем разница между prefill и decode stage в LLM инференсе?
- 437. Почему decode stage плохо batchится?
- 438. Что такое continuous batching? Как реализовано в vLLM?
- 439. Как работает PagedAttention в vLLM внутренне?
- 440. Как работает speculative decoding? Как выбрать draft модель?
- 441. EAGLE-3 vs Medusa-2 vs Hydra: сравнение speculative decoding методов?
- 442. Что такое prefix caching и когда он эффективен?
- 443. GGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инференса?
- 444. Почему 4-bit inference иногда медленнее 8-bit?
- 445. Как вы измеряете TTFT (Time To First Token) и TPOT (Time Per Output Token)?
- 446. Что такое chunked prefill и зачем он нужен?
- 447. Как работает scheduler в vLLM? Какие алгоритмы выбора запросов?
- 448. Что такое KV cache reuse в multi-turn диалогах и как его реализовать?
- 449. Как вы делаете streaming в production с учетом network limitations?
- 450. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного?
- 451. Как вы делаете load testing для LLM endpoint? Какие метрики ключевые?
- 452. Как вы управляете memory fragmentation при длительном раннинге LLM сервера?
- 453. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)?
- 454. Что такое prompt caching у провайдеров (Anthropic, Google) и как его использовать?
- 455. Как вы выбираете между online и batch инференсом для LLM?
- 456. Что такое Medusa (multiple heads) для speculative decoding?
- 457. Как работает quantization-aware scaling в AWQ для защиты важных весов?
- 458. Что такое FP8 инференс на H100 (Transformer Engine)?
- 459. Как вы дебажите низкую GPU utilization (например, 40% на A100)?
- 460. Как работает tensor parallelism с FP8 в vLLM?
- 461. Почему training 70B модели требует optimizer sharding (ZeRO-3)?
- 462. ZeRO-1 vs ZeRO-2 vs ZeRO-3: что и когда использовать?
- 463. Что такое activation recomputation (checkpointing) и зачем оно нужно?
- 464. Почему BF16 лучше FP16 для training?
- 465. Как работает gradient checkpointing в DeepSpeed?
- 466. Что такое curriculum learning для LLM и как его реализовать?
- 467. Что такое packing sequences и зачем он нужен?
- 468. Почему small batch size (<32) ухудшает training стабильность?
- 469. Как работает Mixed Precision Training (FP16 + FP32 master веса)?
- 470. Что такое DeepSpeed ZeRO-Offload и когда он полезен?
- 471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch?
- 472. Почему gradient accumulation эквивалентен большому batch с точки зрения оптимизации?
- 473. Что такое torch.compile и как он ускоряет training?
- 474. Как работает FlashAttention для training (не только inference)?
- 475. Почему tokenizer влияет на стоимость training?
- 476. Как работает packing для variable-length sequences в FSDP?
- 477. Что такое curriculum learning на уровне данных для LLM?
- 478. Как работает distributed optimizer в PyTorch (torch.distributed.optim)?
- 479. Что такое activation offloading и когда он нужен?
- 480. Как работает selective activation recomputation?
- 481. Что такое LoRA для training (инференс уже знаем)?
- 482. Как работает QLoRA (Quantized LoRA) для training?
- 483. Как работает DoRA (Weight-Decomposed LoRA) и чем лучше LoRA?
- 484. Что такое ReFT (Representation Fine-Tuning) и когда он лучше LoRA?
- 485. Как вы дебажите training instability (loss spikes, divergence)?
- 486. Почему LLM-as-Judge может быть biased? Назовите 3 основных bias и как их детектировать.
- 487. Что такое calibration ошибок модели и как ее измерять (ECE, MCE, Brier score)?
- 488. Что такое benchmark contamination и как ее детектировать?
- 489. Что такое reward hacking в RLHF и как его детектировать?
- 490. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)?
- 491. Что такое statistical power evaluation и как определять размер выборки для A/B теста?
- 492. Как вы измеряете inter-rater reliability для human evaluation?
- 493. Что такое Positional bias в LLM-as-Judge и как его исправить?
- 494. Что такое synthetic eval collapse и как его предотвратить?
- 495. Что такое pairwise comparison vs scalar rating? Когда что использовать?
- 496. Что такое reward correlation и как ее измерять?
- 497. Как вы проектируете red teaming evaluation для jailbreak устойчивости?
- 498. Что такое meta-evaluation бенчмарков (оценка оценки)?
- 499. Как вы оцениваете alignment модели с человеческими ценностями без gold standard?
- 500. Как вы измеряете uncertainty в ответах LLM (logit-based vs ensemble methods)?
- 501. Что такое Path-level evaluation для Agentic RAG и чем оно лучше token-level?
- 502. Как вы A/B тестируете две версии промпта в production?
- 503. Как вы измеряете drift retrieval-качества в RAG (когда документы меняются)?
- 504. Как вы оцениваете cost-effectiveness LLM-пайплайна?
- 505. Как вы проверяете, что новая версия модели не сломала старые кейсы?
- 506. Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации?
- 507. Что такое calibration в контексте reward model для RLHF?
- 508. Как вы оцениваете faithfulness без ground truth (если нет правильного ответа)?
- 509. Как вы сравниваете две модели, если у них разная latency (быстрая неточная vs медленная точная)?
- 510. Что такое benchmark chasing и почему это опасно?
- 511. Как вы проектируете ETL пайплайн для 1M документов/день в RAG систему?
- 512. Как вы дедуплицируете документы перед индексацией в RAG?
- 513. Что такое weak supervision для разметки данных для fine-tuning и как его применить?
- 514. Как вы генерируете synthetic данные для instruction tuning?
- 515. Как вы отслеживаете data drift для распределения запросов к RAG?
- 516. Как вы управляете качеством разметки (label quality) для DPO датасетов?
- 517. Как вы проектируете feature store для ML фичей, используемых LLM?
- 518. Как вы обрабатываете PII в данных для RAG (GDPR, 152-ФЗ)?
- 519. Как вы делаете backfill эмбеддингов при смене embedding модели?
- 520. Как вы проектируете data lineage для RAG (от документа к ответу)?
- 521. Как вы делаете incremental ingestion для часто меняющихся документов?
- 522. Что такое data version control (DVC) для RAG корпуса документов?
- 523. Как вы делаете synthetic data generation для редких классов в датасете?
- 524. Как вы обрабатываете streaming данные для real-time RAG?
- 525. Как вы управляете cost хранения векторной БД при миллиарде векторов?
- 526. Как вы делаете schema evolution для метаданных документов в RAG?
- 527. Как вы проверяете качество парсинга документов (PDF, DOCX) в production?
- 528. Как вы обрабатываете corrupted или empty документы в ingestion пайплайне?
- 529. Как вы проектируете feature engineering для контекста RAG (кроме текста)?
- 530. Как вы делаете data quality monitoring для RAG корпуса?
- 531. Как вы делаете active learning loop для улучшения retrieval?
- 532. Что такое data contract между сервисами в RAG пайплайне?
- 533. Как вы обрабатываете real-time фичи для LLM (например, текущий сток товара)?
- 534. Как вы делаете data quality для синтетических датасетов?
- 535. Как вы проектируете векторную БД с миллиардом векторов при ограниченном бюджете?
- 536. Как работает CLIP (Contrastive Language-Image Pre-training) внутренне?
- 537. Что такое SigLIP и чем отличается от CLIP?
- 538. Как работает vision encoder в GPT-4V / LLaVA?
- 539. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V?
- 540. Как работает Q-Former в BLIP-2 и зачем он нужен?
- 541. Как вы делаете RAG для изображений (image retrieval without text)?
- 542. Как вы парсите сложные PDF с таблицами и графиками (не просто текст)?
- 543. Как работает Whisper архитектурно для ASR (Automatic Speech Recognition)?
- 544. Как вы строите real-time voice agent с latency <500ms?
- 545. Как работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)?
- 546. Как вы индексируете видео-контент в RAG-системе?
- 547. Как вы оцениваете мультимодальную модель на галлюцинации (POPE, MMHal-Bench)?
- 548. Что такое diffusion backends для генерации изображений (Stable Diffusion, Flux) и как их вызывать из агента?
- 549. Как вы проектируете систему для real-time video understanding (поток с камеры)?
- 550. Как работает OCR для RAG? Недостатки и когда его недостаточно?
- 551. Как работает AudioLM и MusicGen для генерации аудио?
- 552. Как вы делаете image captioning для RAG (извлечение описания изображения)?
- 553. Что такое LayoutLMv3 и зачем он для document understanding?
- 554. Как вы делаете image retrieval по тексту с высокой точностью?
- 555. Как работает мультимодальный RAG с unified retrieval (один индекс для текста и изображений)?
- 556. Как вы делаете extraction таблиц из PDF для RAG?
- 557. Как работает Zero-shot classification для изображений (CLIP vs другие методы)?
- 558. Как вы делаете video summarization для RAG (вход — длинное видео, выход — краткое описание)?
- 559. Что такое Audio RAG (RAG для аудиофайлов)?
- 560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей?
- 561. Как вы проектируете multimodal RAG для диаграмм (flowchart, architecture diagram)?
- 562. Как работает whisper.cpp для локального ASR с low latency?
- 563. Как вы делаете image retrieval с фильтрацией по метаданным (дата, местоположение, камера)?
- 564. Как работает модели типа Kosmos-2 (grounding объектов на изображении)?
- 565. Как вы делаете retrieval для изображений с защитой авторских прав (watermarking)?
- 566. Почему агенты деградируют на длинных horizon (более 10 шагов)?
- 567. Что такое planner/executor architecture для агентов и когда она нужна?
- 568. Как работает Toolformer-like обучение для агентов (self-supervised tool use)?
- 569. Что такое reflection loops для агентов и как они работают?
- 570. Что такое tree search agents (MCTS for LLM) и когда они эффективны?
- 571. Как работают verifier models для agentic RAG и зачем они нужны?
- 572. Что такое trajectory optimization для агентов и как ее реализовать?
- 573. Как вы предотвращаете tool overuse (когда агент вызывает API даже когда не нужно)?
- 574. Что такое memory corruption в агентах и как его детектировать?
- 575. Как работает hierarchical planning для агентов (разбивка на подзадачи)?
- 576. Что такое skill libraries для агентов и как их создавать?
- 577. Как вы делаете agent robustness к adversarial instructions (jailbreak через агента)?
- 578. Что такое agent evaluation метрика: successful task completion rate vs step efficiency?
- 579. Как работает agent replay для улучшения качества (анализ failed траекторий)?
- 580. Как вы делаем agent with theory of mind (понимание намерений пользователя)?
- 581. Что такое multi-agent debate и как он улучшает качество ответов?
- 582. Как работает agent self-improvement через self-reflection on failures?
- 583. Как вы делаете agent с bounded rationality (ограниченные вычислительные ресурсы)?
- 584. Что такое **agent distillation** (обучение маленького агента на траекториях большого)?
- 585. Как вы делаете agent robustness к missing API (когда инструмент временно недоступен)?
- 586. Что такое agent state management (состояние агента между вызовами)?
- 587. Как работает agent with external tool verification (проверка результатов API)?
- 588. Что такое agent explanation fidelity (насколько объяснение соответствует реальному решению)?
- 589. Как вы делаете agent с human values alignment (Constitutional AI для агентов)?
- 590. Как работает multi-agent with role specialization (агенты-эксперты в разных доменах)?
- 591. Что такое agent communication protocol (формат сообщений между агентами)?
- 592. Как вы делаете agent with iterative refinement (улучшение ответа через обратную связь)?
- 593. Как работает agent handover (передача задачи другому агенту)?
- 594. Что такое agent safety constraints (ограничения на действия агента)?
- 595. Как вы делаете agent evaluation на длинных horizon (100+ шагов)?
- 596. Как работает model stealing attack (экстракция модели через API)?
- 597. Что такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)?
- 598. Как работает embedding poisoning для RAG и как защититься?
- 599. Что такое adversarial retrieval (атака на retrieval компонент RAG)?
- 600. Как вы защищаете LLM от градиентных атак (white-box jailbreak)?
- 601. Что такое data poisoning атака на fine-tuning и как защититься?
- 602. Как работает membership inference атака на LLM?
- 603. Что такое watermarking для LLM генераций и как его детектировать?
- 604. Как вы защищаете multi-agent систему от вредоносного агента?
- 605. Что такое adversarial fine-tuning для защиты от jailbreak?
- 606. Как работает prompt leakage (кража системного промпта) и как защититься?
- 607. Что такое sandbox escape для AI-агента и как защититься?
- 608. Как работает model inversion атака (восстановление training данных)?
- 609. Как вы защищаете RAG от document injection (вредоносные документы в базе знаний)?
- 610. Что такое malicious embeddings (атака через векторные БД)?
- 611. Как работает adversarial example для embedding моделей (атака на retrieval)?
- 612. Что такое data exfiltration через LLM (утечка данных через ответы)?
- 613. Как работает model watermarking для LLM (идентификация модели-источника)?
- 614. Как вы защищаете LLM от prompt injection через RAG (когда документ содержит инструкцию)?
- 615. Что такое adversarial patch для vision-language моделей (физическая атака)?
- 616. Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)?
- 617. Как вы защищаете агента от tool injection (вредоносный API ответ)?
- 618. Что такое jailbreak as a service (коммерческие jailbreak сервисы) и как защититься?
- 619. Как работает LLM fingerprinting (идентификация модели по ответам)?
- 620. Что такое differential privacy для LLM и как она работает?
- 621. Как вы защищаете LLM от prompt injection через изображения (VL-модели)?
- 622. Как работает membership inference через logits (разница в вероятностях)?
- 623. Что такое secure aggregation для федеративного обучения LLM?
- 624. Как вы защищаете RAG от data poisoning через неявные инструкции (subtle injections)?
- 625. Что такое adversarial prompt detection для реального времени (runtime)?
- 626. Как работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)?
- 627. Как вы тестируете long-context capability модели (бенчмарки: RULER, Needle in a Haystack)?
- 628. Что такое attention sink и почему он возникает в длинных контекстах?
- 629. Как работает sliding window attention в Mistral и Longformer?
- 630. Как работает RoPE (Rotary Position Embeddings) для экстраполяции на длинные контексты?
- 631. Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)?
- 632. Как работает Infini-attention (Google, 2024) для бесконечного контекста?
- 633. Как вы оцениваете reasoning capability (не просто recall) на длинном контексте?
- 634. Что такое "lost in the middle" и как это связано с attention sink?
- 635. Как работает RAPTOR (иерархическое суммирование для длинного контекста)?
- 636. Как вы проектируете промпт для long context рассуждения (CoT, ToT, GoT)?
- 637. Что такое Chain-of-Thought без токенов (latent CoT, COCONUT)?
- 638. Как работает ∇-Reasoner (градиентный спуск в пространстве токенов на этапе теста)?
- 639. Как вы делаете model selection для long context (какая модель лучше держит 100k+)?
- 640. Как работает Multi-query attention (MQA) для long context?
- 641. Что такое grouped-query attention (GQA) как компромисс для long context?
- 642. Как вы реализуете KV cache для 1M токенов на 8x H100?
- 643. Как работает YaRN (Yet another RoPE extensioN) для увеличения контекста?
- 644. Как вы оцениваете faithfulness ответа на длинном контексте (когда много информации)?
- 645. Что такое hierarchical retrieval для long context RAG (когда контекст > 100k)?
- 646. Как работает attention с линейной сложностью (Linformer, Performer, Longformer)?
- 647. Как вы делаете long context для code generation (модель должна видеть весь репозиторий)?
- 648. Что такое streaming LLM для бесконечного контекста (техника rollback)?
- 649. Как вы измеряете reasoning degradation с ростом контекста? (curse of length)
- 650. Что такое memory-efficient attention для long context на 8x H100?
- 651. Как работает attention математически? Выведите формулу scaled dot-product attention.
- 652. Почему в формуле attention нужно делить на √d_k? Что будет без масштабирования?
- 653. Что такое position encoding? RoPE vs абсолютные позиции vs относительные позиции?
- 654. Как работает LayerNorm и RMSNorm? В чем разница и почему RMSNorm быстрее?
- 655. Что такое SwiGLU и почему он лучше ReLU в LLM?
- 656. Как работает кросс-энтропия (cross-entropy loss) для LLM обучения?
- 657. Что такое KL divergence и где она применяется в LLM (RLHF, distillation)?
- 658. Как работает perplexity и как ее интерпретировать? Связь с cross-entropy?
- 659. Что такое Adam optimizer и как работают его параметры (β1, β2, ε, learning rate)?
- 660. Что такое gradient clipping и зачем он нужен при обучении LLM?
- 661. Как работает softmax и почему он вызывает проблемы с градиентами при больших logits?
- 662. Что такое logits и как они связаны с вероятностями? temperature scaling?
- 663. Как работает обратное распространение (backpropagation) в трансформере?
- 664. Что такое vanishing / exploding gradients в трансформерах и как их предотвратить?
- 665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)?
- 666. Что такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?
- 667. Как работает FlashAttention математически (tiling, recomputation, не материализуя S)?
- 668. Что такое индуктивные biases трансформеров? (positional invariance, order sensitivity)?
- 669. Как работает связь между SGD и Adam? Почему Adam лучше для LLM?
- 670. Что такое loss landscape LLM и как оно влияет на обучение (sharp vs flat minima)?
- 671. Как работает эмбеддинг слой и почему его размер (embedding dimension) важен?
- 672. Что такое residual connections и зачем они нужны в трансформере?
- 673. Как работает нормализация перед attention (pre-norm) vs после (post-norm)?
- 674. Что такое logit lens (интерпретация скрытых состояний)?
- 675. Как работает dropout и зачем он нужен в LLM? (regularization)
- 676. Что такое residual stream и как он связан с информационным потоком в трансформере?
- 677. Как работает forward pass LLM: от токена до вероятности следующего токена?
- 678. Как работает greedy decoding vs beam search vs sampling?
- 679. Что такое repetition penalty и как он работает?
- 680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)?
- 681. Как вы генерируете синтетический датасет для instruction tuning? Self-instruct, Evol-Instruct?
- 682. Как вы оцениваете качество синтетических данных? (Self-consistency, LLM-as-Judge)
- 683. Что такое data augmentation для LLM (back-translation, paraphrasing, masking)?
- 684. Как вы генерируете hard negative примеры для retrieval обучения?
- 685. Как вы детектируете и удаляете низкокачественные примеры из синтетического датасета?
- 686. Как работает synthetic data для RLHF (предпочтения)?
- 687. Как вы делаете synthetic eval (генерация тестовых вопросов по документам)?
- 688. Что такое synthetic data collapse (когда синтетические данные деградируют со временем)?
- 689. Как вы проектируете dynamic benchmark (меняющийся со временем)?
- 690. Как вы измеряете diversity синтетического датасета?
- 691. Как вы делаете synthetic data для редких языков (не английский)?
- 692. Что такое curriculum learning for synthetic data (обучение на легких данных сначала)?
- 693. Как вы обнаруживаете contamination (пересечение synthetic данных с тестовыми)?
- 694. Как работает weak supervision для synthetic данных (создание правил разметки)?
- 695. Как вы делаете synthetic data для multi-turn диалогов (агентов)?
- 696. Что такое active learning для сбора синтетических данных?
- 697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)?
- 698. Как вы делаете synthetic data для сложного рассуждения (math, code)?
- 699. Как вы оцениваете, сколько синтетических данных нужно для fine-tuning (power analysis)?
- 700. Как вы комбинируете реальные и синтетические данные для максимального качества?
- 701. Как работает warp scheduling на NVIDIA GPU и как это влияет на LLM kernels?
- 702. Что такое memory coalescing и почему оно важно для attention?
- 703. Как работает L1/L2 cache hierarchy в A100/H100 и как ее использовать для LLM?
- 704. Что такое bank conflicts в shared memory и как их избежать?
- 705. Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100?
- 706. Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3?
- 707. Как работает asynchronous execution на Hopper (copy engine vs compute)?
- 708. Что такое MIG (Multi-Instance GPU) и как настроить для разных LLM?
- 709. NVIDIA Grace Hopper: CPU-GPU unified memory, как это меняет LLM serving?
- 710. Бенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?
- 711. Как работает speculative execution на GPU для LLM (branch prediction)?
- 712. Что такое Cooperative Groups в CUDA и как использовать для attention?
- 713. Как работает Mamba (State Space Model) и чем она лучше трансформера?
- 714. RWKV (RNN with Transformer attention): как комбинирует RNN и attention?
- 715. Hyena: как заменить attention на свертки, сохранив качество?
- 716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context?
- 717. Почему трансформеры до сих пор побеждают SSM на большинстве задач (2026)?
- 718. Что такое Test-Time Training (TTT) слои и как они работают?
- 719. Как проектировать аукцион для allocation вычислительных ресурсов между агентами?
- 720. Что такое mechanism design для multi-agent systems и как применить к LLM-агентам?
- 721. Как предотвращать collusion (сговор) между агентами в децентрализованной системе?
- 722. Что такое VCG auction (Vickrey-Clarke-Groves) и как он обеспечивает truthfulness?
- 723. Как моделировать экономику агентов с ограниченными бюджетами на API вызовы?
- 724. Что такое emergent specialization в multi-agent systems (агенты сами распределяют роли)?
- 725. Как проектировать reputation system для агентов в децентрализованной системе?
- 726. Как предотвращать free-riding в multi-agent системе (агенты не вносят вклад, но потребляют)?
- 727. Как LLM применяются для protein folding (AlphaFold 3, ESM3)? Архитектура и отличия?
- 728. Что такое AI for materials science (GNoME, MatterGen) и как это отличается от text LLM?
- 729. Как LLM используются для code generation с формальной верификацией (Dafny, Lean)?
- 730. Что такое LLM для symbolic regression (AI Feynman) и как это работает?
- 731. Как комбинировать LLM с симуляторами физики (digital twins)?
- 732. Что такое EU AI Act и как оно влияет на деплой LLM в production?
- 733. Как выполнять requirement on transparency (статья 13 EU AI Act) для LLM?
- 734. Что такое model cards и system cards и как их составлять?
- 735. Как проводить safety case для LLM системы (аналог safety case в авиации)?
- 736. Что такое red teaming certification (стандарты 2026 для оценки robustness)?
- 737. Что такое Harness Engineering и чем он отличается от Prompt Engineering и MLOps?
- 738. Назовите 12+ слоёв эталонной архитектуры Harness?
- 739. Как изменилась роль инженера с приходом Harness Engineering?
- 740. Что такое Context Engineering в рамках Harness и почему это отдельный слой?
- 741. Что такое Partial Harnessing (частичное управление)?
- 742. В чем разница между Workflow и Guidance в теории harness-engineering?
- 743. Какие есть типичные failure modes в harness-engineering (over-decomposition, over-pruning)?
- 744. Что такое Agent Loop и какие компоненты входят в production-ready loop?
- 745. Что такое AgentPool и Handoff в multi-agent orchestration?
- 746. Что такое Safety & Guardrails как слой Harness? Чем runtime guardrails отличаются от тестирования?
- 747. Что такое AdmissionController в Harness и зачем он нужен?
- 748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)?
- 749. Что такое Session Management в Harness и какие стратегии (TTL, LRU, GC)?
- 750. Как устроена Memory в Harness (in-memory, fs, vector stores, relay)?
- 751. Что такое Tool System в Harness (defineTool, registry, JSON schema validation, rate limiting)?
- 752. Как Harness Engineering помогает решить проблему "гарантий исполнения" в критических миссиях (mission-critical)?
- 753. Что такое Coordination Engineering и чем он отличается от Harness Engineering?
- 754. Как Harness Engineering связан с наблюдаемостью (OpenTelemetry, LangSmith, трассировка)?
- 755. Что такое эволюция (evolution) в Harness Engineering (component registry, drift detection)?
- 756. Как выглядит process operational excellence в Harness Engineering (ORR, Operational Reviews)?
- 757. Какие инструменты и фреймворки существуют для Harness Engineering?
- 758. Как вы проектируете Harness для mission-critical приложения? Приведите пример с агентом для банковских переводов.
- 759. Какие книги или ресурсы вы рекомендуете по Harness Engineering?
- 760. Что такое Delegation Engineering и чем он отличается от Harness Engineering?
- 761. Какие паттерны делегирования существуют (hierarchical, peer-to-peer, market-based)?
- 762. Что такое «эскалация человеку» (human escalation) и как её проектировать?
- 763. Как проектировать fallback-цепи (агент А → агент Б → человек)?
- 764. Что такое graceful degradation в multi-agent системах?
- 765. Как измерять «стоимость делегирования» (токены + время + деньги)?
- 766. Что такое delegation by exception (делегирование только по исключению)?
- 767. Как проектировать SLA между агентом-менеджером и агентами-исполнителями?
- 768. Что такое «ротация агентов» (load balancing между агентами)?
- 769. Как тестировать delegation paths (интеграционное тестирование multi-agent)?
- 770. Что такое «откат делегирования» (rollback delegation) при ошибке?
- 771. Как проектировать delegation с учётом человеческого фактора (усталость, занятость)?
- 772. Что такое «аутсорсинг» задачи другому LLM (с другим API, другой ценой)?
- 773. Как измерять «коэффициент полезного делегирования» (сколько задач решено правильно)?
- 774. Какие инструменты для Delegation Engineering существуют (Airflow для агентов)?
- 775. Что такое Cost Engineering для LLM-систем?
- 776. Как считать TCO (Total Cost of Ownership) для RAG/Agent системы?
- 777. Что такое «cost per good answer» и как его измерять?
- 778. Как проектировать cost-aware routing (дешёвая модель для простых запросов, дорогая — для сложных)?
- 779. Что такое «token budget» для агента и как его выставлять?
- 780. Как измерять ROI от fine-tuning (окупается ли дообучение более дешёвым инференсом)?
- 781. Как проектировать auto-scaling с учётом cost (spot vs on-demand)?
- 782. Что такое «cost attribution» (какой компонент сколько стоит)?
- 783. Как сравнивать cost efficiency разных LLM провайдеров?
- 784. Как строить финансовую модель LLM-продукта для бизнеса?
- 785. Как тестировать агентов на недетерминированность?
- 786. Что такое «golden dataset» для агента и как его создавать?
- 787. Как делать property-based testing для агентов?
- 788. Что такое «simulation testing» (тестирование в симулированной среде)?
- 789. Как тестировать multi-turn диалоги агента?
- 790. Что такое «canary testing» для агентов (10% трафика на новую версию)?
- 791. Как тестировать fallback и graceful degradation?
- 792. Что такое «regression testing» для агентов (старый кейс сломался)?
- 793. Как тестировать инструменты агента (tool testing изолированно)?
- 794. Что такое «test coverage» для агента (покрытие траекторий, а не кода)?
- 795. Как автоматизировать test generation для агента?
- 796. Что такое «chaos testing» для агента (внезапно API вернул ошибку)?
- 797. Как тестировать промпты (prompt regression testing)?
- 798. Как тестировать промпты на регрессии (prompt regression suite)?
- 799. Как интегрировать тестирование агентов в CI/CD?
- 800. Что такое Prompt Registry (каталог промптов с версиями)?
- 801. Как делать A/B тестирование промптов в production?
- 802. Что такое «prompt as code» (промпты в Git, code review)?
- 803. Как делать canary deployment для промптов (5% трафика)?
- 804. Как делать rollback промпта (auto-rollback при деградации метрик)?
- 805. Что такое «prompt linting» (статический анализ промптов)?
- 806. Как управлять dependency между промптами (один промпт вызывает другой)?
- 807. Что такое «prompt observability» (мониторинг эффективности промптов в production)?
- 808. Что такое «prompt templating» и как его версионировать?
- 809. Как управлять версиями промптов в production (best practices)?
- 810. Какие протоколы меж-агентской коммуникации существуют (A2A, MCP, OpenAI swarm)?
- 811. Что такое «message bus» для агентов (Kafka, NATS, Redis PubSub)?
- 812. Как обеспечивать exactly-once delivery между агентами?
- 813. Что такое «actor model» для агентов (Akka, Orleans)?
- 814. Как проектировать rate limiting на уровне сообщений?
- 815. Что такое «dead letter queue» для сообщений агентов?
- 816. Как обеспечивать backward compatibility при изменении протокола?
- 817. Что такое «message schema evolution» (Avro/Protobuf)?
- 818. Как проектировать request-response vs fire-and-forget для агентов?
- 819. Что такое «circuit breaker» на уровне меж-агентских вызовов?
- 820. Как масштабировать vLLM на несколько GPU/нод?
- 821. Как избежать hot shard в Qdrant (или другой векторной БД)?
- 822. Что делать, если embedding pipeline отстаёт от ingestion (backpressure)?
- 823. Как проектировать AI pipeline с at-least-once семантикой?
- 824. Как организовать distributed tracing для agent pipeline?
- 825. Что такое autoscaling inference и как его настроить?
- 826. Как организовать GPU scheduling для multi-tenant LLM serving?
- 827. Какие есть стратегии распределённого кэширования для LLM (Redis Cluster, Memcached, Hazelcast)?
- 828. Как проектировать distributed locking для LLM agents?
- 829. Что такое rate limiting на уровне API Gateway для LLM?
- 830. Как проектировать retry storm mitigation (защита от лавинных ретраев)?
- 831. Как проектировать graceful degradation при отказе vector DB?
- 832. Как проектировать graceful degradation при отказе LLM API?
- 833. Как организовать multi-region active-passive для LLM API?
- 834. Как учитывать CAP theorem в AI systems?
- 835. Как проектировать distributed dead letter queue для сообщений?
- 836. Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)?
- 837. Как работает paged attention? (детально)
- 838. Как speculative decoding ускоряет inference? (детально)
- 839. Чем AWQ отличается от GPTQ?
- 840. Когда tensor parallelism хуже pipeline parallelism?
- 841. Как устроен KV cache? Почему он bottleneck?
- 842. Как работает prefix caching и prompt caching у провайдеров?
- 843. Что такое continuous batching и как оно влияет на throughput?
- 844. Как работает FlashAttention-3 математически?
- 845. Как работают CUDA graphs и когда их использовать?
- 846. Как дебажить memory fragmentation в LLM сервере?
- 847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)?
- 848. Как работает динамическое бэтчирование в TGI vs vLLM?
- 849. Что такое expert parallelism для MoE моделей (Mixtral)?
- 850. Как работают inference schedulers (FCFS, Priority, Fairness)?
- 851. Как строить streaming RAG pipeline (real-time ingestion)?
- 852. Как обрабатывать schema drift в данных для RAG?
- 853. Как организовать feature store для AI (Feast, Hopsworks)?
- 854. Почему Kafka лучше RabbitMQ для event streaming?
- 855. Как проектировать CDC (Change Data Capture) для документов?
- 856. Как организовать data versioning (DVC, LakeFS, Delta Lake)?
- 857. Как реализовать online/offline feature consistency для LLM?
- 858. Как проектировать ETL vs ELT для RAG?
- 859. Как организовать streaming feature pipelines для real-time RAG?
- 860. Инициализация транзакционного продюсера
- 861. Как проектировать data contracts для RAG пайплайна?
- 862. Как делать feature engineering для RAG (кроме текста)?
- 863. Как проектировать Airflow DAG для RAG ingestion?
- 864. Как обрабатывать late-arriving data в ingestion?
- 865. Как проектировать schema registry для метаданных RAG?
- 866. Как генерировать synthetic датасеты для RAG evaluation?
- 867. Как делать adversarial evals для RAG (проверка на устойчивость)?
- 868. Что такое red teaming для LLM и как его проводить?
- 869. Как избежать benchmark contamination (когда модель видела тестовые данные)?
- 870. Как работает LLM-as-judge и почему он biased?
- 871. Как делать pairwise ranking для сравнения моделей?
- 872. Что такое calibration для LLM и как её измерять (ECE)?
- 873. Как детектировать reward hacking в RLHF?
- 874. Как оценивать multi-step agents (не только final answer)?
- 875. Как делать synthetic eval datasets для agentic workflows?
- 876. Как избежать evaluation overfitting (когда модель учится на тесте)?
- 877. Как работает process reward model (PRM) vs outcome reward model (ORM)?
- 878. Как измерять faithfulness для long-form ответов (1000+ токенов)?
- 879. Как делать evaluation для long-context RAG (>100k токенов)?
- 880. Как проектировать golden dataset для agent evaluation?
- 881. Что такое jailbreak taxonomy (полная классификация)?
- 882. Как происходит tool poisoning (атака через инструменты агента)?
- 883. Как защитить RAG от poisoning (вредоносные документы в базе знаний)?
- 884. Как работает model extraction attack и как защититься?
- 885. Как происходит PII leakage через LLM и как защититься?
- 886. Как делать sandboxing для agent tools (изоляция выполнения)?
- 887. Как проектировать agent permissions (least privilege модель)?
- 888. Как защититься от prompt stealing (кража системного промпта)?
- 889. Как детектировать и предотвращать vector DB poisoning?
- 890. Как тестировать robustness LLM к adversarial inputs?
- 891. Что такое planner-executor архитектура для агентов?
- 892. Как работают verifier models для agentic RAG?
- 893. Как работает tree search (MCTS) для LLM агентов?
- 894. Как работает memory compression для агентов (long-term memory)?
- 895. Как оптимизировать траектории агента (trajectory optimization)?
- 896. Как сделать агента самовосстанавливающимся (self-healing)?
- 897. Как работают agent swarms (рой агентов)?
- 898. Как работает Toolformer (обучение агента использованию инструментов)?
- 899. Что такое DSPy в контексте агентов?
- 900. Как работают browser agents и computer use agents (Claude Computer Use)?