中文翻译暂不可用,显示俄语原文。
Оглавление
Практика
Категория 1: Networking / Low-Level Systems
- 1. Развернуть NCCL бенчмарк на 2-8 GPU
- 2. Написать RDMA-читалку для KV cache
- 3. Профилировать NUMA влияние на latency
- 4. Настроить GPU Direct RDMA
- 5. Сравнить NCCL ring vs tree
- 6. Настроить NVLink topology для 8x GPU
- 7. Написать pinned memory аллокатор
- 8. Настроить InfiniBand partition keys
- 9. Профилировать network congestion на 64 GPU
- 10. Реализовать topology-aware scheduling
Категория 2: Storage Systems
- 11. Конвертировать датасет из JSONL в Parquet
- 12. Настроить mmap для embeddings
- 13. Сравнить S3 vs EBS для checkpoint'ов 70B
- 14. Реализовать WAL для векторной БД
- 15. Настроить tiered storage (hot/warm/cold)
- 16. Реализовать compaction в векторной БД
- 17. Настроить S3 consistency для RAG
- 18. Сравнить распределенные FS (Lustre, BeeGFS, JuiceFS)
- 19. Реализовать data locality scheduler
- 20. Настроить sharding для petabyte embeddings
Категория 3: Observability / Operability
- 21. Интегрировать OpenTelemetry в RAG
- 22. Настроить high-cardinality metrics в VictoriaMetrics
- 23. Реализовать distributed tracing для агента
- 24. Настроить RED metrics для LLM
- 25. Спроектировать structured logging для LLM
- 26. Реализовать SLO для faithfulness
- 27. Настроить tail latency amplification мониторинг
- 28. Создать runbook для инцидентов
- 29. Реализовать автоматический postmortem
- 30. Настроить correlation между метриками
- 251. Настроить дашборд в Grafana для LLM
- 252. Реализовать алертинг по faithfulness
- 253. Настроить логирование в ClickHouse
- 254. Реализовать SLO для RAG
- 255. Настроить correlation метрик
Категория 4: Cache Systems
- 31. Реализовать семантический кэш
- 32. Настроить Redis cluster с LFU eviction
- 33. Реализовать write-through cache для RAG
- 34. Настроить Bloom filter для retrieval
- 35. Реализовать cache stampede защиту
- 36. Настроить Redis с persistent storage
- 37. Реализовать sharded cache на 10+ нод
- 38. Настроить TTL для semantic cache
- 39. Реализовать cache warming
- 40. Настроить hot shard detection
- 256. Настроить LFU eviction в Redis
- 257. Реализовать cache invalidation
- 258. Настроить write-through cache
- 259. Реализовать Bloom filter для retrieval
- 260. Настроить TTL для semantic cache
Категория 5: Search / IR Theory
- 41. Реализовать BM25 с нуля
- 42. Настроить hybrid search с весами
- 43. Реализовать RRF (Reciprocal Rank Fusion)
- 44. Настроить query expansion
- 45. Реализовать learning-to-rank с LambdaMART
- 46. Настроить cross-encoder reranking
- 47. Реализовать query drift детекцию
- 48. Настроить click models для implicit feedback
- 49. Реализовать dense retrieval failure detection
- 50. Настроить contextual retrieval (Anthropic стиль)
Категория 6: Model Architectures
- 51. Развернуть Mamba-2 локально
- 52. Настроить RWKV для инференса
- 53. Реализовать selective scan (Mamba)
- 54. Сравнить Hyena vs FlashAttention на 128k
- 55. Настроить Mixture of Experts (Mixtral)
- 56. Реализовать diffusion LLM (PLANNER)
- 57. Настроить recurrent memory для long context
- 58. Реализовать latent reasoning (COCONUT)
- 59. Сравнить архитектуры на reasoning задачах
- 60. Настроить гибрид (Mamba + Attention)
Категория 7: Reasoning Models / Test-Time Compute
- 61. Реализовать Tree of Thoughts
- 62. Настроить MCTS для математических задач
- 63. Реализовать verifier-guided decoding
- 64. Настроить self-consistency для CoT
- 65. Реализовать process reward model
- 66. Настроить search-based inference (AlphaSearch)
- 67. Реализовать latent reasoning (∇-Reasoner)
- 68. Настроить inference-time scaling
- 69. Реализовать deliberate decoding
- 70. Сравнить CoT vs ToT vs MCTS на своем домене
Категория 8: Economics of AI Systems
- 71. Рассчитать cost per 1M tokens для разных моделей
- 72. Настроить capacity planning для GPU кластера
- 73. Сравнить spot vs on-demand для batch inference
- 74. Настроить auto-scaling для vLLM
- 75. Рассчитать ROI для fine-tuning
- 76. Настроить reserved instances для постоянной нагрузки
- 77. Реализовать cost-aware routing
- 78. Рассчитать TCO для self-hosted vs API
- 79. Настроить token economics для агентов
- 80. Реализовать cost attribution per feature
Категория 9: Human Factors / UX
- 81. Спроектировать uncertainty UI
- 82. Реализовать human-in-the-loop для критических действий
- 83. Спроектировать progressive disclosure
- 84. Реализовать conversational repair
- 85. Спроектировать escalation system
- 86. Реализовать user feedback loop
- 87. Спроектировать partial failure UI
- 88. Реализовать hallucination indicator
- 89. Спроектировать onboarding для агента
- 90. Реализовать user trust метрику
Категория 10: Failure Analysis & Postmortems
- 91. Написать postmortem для retrieval degradation
- 92. Профилировать GPU utilization падение
- 93. Настроить алерты на p99 latency spike
- 94. Реализовать failure injection для MoE router
- 95. Написать runbook для synthetic data collapse
- 96. Профилировать reranker negative effect
- 97. Настроить retrieval quality dashboard
- 98. Реализовать chaos testing для агента
- 99. Написать postmortem для cache stampede
- 100. Создать blameless postmortem культуру
- 261. Написать runbook для retrieval degradation
- 262. Настроить дашборд для failures
- 263. Реализовать автоматический postmortem
- 264. Настроить health checks для всех компонентов
- 265. Создать blameless postmortem template
Категория 11: Harness Engineering
- 101. Реализовать Agent Loop с нуля
- 102. Настроить Guardrails на NeMo
- 103. Интегрировать OpenTelemetry в агента
- 104. Реализовать Session Management с TTL
- 105. Настроить Memory (in-memory + vector)
- 106. Реализовать Tool System с JSON Schema
- 107. Настроить AdmissionController
- 108. Реализовать partial harnessing
- 109. Настроить cost tracking для агента
- 110. Реализовать quality gates для агента
- 111. Настроить drift detection для агента
- 112. Реализовать component registry
- 113. Собрать agentic mesh из 3 агентов
- 114. Настроить playground для тестирования агента
- 115. Написать runbook для агента
Категория 12: Delegation Engineering
- 116. Реализовать иерархическое делегирование
- 117. Настроить эскалацию человеку
- 118. Реализовать fallback-цепь (Агент А → Агент Б → человек)
- 119. Измерить cost делегирования
- 120. Реализовать delegation by exception
- 121. Настроить load balancing между агентами
- 122. Протестировать delegation paths
- 123. Реализовать rollback delegation
- 124. Настроить SLA между агентами
- 125. Реализовать market-based делегирование
- 126. Настроить человеческий фактор
- 127. Реализовать outsourcing другому LLM
- 128. Измерить KPD (коэффициент полезного делегирования)
- 129. Настроить monitoring delegation
- 130. Написать postmortem для неудачного делегирования
Категория 13: Cost Engineering
- 131. Рассчитать TCO RAG-системы на 1 год
- 132. Настроить cost tracking в production
- 133. Реализовать cost-aware routing
- 134. Настроить token budget для агента
- 135. Рассчитать ROI от fine-tuning
- 136. Настроить auto-scaling с учётом cost
- 137. Сравнить cost efficiency провайдеров
- 138. Реализовать semantic cache
- 139. Настроить cost attribution per feature
- 140. Рассчитать break-even point продукта
- 141. Настроить budgeting для команд
- 142. Реализовать cost-aware caching
- 143. Сравнить reserved vs spot vs on-demand
- 144. Настроить anomaly detection по cost
- 145. Сделать финансовую модель LLM-продукта
Категория 14: QA & Testing for Agents
- 146. Реализовать golden dataset для агента
- 147. Настроить property-based testing
- 148. Реализовать simulation testing
- 149. Настроить regression test suite
- 150. Реализовать canary deployment агента
- 151. Настроить trajectory coverage
- 152. Реализовать test generation для агента
- 153. Настроить chaos testing
- 154. Протестировать multi-turn диалоги
- 155. Реализовать tool testing изолированно
- 156. Настроить prompt regression suite
- 157. Интегрировать тестирование в CI/CD
- 158. Реализовать fuzzing для агента
- 159. Настроить A/B тестирование агентов
- 160. Написать test plan для агента
Категория 15: Prompt Management
- 161. Развернуть Prompt Registry
- 162. Настроить prompt as code
- 163. Реализовать A/B тестирование промптов
- 164. Настроить canary deployment промптов
- 165. Реализовать prompt linting
- 166. Настроить prompt observability
- 167. Реализовать dependency management промптов
- 168. Настроить templating (Jinja2)
- 169. Реализовать rollback промпта
- 170. Настроить version tagging
- 171. Реализовать prompt diff
- 172. Настроить regression testing промптов
- 173. Реализовать prompt lifecycle
- 174. Настроить prompt caching
- 175. Написать документацию промпта
Категория 16: Inter-Agent Communication
- 176. Развернуть message bus (NATS/Kafka)
- 177. Реализовать протокол A2A
- 178. Настроить exactly-once delivery
- 179. Реализовать actor model для агентов
- 180. Настроить rate limiting на сообщения
- 181. Реализовать dead letter queue для сообщений
- 182. Настроить schema evolution
- 183. Реализовать circuit breaker на вызовы агента
- 184. Настроить distributed tracing
- 185. Реализовать request-response vs fire-and-forget
- 186. Настроить message schema registry
- 187. Реализовать handshake при соединении агентов
- 188. Настроить monitoring сообщений
- 189. Реализовать compression сообщений
- 190. Написать тесты для меж-агентской коммуникации
- 191. Развернуть vLLM на 8 GPU с tensor parallelism
- 192. Настроить autoscaling для LLM сервера
- 193. Реализовать circuit breaker для LLM API
- 194. Настроить distributed tracing через OpenTelemetry
- 195. Реализовать blue-green deployment для RAG
- 196. Настроить backpressure в ingestion
- 197. Реализовать graceful degradation при отказе vector DB
- 198. Настроить multi-region active-passive
- 199. Реализовать distributed lock для обновления памяти
- 200. Настроить load shedding при перегрузке
- 201. Реализовать canary analysis
- 202. Настроить health checks для LLM
- 203. Реализовать retry storm mitigation
- 204. Настроить distributed DLQ для failed инференса
- 205. Настроить GPU scheduling для multi-tenant
- 206. Развернуть vLLM vs TGI, сравнить throughput
- 207. Настроить continuous batching в vLLM
- 208. Реализовать speculative decoding с draft моделью
- 209. Настроить AWQ quantization для LLM
- 210. Сравнить GPTQ vs AWQ на reasoning задачах
- 211. Реализовать prefix caching для system prompt
- 212. Настроить chunked prefill для long context
- 213. Настроить CUDA graphs для коротких запросов
- 214. Реализовать FP8 инференс на H100
- 215. Настроить expert parallelism для Mixtral
- 216. Профилировать memory fragmentation
- 217. Реализовать streaming с SSE
- 218. Настроить prompt caching (Anthropic style)
- 219. Сравнить inference schedulers (FCFS vs Priority)
- 220. Настроить wave decoding для коротких ответов
Категория 17: Distributed Systems for AI
(задачи не загружены)
Категория 18: Inference Optimization
(задачи не загружены)
Категория 19: Pet-Проекты
- 221. RAG на 100 PDF
- 222. Агент для email
- 223. Fine-tune LoRA для стиля
- 224. vLLM кластер на 4 GPU
- 225. Semantic cache для RAG
- 226. Multi-agent для планирования
- 227. RAG с гибридным поиском
- 228. Агент с памятью через векторную БД
- 229. Fine-tune embedding под домен
- 230. RAG с DSPy оптимизацией
- 231. Agentic RAG с саморефлексией
- 232. RAG с кэшированием ответов
- 233. Агент с human-in-the-loop
- 234. RAG с мультимодальными документами
- 235. LoRA для function calling
- 236. RAG с оценкой faithfulness
- 237. Агент с cost tracking
- 238. RAG с incremental update
- 239. Multi-tenant RAG с изоляцией
- 240. Агент с tree search (MCTS)
- 241. RAG с HyDE
- 242. Агент с delegated tools
- 243. RAG с cross-encoder reranking
- 244. Fine-tune QLoRA на 1 GPU
- 245. RAG с semantic chunking
- 246. Агент с наблюдаемостью (OpenTelemetry)
- 247. RAG с distributed tracing
- 248. Агент с A/B тестированием
- 249. RAG с cost-aware routing
- 250. Полный production агент
Вопросы
Основы RAG и retrieval (вопросы 1–50)
- 1. Как бы вы спроектировали RAG-систему для 10 000 документов с
- 2. Как вы решаете проблему «lost in the middle» при работе с дл
- 3. Какие стратегии chunking'а вы знаете и когда какую применяет
- 4. Какую векторную БД вы выберете для production-системы с >1 м
- 5. Как вы оцениваете качество retrieval'а в RAG-системе?
- 6. Что такое гибридный поиск и когда он нужен?
- 7. Как вы уменьшаете latency RAG-системы (время ответа)?
- 8. Как вы обрабатываете запросы, на которые нет ответа в докуме
- 9. Как вы обновляете документы в существующей RAG-системе?
- 10. Что такое Self-RAG и когда его использовать?
- 11. Что такое Hypothetical Document Embeddings (HyDE) и зачем?
- 12. Как вы фильтруете документы по метаданным в векторной БД?
- 13. Как вы загружаете 1000 документов в RAG максимально эффектив
- 14. Как вы обрезаете контекст, когда retrieved documents > конте
- 15. Какие embedding-модели вы использовали и почему?
- 16. Как вы оцениваете качество генерации в RAG? Назовите 3 ключе
- 17. Как вы уменьшаете галлюцинации в RAG?
- 18. Что такое Multi-vector retrieval и зачем он нужен?
- 19. Как вы храните историю диалога в RAG для multi-turn QA?
- 20. Как вы обеспечиваете, что RAG работает с документами на русс
- 21. Когда вы выбираете fine-tuning вместо RAG, а когда — наоборо
- 22. Какие методы fine-tuning вы знаете и какой используете чаще
- 23. Как вы подбираете гиперпараметры для LoRA?
- 24. Какой размер датасета нужен для fine-tuning?
- 25. Как вы оцениваете качество после fine-tuning?
- 26. Как вы предотвращаете catastrophic forgetting при fine-tunin
- 27. QLoRA vs LoRA — в чем разница и когда QLoRA лучше?
- 28. Какие данные нужны для fine-tuning на кастомный стиль общени
- 29. Как fine-tune модель для следования сложным инструкциям?
- 30. Как вы проверяете, что fine-tuned модель не сломала базовые
- 31. Что такое Parameter-Efficient Fine-Tuning (PEFT) и какие мет
- 32. Как вы подготовите датасет для fine-tuning, если у вас тольк
- 33. Какие фреймворки для fine-tuning вы используете?
- 34. Какая у вас была самая сложная проблема при fine-tuning и ка
- 35. Как вы fine-tune embedding модель под свой домен (а не испол
- 36. Что такое DPO (Direct Preference Optimization) и чем отличае
- 37. Как вы избегаете переобучения при fine-tuning на маленьком д
- 38. Как вы fine-tune модель для функции "вызов внешнего API"?
- 39. Сколько эпох достаточно для LoRA fine-tuning?
- 40. Как вы объединяете несколько LoRA адаптеров для разных задач
- 41. LangChain vs LlamaIndex vs Haystack — что выберете и почему?
- 42. Что такое LangGraph и зачем он нужен?
- 43. Как спроектировать агента, который может выполнять цепочку и
- 44. CrewAI vs AutoGen vs LangGraph — сравнение?
- 45. Как вы тестируете агентов? (сложно из-за стохастичности)
- 46. Какие инструменты (tools/functions) дать агенту для автомати
- 47. Что такое ReAct Agent и как он работает?
- 48. Как вы реализуете память агента (Memory) на разных уровнях?
- 49. Как вы дебажите агента, который делает неправильные действия
- 50. Как вы ограничиваете бесконечный цикл агента?
Embeddings и векторные базы данных (вопросы 51–120)
- 51. Как вы передаёте контекст между несколькими агентами (multi-
- 52. LangSmith — зачем и как используете?
- 53. Как вы проектируете промпт для агента с инструментами?
- 54. Что такое Semantic Kernel и чем отличается от LangChain?
- 55. Как вы измеряете стоимость (токены) агентской системы?
- 56. Как вы делаете агента "отказоустойчивым" (graceful degradati
- 57. Какие паттерны multi-agent систем вы знаете?
- 58. Как вы переносите агента из прототипа в production (MLOps)?
- 59. n8n, Make, Zapier — как вы интегрируете их с LLM?
- 60. Как вы обрабатываете ошибки агента (action не сработал, API
- 61. Как вы разворачиваете LLM в production (self-hosted)?
- 62. Какие метрики вы мониторите для LLM в production?
- 63. Как вы управляете разными версиями промптов в production?
- 64. Как вы обеспечиваете низкую задержку (<500ms) для LLM?
- 65. Как вы обрабатываете rate limiting от LLM провайдеров (OpenA
- 66. Как вы управляете контекстным окном (context window) для дли
- 67. Что такое Prompt Injection и как вы защищаетесь?
- 68. Как вы шифруете данные для RAG (конфиденциальность)?
- 69. Как вы организуете CI/CD для RAG-пайплайна?
- 70. Как вы снижаете стоимость LLM в production на 50%+?
- 71. Как вы тестируете RAG-систему на новых документах без реальн
- 72. OpenAI vs Антропик vs Groq vs Self-hosted — что выбираете?
- 73. Как вы логируете все вызовы LLM для аудита?
- 74. Как вы мониторите дрейф данных (data drift) для RAG?
- 75. Что такое structured output / constrained decoding и зачем э
- 76. Как вы делаете A/B тестирование двух моделей в production?
- 77. Как вы оптимизируете embedding генерацию для большого количе
- 78. Какие LLM для русского языка вы используете?
- 79. Как вы обновляете embedding модель без полной переиндексации
- 80. Какие 3 книги/курса вы рекомендуете по production LLM?
- 81. Как бы вы спроектировали систему для 1000 одновременных поль
- 82. Как бы вы спроектировали систему для реального времени (real
- 83. Как спроектировать систему, где LLM должна работать с конфид
- 84. Как бы вы спроектировали multi-tenant RAG (разные компании,
- 85. Как вы обрабатываете смену форматов документов (legacy + нов
- 86. Как вы решаете проблему “я знаю, что ответ есть в документах
- 87. Как вы обеспечиваете, чтобы ответы LLM были консистентными д
- 88. Как бы вы добавили "отмену" (cancellation) для длительных LL
- 89. Как вы спроектируете систему, которая может переключаться ме
- 90. Как вы проектируете API для внешних систем, использующих ваш
- 91. Что такое Semantic Caching и как вы его реализуете?
- 92. Зачем нужен embedding-as-a-service и когда вы его использует
- 93. Как вы дебажите проблему "LLM не следовала системному промпт
- 94. Как вы проектируете промпты, которые работают с разными моде
- 95. Как вы храните историю изменений промптов (prompt lineage)?
- 96. Как вы предотвращаете галлюцинации в production RAG системе?
- 97. Какую LLM вы выберете для "быстрых" (<200ms) простых задач к
- 98. Как вы документируете RAG-систему для команды?
- 99. Как вы планируете масштабирование команды вокруг LLM-системы
- 100. Что вы сделаете в первую неделю на новой работе Senior AI En
- 101. Что такое DSPy и какую проблему он решает, которую не решают
- 102. Объясните концепцию «сигнатуры» (Signature) в DSPy. Чем она
- 103. Какие оптимизаторы (teleprompters) в DSPy вы использовали и
- 104. Как вы интегрируете DSPy с RAG-пайплайном? Приведите пример
- 105. Когда DSPy не подходит? Назовите 3 сценария.
- 106. Как вы валидируете, что DSPy-оптимизация действительно улучш
- 107. Объясните концепцию «программируемых промптов» (DSPy program
- 108. Что такое Assertions в DSPy и зачем они нужны?
- 109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в
- 110. Какое будущее у DSPy? Вытеснит ли он LangChain в 2026-2027?
- 111. Чем мультимодальный RAG отличается от «OCR + текстовый RAG»?
- 112. Как вы извлекаете логические отношения из диаграммы, а не
- 113. Как вы представляете граф знаний из изображения для LLM?
- 114. Что такое Layout-Aware Chunking и как он связан с мультимода
- 115. Как вы обрабатываете большие таблицы в RAG (500+ строк)?
- 116. Как вы индексируете видео-контент в RAG-системе?
- 117. Какие embedding-модели для мультимодального поиска вы исполь
- 118. Как вы проверяете, что LLM правильно «понял» диаграмму, а не
- 119. Как вы комбинируете текстовый и визуальный поиск (early fusi
- 120. Как быть, если одно и то же изображение встречается в докуме
Chunking и обработка данных (вопросы 121–180)
- 121. Назовите OWASP Top 10 для LLM (2025) и 3 самых критичных рис
- 122. Что такое Indirect Prompt Injection через RAG и как защитить
- 123. Как вы защищаете RAG-систему от утечки данных между клиентам
- 124. Что такое модель «Least Privilege» для AI-агентов и как её р
- 125. Объясните разницу между NeMo Guardrails и Garak. Когда что и
- 126. Что такое MITRE ATLAS и как он связан с MITRE ATT&CK?
- 127. Как вы проводите red teaming LLM-приложения? Назовите 3 техн
- 128. Что такое Model Poisoning в контексте RAG и как защититься?
- 129. Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-
- 130. Что такое Constitutional AI и как оно применяется в производ
- 131. Каковы 3 главных bias-эффекта LLM-as-Judge и как их детектир
- 132. Как вы калибруете LLM-судью под человеческие оценки?
- 133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.
- 134. Как вы оцениваете faithfulness RAG-ответа в production автом
- 135. Что такое Path-level evaluation для Agentic RAG и чем оно лу
- 136. Как вы A/B тестируете две версии промпта в production?
- 137. Как вы измеряете drift retrieval-качества в RAG (когда докум
- 138. Что такое «оценка с подкреплением» (RLHF evaluation) и как о
- 139. Как вы оцениваете cost-effectiveness LLM-пайплайна?
- 140. Как вы проверяете, что новая версия модели не сломала старые
- 141. В чем разница между Naive RAG, Adaptive RAG и Agentic RAG?
- 142. Как вы проектируете «планировщика» (planner) для Agentic RAG
- 143. Как вы боретесь с «бесконечным циклом» агента в Agentic RAG?
- 144. Как вы передаете состояние (state) между шагами агента?
- 145. LangGraph vs CrewAI vs AutoGen — что вы выберете и для каких
- 146. Как вы обеспечиваете «человека в петле» (HITL) для критическ
- 147. Как вы логируете и дебажите многошаговые агенты?
- 148. Как вы измеряете стоимость агента в production (не только то
- 149. Как спроектировать агента, который может самоисправляться (s
- 150. Как вы переключаете агента между инструментами (function cal
- 151. Что такое тест-тайм компьютинг (Test-Time Compute) и чем он
- 152. В чем разница между Chain-of-Thought (CoT) и Latent Reasonin
- 153. Что такое ∇-Reasoner (nabla-reasoner) и как он использует гр
- 154. Как масштабируется тест-тайм компьютинг? Есть ли закон dimin
- 155. Что такое Recurrent Depth в контексте LLM и зачем это нужно?
- 156. Как вы выбираете между увеличением тест-тайм компьютинга и и
- 157. Какие есть методы ускорения тест-тайм компьютинга? (KV-cache
- 158. Что такое EAGLE-3 и чем он отличается от стандартного specul
- 159. Как speculative decoding взаимодействует с KV cache?
- 160. Что такое Variational Speculative Decoding (VSD) и чем он ре
- 161. Как вы измеряете эффективность speculative decoding?
- 162. Что такое Quasar и как quantized verification ускоряет инфер
- 163. Как вы деплоите speculative decoding в production?
- 164. Какие trade-offs между разными архитектурами speculative dec
- 165. Как тест-тайм компьютинг меняет MLOps?
- 166. Назовите 7 production failure modes для agentic AI систем по
- 167. Как вы детектируете Distribution Collapse у агента?
- 168. Что такое «Tool Degradation with Availability Masking» и как
- 169. Как вы измеряете объяснимость (explainability) агентских реш
- 170. Что такое GIM (Grounded Integration Measure) и чем он отлича
- 171. Что такое IRT (Item Response Theory) и как она применяется к
- 172. Что такое LiveIdeaBench и для чего он нужен?
- 173. Как вы оцениваете креативность LLM в production?
- 174. Что такое «многошаговая когерентность» (coherence illusion)
- 175. Как детектировать «объяснительно-решенческую декомпозицию»?
- 176. Какие инструменты для агентской эвалюации вы используете?
- 177. Как вы измеряете дрейф модели (model drift) для LLM?
- 178. Чем отличается эвалюация LLM от эвалюации традиционных ML мо
- 179. Как вы A/B тестируете агентов в production?
- 180. Какие failure modes уникальны для multi-agent систем (vs sin
Оценка качества и метрики (вопросы 181–250)
- 181. В чем проблема «natural language bottleneck» для LLM?
- 182. Что такое «схема» (schema) в контексте LLM и как она связана
- 183. Назовите 4 уровня языкового представления по Yang et al. (20
- 184. Почему естественный язык не подходит для сложного рассуждени
- 185. Как код как язык представления улучшает рассуждение LLM?
- 186. Что такое «shaping schema through language representation»?
- 187. Как язык промпта (русский vs английский) влияет на схему рас
- 188. Что такое «Schema-Activated In-Context Learning» (SA-ICL)?
- 189. Как вы проектируете language representation для сложной зада
- 190. Как вы комбинируете несколько языков представления в одном п
- 191. Какие типы задач требуют Level 3 представления (scientific f
- 192. Как вы оцениваете качество language representation для задач
- 193. Что такое «Clone-Structured Causal Graphs» (CSCG) и как они
- 194. Как вы строите DSL (Domain-Specific Language) для вашей LLM-
- 195. Как вы проверяете, что модель действительно использует струк
- 196. Как language representation связан с тест-тайм компьютингом?
- 197. Как вы переключаете между уровнями представления для разных
- 198. Какие ограничения у language representation design?
- 199. Как вы combine language representation с DSPy?
- 200. Что вы видите следующим горизонтом после language representa
- 201. Что такое continuous batching и как оно отличается от static
- 202. Как работает paged attention в vLLM? Чем это отличается от с
- 203. Tensor parallelism vs pipeline parallelism vs data paralleli
- 204. Что такое FlashAttention-3 и какие improvements он принес по
- 205. Как вы деплоите LLM с requirement <100ms latency при through
- 206. Что такое KV cache reuse в multi-turn диалогах и как его реа
- 207. Как работает scheduler в vLLM? Какие алгоритмы выбора запрос
- 208. Что такое prefix caching и когда он эффективен?
- 209. GGUF vs GPTQ vs AWQ — сравнение форматов квантизации для лок
- 210. Что такое chunked prefill и зачем он нужен?
- 211. Как вы измеряете и оптимизируете TTFT (Time To First Token)
- 212. Как работает speculative decoding с несколькими draft моделя
- 213. Что такое Guided Decoding и как оно связано с JSON schema?
- 214. Как вы реализуете streaming в production с учетом network li
- 215. Что такое Wave Decoding и чем отличается от стандартного авт
- 216. Как вы делаете load testing для LLM endpoint? Какие метрики
- 217. Как вы управляете memory fragmentation при длительном раннин
- 218. Как работает continuous batching в TGI (Hugging Face Text Ge
- 219. Что такое prompt caching у провайдеров (Anthropic, Google) и
- 220. Как вы выбираете между online и batch инференсом для LLM?
- 221. Как работает HNSW (Hierarchical Navigable Small World) алгор
- 222. Что такое IVF (Inverted File Index) и как он сравнивается с
- 223. Как работает Product Quantization (PQ) для сжатия векторов?
- 224. OPQ (Optimized Product Quantization) vs PQ — в чем разница?
- 225. Как вы выбираете параметры HNSW (M, ef_construction, ef_sear
- 226. Что такое Filtered ANN Search и как оно реализовано в Qdrant
- 227. ScaNN (Google) vs HNSW — сравнение для больших масштабов (>1
- 228. Как работает DiskANN и когда он нужен?
- 229. Как вы измеряем recall@k для ANN индекса и какой порог accep
- 230. Что такое Hierarchical Navigable Small World + IVF (HNSW+IVF
- 231. Как вы обновляете ANN индекс при добавлении новых векторов б
- 232. Что такое Memory-optimized ANN и какие алгоритмы лучшие для
- 233. Как вы делаете hybrid search (vector + keyword) в production
- 234. Что такое Learned Index Structures for ANN? Новые подходы 20
- 235. Как вы выбираете ANN алгоритм под ваш use case (volume, dime
- 236. Как вы проектируете RAG для 10k RPS с P99 latency <200ms? Ар
- 237. Что такое circuit breaker и как он применяется к LLM API выз
- 238. Как вы реализуете retry с exponential backoff для LLM API с
- 239. Что такое idempotency в контексте LLM API и зачем она нужна?
- 240. Как вы проектируете dead letter queue для failed LLM инферен
- 241. Как вы делаете distributed tracing для цепочки: user → gatew
- 242. Как вы проектируете graceful shutdown для LLM serving pod в
- 243. Как вы делаете blue-green deployment для RAG системы с zero
- 244. Как вы проектируете backpressure в LLM serving системе?
- 245. Как вы делаете cache invalidation для semantic cache при обн
- 246. Что такое sidecar pattern для LLM observability и как его ре
- 247. Как вы проектируете multi-region active-active для LLM API?
- 248. Что такое rate limiting на разных уровнях (user, API key, IP
- 249. Как вы делаете load shedding при перегрузке LLM сервера?
- 250. Как вы делаете health check для LLM сервера с учетом модели
Fine-tuning и обучение (вопросы 251–350)
- 251. Как вы деплоите LLM на spot instances в облаке?
- 252. Что такое Kafka compaction для логов LLM взаимодействий?
- 253. Как вы делаете асинхронную обработку long-running (>30s) LLM
- 254. Как вы проектируете disaster recovery для LLM системы при сб
- 255. Как вы управляете секретами (API keys для LLM) в Kubernetes?
- 256. Как вы проектируете ETL пайплайн для 1M документов/день в RA
- 257. Как вы дедуплицируете документы перед индексацией в RAG?
- 258. Что такое weak supervision для разметки данных для fine-tuni
- 259. Как вы генерируете synthetic данные для instruction tuning?
- 260. Как вы отслеживаете data drift для распределения запросов к
- 261. Как вы управляете качеством разметки (label quality) для DPO
- 262. Как вы проектируете feature store для ML фичей, используемых
- 263. Как вы обрабатываете PII в данных для RAG (GDPR, 152-ФЗ)?
- 264. Как вы делаете backfill эмбеддингов при смене embedding моде
- 265. Как вы проектируете data lineage для RAG (от документа к отв
- 266. Как вы делаете incremental ingestion для часто меняющихся до
- 267. Что такое data version control (DVC) для RAG корпуса докумен
- 268. Как вы делаете synthetic data generation для редких классов
- 269. Как вы обрабатываете streaming данные для real-time RAG?
- 270. Как вы управляете cost хранения векторной БД при миллиарде в
- 271. Как вы делаете schema evolution для метаданных документов в
- 272. Как вы проверяете качество parsing документов (PDF, DOCX) в
- 273. Как вы обрабатываете corrupted или empty документы в ingesti
- 274. Как вы проектируете feature engineering для контекста RAG (к
- 275. Как вы делаете data quality monitoring для RAG корпуса?
- 276. Как работает attention математически (Q, K, V) и как вычисли
- 277. Что такое multi-query attention (MQA) и grouped-query attent
- 278. Как работает RoPE (Rotary Position Embedding) и чем лучше аб
- 279. Что такое SwiGLU и почему он используется вместо ReLU в совр
- 280. Как работает RMSNorm (Root Mean Square Normalization) и чем
- 281. Что такое sliding window attention и зачем он в Mistral?
- 282. Как работает MoE (Mixture of Experts) внутри LLM (Mixtral, G
- 283. Что такое selective attention в контексте long context обраб
- 284. Как работают современные tokenizers (BPE, Unigram, SentenceP
- 285. Как вы анализируете embedding geometry для отладки retrieval
- 286. Как вы детектируете и фиксите attention sinks в длинных конт
- 287. Как работает градиентный анализ для объяснения решений LLM?
- 288. Как вы тестируете видение модели (vision-language) на пропущ
- 289. Как работает speculative decoding на уровне логитов, а не то
- 290. Что такое Chain-of-Thought без токенов (latent CoT) и как эт
- 291. Как вы измеряете uncertainty в ответах LLM (logit-based vs e
- 292. Как работает temperature sampling и как он влияет на качеств
- 293. Что такое Top-p (nucleus) sampling и как он сочетается с tem
- 294. Как вы калибруете вероятности LLM для classification задач?
- 295. Что такое logit lens и как он помогает понимать внутренние п
- 296. Как работает извлечение знаний (knowledge editing) из LLM бе
- 297. Что такое representation engineering (RepE) и зачем он нужен
- 298. Как вы тестируете robustness LLM к adversarial input (не тол
- 299. Как работает attention между слоями (cross-layer attention)
- 300. Как вы сравниваете две LLM архитектуры не по accuracy, а по
- 301. Как устроена иерархия памяти GPU (Global, L2, Shared, Regist
- 302. Что такое warp divergence в CUDA и как он влияет на attentio
- 303. Как работают Tensor Cores в H100/B200 и для чего они нужны?
- 304. Что такое FlashAttention с точки зрения CUDA programming?
- 305. Как вы профилируете GPU utilization для LLM serving (nsys, n
- 306. Что такое NCCL и зачем он для tensor parallelism?
- 307. Как PCIe bottleneck проявляется в multi-GPU инференсе?
- 308. Как работают CUDA streams и как они помогают оверлапить comp
- 309. Что такое kernel fusion и как он применяется в LLM serving?
- 310. Как вы читаете профиль Nsight Systems для поиска bottlenecks
- 311. Что такое CUDA graphs и как они ускоряют LLM инференс?
- 312. Как работает FP8 quantization на H100 (Transformer Engine)?
- 313. Как вы диагностируете, что проблема в memory bandwidth, а не
- 314. Как работает NVLink Switch System на DGX H100?
- 315. Что такое MIG (Multi-Instance GPU) и когда он полезен для LL
- 316. Как работает Torch Compile (torch.compile) и в чем его огран
- 317. Что такое MLIR и как он используется в IREE/TensorRT-LLM?
- 318. TensorRT-LLM vs vLLM — сравнение для production deployment.
- 319. Как работает XLA (Accelerated Linear Algebra) для LLM на TPU
- 320. Что такое ONNX Runtime и когда он выгоден для LLM?
- 321. Как работает graph optimization в LLM компиляторах (constant
- 322. Что такое operator fusion в компиляторах и какие паттерны fu
- 323. Как вы деплоите LLM с TensorRT-LLM в production?
- 324. Что такое TVM (Apache TVM) и зачем он нужен для AI инференса
- 325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA)
- 326. Как работает RLHF (Reinforcement Learning from Human Feedbac
- 327. Что такое PPO (Proximal Policy Optimization) и почему он исп
- 328. GRPO (Group Relative Policy Optimization) vs PPO — чем отлич
- 329. Как обучается reward model для RLHF и как избегать reward ha
- 330. Что такое RLAIF (RL from AI Feedback) и как он масштабируетс
- 331. Как вы измеряете quality RLHF модели вне стандартных бенчмар
- 332. Как работает KL penalty в RLHF и как подобрать коэффициент?
- 333. Что такое preference data collection и как минимизировать bi
- 334. Как вы делаете online RL для агентов (self-improvement loops
- 335. Как работает Direct Preference Optimization (DPO) в деталях
- 336. Что такое KTO (Kahneman-Tversky Optimization) и чем отличает
- 337. Как вы проверяете, что RLHF не сломал базовые способности мо
- 338. Как вы деплоите policy (RLHF модель) в production с online f
- 339. Как работает алгоритм ReST (Reinforced Self-Training) и когд
- 340. Что такое Constitutional AI и как RLHF связан с ним?
- 341. Как вы проектируете бенчмарк для нового домена (медицина, юр
- 342. Что такое statistical power evaluation и как определять разм
- 343. Как вы измеряете и исправляете bias в LLM-as-Judge (self-enh
- 344. Что такое reward hacking в RLHF и как его детектировать?
- 345. Как вы проектируете red teaming evaluation для jailbreak уст
- 346. Что такое meta-evaluation бенчмарков (оценка оценки)?
- 347. Как вы оцениваете alignment модели с человеческими ценностям
- 348. Что такое calibration ошибок модели и как ее измерять (ECE,
- 349. Как вы проводите A/B тест метрик качества (не бизнес-метрик)
- 350. Как вы детектируете data contamination в evaluation датасета
LLM инференс и оптимизация (вопросы 351–450)
- 351. Как работает model stealing attack и как защититься?
- 352. Что такое jailbreak taxonomy (OOD, refusal suppression, role
- 353. Как работает embedding poisoning для RAG и как защититься?
- 354. Что такое adversarial retrieval (атака на retrieval компонен
- 355. Как вы защищаете LLM от градиентных атак (white-box jailbrea
- 356. Что такое data poisoning атака на fine-tuning и как защитить
- 357. Как работает membership inference атака на LLM?
- 358. Что такое watermarking для LLM генераций и как его детектиро
- 359. Как вы защищаете multi-agent систему от вредоносного агента?
- 360. Что такое adversarial fine-tuning для защиты от jailbreak?
- 361. Как работает CLIP и как training contrastive loss выравнивае
- 362. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V?
- 363. Как работает Whisper (architecture, tokenization, training)
- 364. Как вы строите real-time voice agent с latency <500ms?
- 365. Как работает мультимодальное выравнивание (alignment) в моде
- 366. Как вы делаете RAG для видео (индексация subshots, аудио, кл
- 367. Что такое Q-Former в BLIP-2 и зачем он нужен?
- 368. Как вы оцениваете мультимодальную модель на hallucinations (
- 369. Как работает diffusion backends для генерации изображений в
- 370. Как вы проектируете систему для real-time video understandin
- 371. Что такое LambdaMART и как он используется для reranking в R
- 372. Как вы строите двухступенчатый ретривал (fast ANN + slow cro
- 373. Что такое learning-to-rank (LTR) и как он применяется к retr
- 374. Как вы делаете query rewriting и query expansion в RAG?
- 375. Как вы калибруете retrieval confidence для threshold-based f
- 376. Что такое hybrid search с весами (weighted hybrid) и как опт
- 377. Как вы делаете retrieval для структурированных данных (SQL,
- 378. Как работает многогранный (faceted) поиск в RAG с фильтрами?
- 379. Как вы оцениваете retrieval с учетом позиции (Position-aware
- 380. Что такое semantic ranking на основе embeddings (вторая стад
- 381. Как вы определяете SLO и SLA для LLM сервиса?
- 382. Как вы проектируете canary deployment для LLM модели?
- 383. Что такое error budget для AI качества и как его считать?
- 384. Как вы проводим chaos engineering для RAG системы?
- 385. Как вы автоматизируете rollback при деградации качества?
- 386. Как вы обрабатываете production incident с LLM (playbook)?
- 387. Как вы делаем multi-region failover с RTO <5 минут?
- 388. Что такое SLI (Service Level Indicators) для AI системы и ка
- 389. Как вы делаем disaster recovery с RPO <1 минута?
- 390. Как вы проектируем on-call ротацию для AI сервиса?
- 391. Как вы проектируете агента, который может работать непрерывн
- 392. Что такое «agentic mesh» (сеть взаимодействующих агентов) и
- 393. Как вы измеряете «cost of reasoning» у агента (не только ток
- 394. Как вы делаете агента «забывающим» (для GDPR / privacy compl
- 395. Как вы тестируете агента на «неожиданные input» (не только a
- 396. Как вы проектируете «человека в петле» для multi-agent систе
- 397. Как вы делаете агента, который может «просить помощи» у друг
- 398. Как вы версионируете агента целиком (prompts, tools, memory
- 399. Как вы делаете A/B тест между двумя агентами с разными архит
- 400. Как вы проектируете систему для continuous learning LLM-аген
- 401. Как работает tensor parallelism для LLM инференса? В чем отл
- 402. Что такое NCCL и почему он критичен для multi-GPU инференса?
- 403. Как вы проектируете RAG для 10k RPS с P99 latency <200ms? Ар
- 404. Что такое circuit breaker и как он применяется к LLM API выз
- 405. Как вы реализуете retry с exponential backoff для LLM API с
- 406. Что такое idempotency в контексте LLM API и зачем она нужна?
- 407. Как вы проектируете dead letter queue для failed LLM инферен
- 408. Как вы делаете distributed tracing для цепочки: user → gatew
- 409. Как вы проектируете graceful shutdown для LLM serving pod в
- 410. Как вы делаете blue-green deployment для RAG системы с zero
- 411. Как вы проектируете backpressure в LLM serving системе?
- 412. Как вы делаете cache invalidation для semantic cache при обн
- 413. Что такое sidecar pattern для LLM observability и как его ре
- 414. Как вы проектируете multi-region active-active для LLM API?
- 415. Что такое rate limiting на разных уровнях (user, API key, IP
- 416. Как вы делаете load shedding при перегрузке LLM сервера?
- 417. Как вы делаете health check для LLM сервера с учетом модели
- 418. Как вы деплоите LLM на spot instances в облаке?
- 419. Что такое Kafka compaction для логов LLM взаимодействий?
- 420. Как вы делаете асинхронную обработку long-running (>30s) LLM
- 421. Как вы проектируете disaster recovery для LLM системы при сб
- 422. Как вы управляете секретами (API keys для LLM) в Kubernetes?
- 423. Как работает tensor parallelism для LLM training? Чем отлича
- 424. Что такое pipeline parallelism и проблема pipeline bubbles?
- 425. Как работает sequence parallelism в контексте LLM?
- 426. Что такое 3D parallelism (data + tensor + pipeline)?
- 427. Как вы дебажите медленную меж-GPU коммуникацию в multi-node
- 428. Как вы проектируете Kafka топологии для RAG ingestion?
- 429. Что такое end-to-end backpressure в LLM пайплайне и как его
- 430. Как вы делаете canary analysis для новой LLM модели?
- 431. Почему LLM inference memory-bound, а не compute-bound?
- 432. Как работает FlashAttention-3 технически? Чем отличается от
- 433. Почему KV cache растет линейно с длиной контекста и как это
- 434. Как работает grouped-query attention (GQA) и как trade-off s
- 435. Почему MoE (Mixture of Experts) быстрее dense модели при инф
- 436. В чем разница между prefill и decode stage в LLM инференсе?
- 437. Почему decode stage плохо batchится?
- 438. Что такое continuous batching? Как реализовано в vLLM?
- 439. Как работает PagedAttention в vLLM внутренне?
- 440. Как работает speculative decoding? Как выбрать draft модель?
- 441. EAGLE-3 vs Medusa-2 vs Hydra: сравнение speculative decoding
- 442. Что такое prefix caching и когда он эффективен?
- 443. GGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инфе
- 444. Почему 4-bit inference иногда медленнее 8-bit?
- 445. Как вы измеряете TTFT (Time To First Token) и TPOT (Time Per
- 446. Что такое chunked prefill и зачем он нужен?
- 447. Как работает scheduler в vLLM? Какие алгоритмы выбора запрос
- 448. Что такое KV cache reuse в multi-turn диалогах и как его реа
- 449. Как вы делаете streaming в production с учетом network limit
- 450. Что такое Wave Decoding и чем отличается от стандартного авт
Агенты и архитектуры (вопросы 451–550)
- 451. Как вы делаете load testing для LLM endpoint? Какие метрики
- 452. Как вы управляете memory fragmentation при длительном раннин
- 453. Как работает continuous batching в TGI (Hugging Face Text Ge
- 454. Что такое prompt caching у провайдеров (Anthropic, Google) и
- 455. Как вы выбираете между online и batch инференсом для LLM?
- 456. Что такое Medusa (multiple heads) для speculative decoding?
- 457. Как работает quantization-aware scaling в AWQ для защиты важ
- 458. Что такое FP8 инференс на H100 (Transformer Engine)?
- 459. Как вы дебажите низкую GPU utilization (например, 40% на A10
- 460. Как работает tensor parallelism с FP8 в vLLM?
- 461. Почему training 70B модели требует optimizer sharding (ZeRO-
- 462. ZeRO-1 vs ZeRO-2 vs ZeRO-3: что и когда использовать?
- 463. Что такое activation recomputation (checkpointing) и зачем о
- 464. Почему BF16 лучше FP16 для training?
- 465. Как работает gradient checkpointing в DeepSpeed?
- 466. Что такое curriculum learning для LLM и как его реализовать?
- 467. Что такое packing sequences и зачем он нужен?
- 468. Почему small batch size (<32) ухудшает training стабильность
- 469. Как работает Mixed Precision Training (FP16 + FP32 master ве
- 470. Что такое DeepSpeed ZeRO-Offload и когда он полезен?
- 471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch?
- 472. Почему gradient accumulation эквивалентен большому batch с т
- 473. Что такое torch.compile и как он ускоряет training?
- 474. Как работает FlashAttention для training (не только inferenc
- 475. Почему tokenizer влияет на стоимость training?
- 476. Как работает packing для variable-length sequences в FSDP?
- 477. Что такое curriculum learning на уровне данных для LLM?
- 478. Как работает distributed optimizer в PyTorch (torch.distribu
- 479. Что такое activation offloading и когда он нужен?
- 480. Как работает selective activation recomputation?
- 481. Что такое LoRA для training (инференс уже знаем)?
- 482. Как работает QLoRA (Quantized LoRA) для training?
- 483. Как работает DoRA (Weight-Decomposed LoRA) и чем лучше LoRA?
- 484. Что такое ReFT (Representation Fine-Tuning) и когда он лучше
- 485. Как вы дебажите training instability (loss spikes, divergenc
- 486. Почему LLM-as-Judge может быть biased? Назовите 3 основных b
- 487. Что такое calibration ошибок модели и как ее измерять (ECE,
- 488. Что такое benchmark contamination и как ее детектировать?
- 489. Что такое reward hacking в RLHF и как его детектировать?
- 490. Как вы проектируете бенчмарк для нового домена (медицина, юр
- 491. Что такое statistical power evaluation и как определять разм
- 492. Как вы измеряете inter-rater reliability для human evaluatio
- 493. Что такое Positional bias в LLM-as-Judge и как его исправить
- 494. Что такое synthetic eval collapse и как его предотвратить?
- 495. Что такое pairwise comparison vs scalar rating? Когда что ис
- 496. Что такое reward correlation и как ее измерять?
- 497. Как вы проектируете red teaming evaluation для jailbreak уст
- 498. Что такое meta-evaluation бенчмарков (оценка оценки)?
- 499. Как вы оцениваете alignment модели с человеческими ценностям
- 500. Как вы измеряете uncertainty в ответах LLM (logit-based vs e
- 501. Что такое Path-level evaluation для Agentic RAG и чем оно лу
- 502. Как вы A/B тестируете две версии промпта в production?
- 503. Как вы измеряете drift retrieval-качества в RAG (когда докум
- 504. Как вы оцениваете cost-effectiveness LLM-пайплайна?
- 505. Как вы проверяете, что новая версия модели не сломала старые
- 506. Что такое IRT (Item Response Theory) и как она применяется к
- 507. Что такое calibration в контексте reward model для RLHF?
- 508. Как вы оцениваете faithfulness без ground truth (если нет пр
- 509. Как вы сравниваете две модели, если у них разная latency (бы
- 510. Что такое benchmark chasing и почему это опасно?
- 511. Как вы проектируете ETL пайплайн для 1M документов/день в RA
- 512. Как вы дедуплицируете документы перед индексацией в RAG?
- 513. Что такое weak supervision для разметки данных для fine-tuni
- 514. Как вы генерируете synthetic данные для instruction tuning?
- 515. Как вы отслеживаете data drift для распределения запросов к
- 516. Как вы управляете качеством разметки (label quality) для DPO
- 517. Как вы проектируете feature store для ML фичей, используемых
- 518. Как вы обрабатываете PII в данных для RAG (GDPR, 152-ФЗ)?
- 519. Как вы делаете backfill эмбеддингов при смене embedding моде
- 520. Как вы проектируете data lineage для RAG (от документа к отв
- 521. Как вы делаете incremental ingestion для часто меняющихся до
- 522. Что такое data version control (DVC) для RAG корпуса докумен
- 523. Как вы делаете synthetic data generation для редких классов
- 524. Как вы обрабатываете streaming данные для real-time RAG?
- 525. Как вы управляете cost хранения векторной БД при миллиарде в
- 526. Как вы делаете schema evolution для метаданных документов в
- 527. Как вы проверяете качество парсинга документов (PDF, DOCX) в
- 528. Как вы обрабатываете corrupted или empty документы в ingesti
- 529. Как вы проектируете feature engineering для контекста RAG (к
- 530. Как вы делаете data quality monitoring для RAG корпуса?
- 531. Как вы делаете active learning loop для улучшения retrieval?
- 532. Что такое data contract между сервисами в RAG пайплайне?
- 533. Как вы обрабатываете real-time фичи для LLM (например, текущ
- 534. Как вы делаете data quality для синтетических датасетов?
- 535. Как вы проектируете векторную БД с миллиардом векторов при о
- 536. Как работает CLIP (Contrastive Language-Image Pre-training)
- 537. Что такое SigLIP и чем отличается от CLIP?
- 538. Как работает vision encoder в GPT-4V / LLaVA?
- 539. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V?
- 540. Как работает Q-Former в BLIP-2 и зачем он нужен?
- 541. Как вы делаете RAG для изображений (image retrieval without
- 542. Как вы парсите сложные PDF с таблицами и графиками (не прост
- 543. Как работает Whisper архитектурно для ASR (Automatic Speech
- 544. Как вы строите real-time voice agent с latency <500ms?
- 545. Как работает мультимодальное выравнивание (alignment) в моде
- 546. Как вы индексируете видео-контент в RAG-системе?
- 547. Как вы оцениваете мультимодальную модель на галлюцинации (PO
- 548. Что такое diffusion backends для генерации изображений (Stab
- 549. Как вы проектируете систему для real-time video understandin
- 550. Как работает OCR для RAG? Недостатки и когда его недостаточн
Production и MLOps (вопросы 551–650)
- 551. Как работает AudioLM и MusicGen для генерации аудио?
- 552. Как вы делаете image captioning для RAG (извлечение описания
- 553. Что такое LayoutLMv3 и зачем он для document understanding?
- 554. Как вы делаем image retrieval по тексту с высокой точностью?
- 555. Как работает мультимодальный RAG с unified retrieval (один и
- 556. Как вы делаете extraction таблиц из PDF для RAG?
- 557. Как работает Zero-shot classification для изображений (CLIP
- 558. Как вы делаете video summarization для RAG (вход — длинное в
- 559. Что такое Audio RAG (RAG для аудиофайлов)?
- 560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL
- 561. Как вы проектируете multimodal RAG для диаграмм (flowchart,
- 562. Как работает whisper.cpp для локального ASR с low latency?
- 563. Как вы делаете image retrieval с фильтрацией по метаданным (
- 564. Как работает модели типа Kosmos-2 (grounding объектов на изо
- 565. Как вы делаем retrieval для изображений с защитой авторских
- 566. Почему агенты деградируют на длинных horizon (более 10 шагов
- 567. Что такое planner/executor architecture для агентов и когда
- 568. Как работает Toolformer-like обучение для агентов (self-supe
- 569. Что такое reflection loops для агентов и как они работают?
- 570. Что такое tree search agents (MCTS for LLM) и когда они эффе
- 571. Как работают verifier models для agentic RAG и зачем они нуж
- 572. Что такое trajectory optimization для агентов и как ее реали
- 573. Как вы предотвращаете tool overuse (когда агент вызывает API
- 574. Что такое memory corruption в агентах и как его детектироват
- 575. Как работает hierarchical planning для агентов (разбивка на
- 576. Что такое skill libraries для агентов и как их создавать?
- 577. Как вы делаете agent robustness к adversarial instructions (
- 578. Что такое agent evaluation метрика: successful task completi
- 579. Как работает agent replay для улучшения качества (анализ fai
- 580. Как вы делаем agent with theory of mind (понимание намерений
- 581. Что такое multi-agent debate и как он улучшает качество отве
- 582. Как работает agent self-improvement через self-reflection on
- 583. Как вы делаете agent с bounded rationality (ограниченные выч
- 584. Что такое agent distillation (обучение маленького агента на
- 585. Как вы делаете agent robustness к missing API (когда инструм
- 586. Что такое agent state management (состояние агента между выз
- 587. Как работает agent with external tool verification (проверка
- 588. Что такое agent explanation fidelity (насколько объяснение с
- 589. Как вы делаете agent с human values alignment (Constitutiona
- 590. Как работает multi-agent with role specialization (агенты-эк
- 591. Что такое agent communication protocol (формат сообщений меж
- 592. Как вы делаете agent with iterative refinement (улучшение от
- 593. Как работает agent handover (передача задачи другому агенту)
- 594. Что такое agent safety constraints (ограничения на действия
- 595. Как вы делаете agent evaluation на длинных horizon (100+ шаг
- 596. Как работает model stealing attack (экстракция модели через
- 597. Что такое jailbreak taxonomy (OOD, refusal suppression, role
- 598. Как работает embedding poisoning для RAG и как защититься?
- 599. Что такое adversarial retrieval (атака на retrieval компонен
- 600. Как вы защищаете LLM от градиентных атак (white-box jailbrea
- 601. Что такое data poisoning атака на fine-tuning и как защитить
- 602. Как работает membership inference атака на LLM?
- 603. Что такое watermarking для LLM генераций и как его детектиро
- 604. Как вы защищаете multi-agent систему от вредоносного агента?
- 605. Что такое adversarial fine-tuning для защиты от jailbreak?
- 606. Как работает prompt leakage (кража системного промпта) и как
- 607. Что такое sandbox escape для AI-агента и как защититься?
- 608. Как работает model inversion атака (восстановление training
- 609. Как вы защищаете RAG от document injection (вредоносные доку
- 610. Что такое malicious embeddings (атака через векторные БД)?
- 611. Как работает adversarial example для embedding моделей (атак
- 612. Что такое data exfiltration через LLM (утечка данных через о
- 613. Как работает model watermarking для LLM (идентификация модел
- 614. Как вы защищаете LLM от prompt injection через RAG (когда до
- 615. Что такое adversarial patch для vision-language моделей (физ
- 616. Как работает rainbow teaming (комбинация red + blue + purple
- 617. Как вы защищаете агента от tool injection (вредоносный API о
- 618. Что такое jailbreak as a service (коммерческие jailbreak сер
- 619. Как работает LLM fingerprinting (идентификация модели по отв
- 620. Что такое differential privacy для LLM и как она работает?
- 621. Как вы защищаете LLM от prompt injection через изображения (
- 622. Как работает membership inference через logits (разница в ве
- 623. Что такое secure aggregation для федеративного обучения LLM?
- 624. Как вы защищаете RAG от data poisoning через неявные инструк
- 625. Что такое adversarial prompt detection для реального времени
- 626. Как работают современные long-context LLM (GPT-4 1M, Claude
- 627. Как вы тестируете long-context capability модели (бенчмарки:
- 628. Что такое attention sink и почему он возникает в длинных кон
- 629. Как работает sliding window attention в Mistral и Longformer
- 630. Как работает RoPE (Rotary Position Embeddings) для экстрапол
- 631. Как вы делаете длинный контекст для RAG (100k+ токенов в кон
- 632. Как работает Infini-attention (Google, 2024) для бесконечног
- 633. Как вы оцениваете reasoning capability (не просто recall) на
- 634. Что такое "lost in the middle" и как это связано с attention
- 635. Как работает RAPTOR (иерархическое суммирование для длинного
- 636. Как вы проектируете промпт для long context рассуждения (CoT
- 637. Что такое Chain-of-Thought без токенов (latent CoT, COCONUT)
- 638. Как работает ∇-Reasoner (градиентный спуск в пространстве то
- 639. Как вы делаете model selection для long context (какая модел
- 640. Как работает Multi-query attention (MQA) для long context?
- 641. Что такое grouped-query attention (GQA) как компромисс для l
- 642. Как вы реализуете KV cache для 1M токенов на 8x H100?
- 643. Как работает YaRN (Yet another RoPE extensioN) для увеличени
- 644. Как вы оцениваете faithfulness ответа на длинном контексте (
- 645. Что такое hierarchical retrieval для long context RAG (когда
- 646. Как работает attention с линейной сложностью (Linformer, Per
- 647. Как вы делаете long context для code generation (модель долж
- 648. Что такое streaming LLM для бесконечного контекста (техника
- 649. Как вы измеряете reasoning degradation с ростом контекста? (
- 650. Что такое memory-efficient attention для long context на 8x
Безопасность и мониторинг (вопросы 651–750)
- 651. Как работает attention математически? Выведите формулу scale
- 652. Почему в формуле attention нужно делить на √d_k? Что будет б
- 653. Что такое position encoding? RoPE vs абсолютные позиции vs о
- 654. Как работает LayerNorm и RMSNorm? В чем разница и почему RMS
- 655. Что такое SwiGLU и почему он лучше ReLU в LLM?
- 656. Как работает кросс-энтропия (cross-entropy loss) для LLM обу
- 657. Что такое KL divergence и где она применяется в LLM (RLHF, d
- 658. Как работает perplexity и как ее интерпретировать? Связь с c
- 659. Что такое Adam optimizer и как работают его параметры (β1, β
- 660. Что такое gradient clipping и зачем он нужен при обучении LL
- 661. Как работает softmax и почему он вызывает проблемы с градиен
- 662. Что такое logits и как они связаны с вероятностями? temperat
- 663. Как работает обратное распространение (backpropagation) в тр
- 664. Что такое vanishing / exploding gradients в трансформерах и
- 665. Как работает инициализация весов в LLM (Xavier, Kaiming, поч
- 666. Что такое FP16, BF16, FP8, INT8 quantization? Когда что испо
- 667. Как работает FlashAttention математически (tiling, recomputa
- 668. Что такое индуктивные biases трансформеров? (positional inva
- 669. Как работает связь между SGD и Adam? Почему Adam лучше для L
- 670. Что такое loss landscape LLM и как оно влияет на обучение (s
- 671. Как работает эмбеддинг слой и почему его размер (embedding d
- 672. Что такое residual connections и зачем они нужны в трансформ
- 673. Как работает нормализация перед attention (pre-norm) vs посл
- 674. Что такое logit lens (интерпретация скрытых состояний)?
- 675. Как работает dropout и зачем он нужен в LLM? (regularization
- 676. Что такое residual stream и как он связан с информационным п
- 677. Как работает forward pass LLM: от токена до вероятности след
- 678. Как работает greedy decoding vs beam search vs sampling?
- 679. Что такое repetition penalty и как он работает?
- 680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг а
- 681. Как вы генерируете синтетический датасет для instruction tun
- 682. Как вы оцениваете качество синтетических данных? (Self-consi
- 683. Что такое data augmentation для LLM (back-translation, parap
- 684. Как вы генерируете hard negative примеры для retrieval обуче
- 685. Как вы детектируете и удаляете низкокачественные примеры из
- 686. Как работает synthetic data для RLHF (предпочтения)?
- 687. Как вы делаете synthetic eval (генерация тестовых вопросов п
- 688. Что такое synthetic data collapse (когда синтетические данны
- 689. Как вы проектируете dynamic benchmark (меняющийся со времене
- 690. Как вы измеряете diversity синтетического датасета?
- 691. Как вы делаем synthetic data для редких языков (не английски
- 692. Что такое curriculum learning for synthetic data (обучение н
- 693. Как вы обнаруживаете contamination (пересечение synthetic да
- 694. Как работает weak supervision для synthetic данных (создание
- 695. Как вы делаете synthetic data для multi-turn диалогов (агент
- 696. Что такое active learning для сбора синтетических данных?
- 697. Как вы масштабируете синтетическую генерацию до миллионов пр
- 698. Как вы делаете synthetic data для сложного рассуждения (math
- 699. Как вы оцениваете, сколько синтетических данных нужно для fi
- 700. Как вы комбинируете реальные и синтетические данные для макс
- 701. Как работает warp scheduling на NVIDIA GPU и как это влияет
- 702. Что такое memory coalescing и почему оно важно для attention
- 703. Как работает L1/L2 cache hierarchy в A100/H100 и как ее испо
- 704. Что такое bank conflicts в shared memory и как их избежать?
- 705. Как работает Tensor Core microarchitecture (WGMMA, MMA инстр
- 706. Что такое TMA (Tensor Memory Accelerator) в H100 и как он ус
- 707. Как работает asynchronous execution на Hopper (copy engine v
- 708. Что такое MIG (Multi-Instance GPU) и как настроить для разны
- 709. NVIDIA Grace Hopper: CPU-GPU unified memory, как это меняет
- 710. Бенчмаркинг LLM на AMD MI300X vs H100: различия в архитектур
- 711. Как работает speculative execution на GPU для LLM (branch pr
- 712. Что такое Cooperative Groups в CUDA и как использовать для a
- 713. Как работает Mamba (State Space Model) и чем она лучше транс
- 714. RWKV (RNN with Transformer attention): как комбинирует RNN и
- 715. Hyena: как заменить attention на свертки, сохранив качество?
- 716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформе
- 717. Почему трансформеры до сих пор побеждают SSM на большинстве
- 718. Что такое Test-Time Training (TTT) слои и как они работают?
- 719. Как проектировать аукцион для allocation вычислительных ресу
- 720. Что такое mechanism design для multi-agent systems и как при
- 721. Как предотвращать collusion (сговор) между агентами в децент
- 722. Что такое VCG auction (Vickrey-Clarke-Groves) и как он обесп
- 723. Как моделировать экономику агентов с ограниченными бюджетами
- 724. Что такое emergent specialization в multi-agent systems (аге
- 725. Как проектировать reputation system для агентов в децентрали
- 726. Как предотвращать free-riding в multi-agent системе (агенты
- 727. Как LLM применяются для protein folding (AlphaFold 3, ESM3)?
- 728. Что такое AI for materials science (GNoME, MatterGen) и как
- 729. Как LLM используются для code generation с формальной верифи
- 730. Что такое LLM для symbolic regression (AI Feynman) и как это
- 731. Как комбинировать LLM с симуляторами физики (digital twins)?
- 732. Что такое EU AI Act и как оно влияет на деплой LLM в product
- 733. Как выполнять requirement on transparency (статья 13 EU AI A
- 734. Что такое model cards и system cards и как их составлять?
- 735. Как проводить safety case для LLM системы (аналог safety cas
- 736. Что такое red teaming certification (стандарты 2026 для оцен
- 737. Что такое Harness Engineering и чем он отличается от Prompt
- 738. Назовите 12+ слоёв эталонной архитектуры Harness.
- 739. Как изменилась роль инженера с приходом Harness Engineering?
- 740. Что такое Context Engineering в рамках Harness и почему это
- 741. Что такое Partial Harnessing (частичное управление)?
- 742. В чем разница между Workflow и Guidance в теории harness-eng
- 743. Какие есть типичные failure modes в harness-engineering (ove
- 744. Что такое Agent Loop и какие компоненты входят в production-
- 745. Что такое AgentPool и Handoff в multi-agent orchestration?
- 746. Что такое Safety & Guardrails как слой Harness? Чем runtime
- 747. Что такое AdmissionController в Harness и зачем он нужен?
- 748. Как в Harness Engineering реализована эвалюация и дрейф (eva
- 749. Что такое Session Management в Harness и какие стратегии (TT
- 750. Как устроена Memory в Harness (in-memory, fs, vector stores,
Специализированные темы (вопросы 751–900)
- 751. Что такое Tool System в Harness (defineTool, registry, JSON
- 752. Как Harness Engineering помогает решить проблему "гарантий и
- 753. Что такое Coordination Engineering и чем он отличается от Ha
- 754. Как Harness Engineering связан с наблюдаемостью (OpenTelemet
- 755. Что такое эволюция (evolution) в Harness Engineering (compon
- 756. Как выглядит process operational excellence в Harness Engine
- 757. Какие инструменты и фреймворки существуют для Harness Engine
- 758. Как вы проектируете Harness для mission-critical приложения?
- 759. Какие книги или ресурсы вы рекомендуете по Harness Engineeri
- 760. Что такое Delegation Engineering и чем он отличается от Harn
- 761. Какие паттерны делегирования существуют (hierarchical, peer-
- 762. Что такое «эскалация человеку» (human escalation) и как её п
- 763. Как проектировать fallback-цепи (агент А → агент Б → человек
- 764. Что такое graceful degradation в multi-agent системах?
- 765. Как измерять «стоимость делегирования» (токены + время + ден
- 766. Что такое delegation by exception (делегирование только по и
- 767. Как проектировать SLA между агентом-менеджером и агентами-ис
- 768. Что такое «ротация агентов» (load balancing между агентами)?
- 769. Как тестировать delegation paths (интеграционное тестировани
- 770. Что такое «откат делегирования» (rollback delegation) при ош
- 771. Как проектировать delegation с учётом человеческого фактора
- 772. Что такое «аутсорсинг» задачи другому LLM (с другим API, дру
- 773. Как измерять «коэффициент полезного делегирования» (сколько
- 774. Какие инструменты для Delegation Engineering существуют (Air
- 775. Что такое Cost Engineering для LLM-систем?
- 776. Как считать TCO (Total Cost of Ownership) для RAG/Agent сист
- 777. Что такое «cost per good answer» и как его измерять?
- 778. Как проектировать cost-aware routing (дешёвая модель для про
- 779. Что такое «token budget» для агента и как его выставлять?
- 780. Как измерять ROI от fine-tuning (окупается ли дообучение бол
- 781. Как проектировать auto-scaling с учётом cost (spot vs on-dem
- 782. Что такое «cost attribution» (какой компонент сколько стоит)
- 783. Как сравнивать cost efficiency разных LLM провайдеров?
- 784. Как строить финансовую модель LLM-продукта для бизнеса?
- 785. Как тестировать агентов на недетерминированность?
- 786. Что такое «golden dataset» для агента и как его создавать?
- 787. Как делать property-based testing для агентов?
- 788. Что такое «simulation testing» (тестирование в симулированно
- 789. Как тестировать multi-turn диалоги агента?
- 790. Что такое «canary testing» для агентов (10% трафика на новую
- 791. Как тестировать fallback и graceful degradation?
- 792. Что такое «regression testing» для агентов (старый кейс слом
- 793. Как тестировать инструменты агента (tool testing изолированн
- 794. Что такое «test coverage» для агента (покрытие траекторий, а
- 795. Как автоматизировать test generation для агента?
- 796. Что такое «chaos testing» для агента (внезапно API вернул ош
- 797. Как тестировать промпты (prompt regression testing)?
- 798. Как тестировать промпты на регрессии (prompt regression suit
- 799. Как интегрировать тестирование агентов в CI/CD?
- 800. Что такое Prompt Registry (каталог промптов с версиями)?
- 801. Как делать A/B тестирование промптов в production?
- 802. Что такое «prompt as code» (промпты в Git, code review)?
- 803. Как делать canary deployment для промптов (5% трафика)?
- 804. Как делать rollback промпта (auto-rollback при деградации ме
- 805. Что такое «prompt linting» (статический анализ промптов)?
- 806. Как управлять dependency между промптами (один промпт вызыва
- 807. Что такое «prompt observability» (мониторинг эффективности п
- 808. Что такое «prompt templating» и как его версионировать?
- 809. Как управлять версиями промптов в production (best practices
- 810. Какие протоколы меж-агентской коммуникации существуют (A2A,
- 811. Что такое «message bus» для агентов (Kafka, NATS, Redis PubS
- 812. Как обеспечивать exactly-once delivery между агентами?
- 813. Что такое «actor model» для агентов (Akka, Orleans)?
- 814. Как проектировать rate limiting на уровне сообщений?
- 815. Что такое «dead letter queue» для сообщений агентов?
- 816. Как обеспечивать backward compatibility при изменении проток
- 817. Что такое «message schema evolution» (Avro/Protobuf)?
- 818. Как проектировать request-response vs fire-and-forget для аг
- 819. Что такое «circuit breaker» на уровне меж-агентских вызовов?
- 820. Как масштабировать vLLM на несколько GPU/нод?
- 821. Как избежать hot shard в Qdrant (или другой векторной БД)?
- 822. Что делать, если embedding pipeline отстаёт от ingestion (ba
- 823. Как проектировать AI pipeline с at-least-once семантикой?
- 824. Как организовать distributed tracing для agent pipeline?
- 825. Что такое autoscaling inference и как его настроить?
- 826. Как организовать GPU scheduling для multi-tenant LLM serving
- 827. Какие есть стратегии распределённого кэширования для LLM (Re
- 828. Как проектировать distributed locking для LLM agents?
- 829. Что такое rate limiting на уровне API Gateway для LLM?
- 830. Как проектировать retry storm mitigation (защита от лавинных
- 831. Как проектировать graceful degradation при отказе vector DB?
- 832. Как проектировать graceful degradation при отказе LLM API?
- 833. Как организовать multi-region active-passive для LLM API?
- 834. Как учитывать CAP theorem в AI systems?
- 835. Как проектировать distributed dead letter queue для сообщени
- 836. Почему vLLM быстрее TGI (Hugging Face Text Generation Infere
- 837. Как работает paged attention? (детально)
- 838. Как speculative decoding ускоряет inference? (детально)
- 839. Чем AWQ отличается от GPTQ?
- 840. Когда tensor parallelism хуже pipeline parallelism?
- 841. Как устроен KV cache? Почему он bottleneck?
- 842. Как работает prefix caching и prompt caching у провайдеров?
- 843. Что такое continuous batching и как оно влияет на throughput
- 844. Как работает FlashAttention-3 математически?
- 845. Как работают CUDA graphs и когда их использовать?
- 846. Как дебажить memory fragmentation в LLM сервере?
- 847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsand
- 848. Как работает динамическое бэтчирование в TGI vs vLLM?
- 849. Что такое expert parallelism для MoE моделей (Mixtral)?
- 850. Как работают inference schedulers (FCFS, Priority, Fairness)
- 851. Как строить streaming RAG pipeline (real-time ingestion)?
- 852. Как обрабатывать schema drift в данных для RAG?
- 853. Как организовать feature store для AI (Feast, Hopsworks)?
- 854. Почему Kafka лучше RabbitMQ для event streaming?
- 855. Как проектировать CDC (Change Data Capture) для документов?
- 856. Как организовать data versioning (DVC, LakeFS, Delta Lake)?
- 857. Как реализовать online/offline feature consistency для LLM?
- 858. Как проектировать ETL vs ELT для RAG?
- 859. Как организовать streaming feature pipelines для real-time R
- 860. Как обеспечивать exactly-once semantics в Kafka для embeddin
- 861. Как проектировать data contracts для RAG пайплайна?
- 862. Как делать feature engineering для RAG (кроме текста)?
- 863. Как проектировать Airflow DAG для RAG ingestion?
- 864. Как обрабатывать late-arriving data в ingestion?
- 865. Как проектировать schema registry для метаданных RAG?
- 866. Как генерировать synthetic датасеты для RAG evaluation?
- 867. Как делать adversarial evals для RAG (проверка на устойчивос
- 868. Что такое red teaming для LLM и как его проводить?
- 869. Как избежать benchmark contamination (когда модель видела те
- 870. Как работает LLM-as-judge и почему он biased?
- 871. Как делать pairwise ranking для сравнения моделей?
- 872. Что такое calibration для LLM и как её измерять (ECE)?
- 873. Как детектировать reward hacking в RLHF?
- 874. Как оценивать multi-step agents (не только final answer)?
- 875. Как делать synthetic eval datasets для agentic workflows?
- 876. Как избежать evaluation overfitting (когда модель учится на
- 877. Как работает process reward model (PRM) vs outcome reward mo
- 878. Как измерять faithfulness для long-form ответов (1000+ токен
- 879. Как делать evaluation для long-context RAG (>100k токенов)?
- 880. Как проектировать golden dataset для agent evaluation?
- 881. Что такое jailbreak taxonomy (полная классификация)?
- 882. Как происходит tool poisoning (атака через инструменты агент
- 883. Как защитить RAG от poisoning (вредоносные документы в базе
- 884. Как работает model extraction attack и как защититься?
- 885. Как происходит PII leakage через LLM и как защититься?
- 886. Как делать sandboxing для agent tools (изоляция выполнения)?
- 887. Как проектировать agent permissions (least privilege модель)
- 888. Как защититься от prompt stealing (кража системного промпта)
- 889. Как детектировать и предотвращать vector DB poisoning?
- 890. Как тестировать robustness LLM к adversarial inputs?
- 891. Что такое planner-executor архитектура для агентов?
- 892. Как работают verifier models для agentic RAG?
- 893. Как работает tree search (MCTS) для LLM агентов?
- 894. Как работает memory compression для агентов (long-term memor
- 895. Как оптимизировать траектории агента (trajectory optimizatio
- 896. Как сделать агента самовосстанавливающимся (self-healing)?
- 897. Как работают agent swarms (рой агентов)?
- 898. Как работает Toolformer (обучение агента использованию инстр
- 899. Что такое DSPy в контексте агентов?
- 900. Как работают browser agents и computer use agents (Claude Co
Оглавление сгенерировано автоматически.