Поиск

wikireasoning steps
…Настроить prompt as code|162. Настроить prompt as code]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…
answerКак код как язык представления улучшает рассуждение LLM?
…пишет [[Вики/Code\|код]] для запроса к векторной БД (например, через [[Вики/API\|API]]). - [[Вики/Reasoning\|Reasoning]]: [[Вики/agent\|агент…
answerКак вы combine language representation с DSPy?
…reasoning steps\|шаги рассуждения]]. [[Вики/language representation\|Language representation]] — способ кодирования входных данных ([[Вики/natural language\|естественный язык]], [[Вики/Code…
answerПочему естественный язык не подходит для сложного рассуждения?
…Вики/Code\|код]], логические формулы, [[Вики/Graphs\|графы]] знаний. --- ## 1. Термин: «Сложное рассуждение» и его требования Сложное [[Вики/Reasoning\|рассуждение…
answerКак вы делаете synthetic data для сложного рассуждения (math, code)?
…Пример на Python ```python import subprocess import tempfile def validate_code(code, test_input, expected_output): with tempfile.NamedTemporaryFile(mode…
wikiRoPE
…Сравнить архитектуры на reasoning задачах|59. Сравнить архитектуры на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
wikiгаллюцинации
…Как LLM используются для code generation с формальной верификацией (Dafny, Lean)|729. Как LLM используются для code generation с формальной…
answerЧем AWQ отличается от GPTQ?
…Это даёт [[Вики/AWQ\|AWQ]] преимущество на рассуждающих задачах (**[[Вики/Reasoning\|reasoning]]**, [[Вики/Math\|math]], [[Вики/representation levels\|code]]) при…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить архитектуры на reasoning задачах (Mamba vs Transformer vs RWKV vs Hyena)
…для каких типов [[Вики/Reasoning\|reasoning]]‑задач какая архитектура предпочтительнее. Ключевой результат Таблица с метриками каждой архитектуры на 4‑х…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать latent reasoning (∇-Reasoner)
…Реализовать latent reasoning (∇-Reasoner) ## 1. Цель задачи Разработать и реализовать механизм латентного рассуждения ([[Вики/Latent Reasoning\|latent reasoning]]) с градиентным…
answerКак вы измеряете reasoning degradation с ростом контекста? (curse of length)
…Reasoning degradation и Curse of length [[Вики/reasoning degradation\|Reasoning degradation]] ([[Вики/reasoning degradation\|деградация рассуждений]]) — снижение качества логических цепочек…
answerКак работает quantization-aware scaling в AWQ для защиты важных весов?
…Однако прямое округление весов приводит к потере качества, особенно на сложных задачах ([[Вики/Reasoning\|reasoning]], математика, [[Вики/Code\|код]]). [[Вики…
answerЧто такое planner-executor архитектура для агентов?
…external_search(q), "code": lambda code: run_python(code), "calc": lambda expr: eval(expr) } def executor_step(step): action = step…
answerЧто такое jailbreak taxonomy (полная классификация)?
…Если [[Вики/GPT-4o\|LLM]] подключена к интерпретатору ([[Вики/Code execution\|Code Interpreter]], [[Вики/plugins\|плагины]]), это может привести к…
answerКакие паттерны multi-agent систем вы знаете?
…На практике [[Вики/Planner\|Supervisor]] — мой дефолт для большинства сценариев, а [[Вики/Collaborative\|Collaborative]] — для сложных задач рассуждения ([[Вики/Reasoning…
wikiFew-shot examples
…Как LLM используются для code generation с формальной верификацией (Dafny, Lean)|729. Как LLM используются для code generation с формальной…
answerКак вы переключаете между уровнями представления для разных типов запросов?
…Если всегда использовать [[Вики/SQL\|Code]] — для простых фактов это избыточно и медленно. [[Вики/Router\|Router]] решает эту дилемму. --- ## 3…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить trajectory coverage для агентов
…количество уникальных траекторий, [[Вики/edge\|edge]] [[Вики/code coverage\|coverage]], [[Вики/simulation\|path]] [[Вики/code coverage\|coverage]]. - [ ] Я построил визуализацию…
answerКак вы проектируете language representation для сложной задачи?
…будет ли она выполняться одним LLM-вызовом или разбита на несколько шагов ([[Вики/reasoning steps\|цепочка мыслей]], [[Вики/OpenAI Functions…
answerНазовите 4 уровня языкового представления по Yang et al. (2026) и объясните разницу?
…преобразование между уровнями требует дополнительных вызовов [[Вики/GPT-4o\|LLM]] (например, NL→[[Вики/JSON\|JSON]], NL→[[Вики/Code\|Code]]). Это…
answerGRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен?
…Это снижает [[Вики/Compute costs\|вычислительные затраты]], упрощает реализацию и повышает [[Вики/stability\|стабильность]] обучения]], особенно в задачах **[[Вики/Reasoning…
answerКак работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO?
…Примеры применения ReST - **[[Вики/math reasoning\|Математические рассуждения]] ([[Вики/math reasoning\|Math reasoning]])**: [[Вики/model\|модель]] генерирует [[Вики/цепочки\|цепочки…
answerЧто такое curriculum learning for synthetic data (обучение на легких данных сначала)?
…глубже, шире, конкретнее. - Curriculum Learning for LLMs (Zhou et al., 2024) — показали прирост на 5–10% на бенчмарках reasoning (GSM8K…
answerКак работает agent handover (передача задачи другому агенту)?
…Почему это нужно: - Один [[Вики/AI agents\|агент]] не может охватить все [[Вики/source\|домены]] (графика, юриспруденция, [[Вики/Code\|код…
answerЧто такое SLI (Service Level Indicators) для AI системы и как их собирать?
…error_counter.labels(status_code=e.code).inc() raise ``` Типичные SLO: error rate < 1% для 5xx, < 0.1% для 4xx…
answerЧто такое curriculum learning для LLM и как его реализовать?
…Например: - Сначала обучать на чистых, простых текстах ([[Вики/Wikipedia\|Wikipedia]], книги). - Затем добавлять шумные данные (Reddit, [[Вики/Code\|код]] с…
answerКак работает DoRA (Weight-Decomposed LoRA) и чем лучше LoRA?
…Такой подход позволяет точнее аппроксимировать полное обновление весов, давая прирост качества на 2–5% на рассуждающих задачах ([[Вики/Reasoning\|reasoning…
answerКакая у вас была самая сложная проблема при fine-tuning и как вы её решили?
…Катастрофическое забывание при fine-tuning Codex для генерации SQL [[Вики/Task\|Задача]] Дообучить [[Вики/model\|модель]] [[Вики/Codex\|Codex]] ([[Вики…
wikiИндекс терминов
…CodeBERT|CodeBERT]] - [[Вики/CodeBLEU|CodeBLEU]] - [[Вики/codebook|codebook]] - [[Вики/CodeGraph|CodeGraph]] - [[Вики/CoDel|CoDel]] - [[Вики/CodeSearchNet|CodeSearchNet]] - [[Вики/Codex|Codex…
answerЧто такое Recurrent Depth в контексте LLM и зачем это нужно?
…Зачем это нужно - **[[Вики/Scale\|Масштабирование]] рассуждений ([[Вики/Reasoning\|reasoning]] [[Вики/Scale\|scaling]])**: сложные задачи (математика, [[Вики/code generation\|генерация…
answerКак вы генерируете synthetic данные для instruction tuning?
…Balancing — контроль количества задач каждого типа ([[Вики/classification\|classification]], [[Вики/generation\|generation]], [[Вики/Reasoning\|reasoning]]). 7. [[Вики/SFT\|Fine-tuning…
answerЧто такое meta-evaluation бенчмарков (оценка оценки)?
…задачи бенчмарка не отражают реальное «[[Вики/Reasoning\|рассуждение]]» или «понимание», а лишь проверяют поверхностные паттерны. [[Вики/meta-evaluation\|Meta-evaluation…
answerЧто такое agent explanation fidelity (насколько объяснение соответствует реальному решению)?
…2. [[Вики/Hallucination in reasoning\|Hallucination in reasoning]] – [[Вики/model\|модель]] может «выдумать» причину, похожую на те, что встречались в…
answerКак вы интегрируете DSPy с RAG-пайплайном? Приведите пример сигнатуры.
…нумерованный список, абзацы, с разделителями? | | [[Вики/Reasoning\|Рассуждение]] | Нужно ли добавлять "Let's think step by step" или другую инструкцию…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Интегрировать OpenTelemetry в агента
…последовательные [[Вики/Child span\|child span]]'ы для каждого шага: - `[[Вики/Reasoning\|thought]]` — [[Вики/generation\|генерация]] мысли; - `[[Вики/action\|action…
answerКак работает process reward model (PRM) vs outcome reward model (ORM)?
…задачах, требующих многошагового логического вывода ([[Вики/math reasoning\|math reasoning]], [[Вики/code generation\|генерация кода]], [[Вики/AI agents\|действия агента…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать rollback delegation
…Ключевой результат Функциональный [[Вики/Prototype\|прототип]] (или детальный дизайн + [[Вики/Code\|код]]), в котором при имитации [[Вики/ошибки\|ошибки]] агента…
answerКакие типы задач требуют Level 3 представления (scientific formalization)?
…Такое представление необходимо для задач, где требуется точное, воспроизводимое и проверяемое [[Вики/Reasoning\|рассуждение]]: физическое моделирование, многокомпонентное [[Вики/planning\|планирование…
answerОбъясните концепцию «программируемых промптов» (DSPy programs). Как это связано с MIPRO?
…Каждый [[Вики/Module\|модуль]] (например, `[[Вики/DSPy\|dspy]].[[Вики/dspy.Predict\|Predict]]`, `[[Вики/reasoning steps\|dspy.ChainOfThought]]`) параметризуется полями ввода…
answerЧто такое «аутсорсинг» задачи другому LLM (с другим API, другой ценой)?
…list[str], requires_reasoning: bool = False): token_count = self.estimate_tokens(query, contexts) # 1. Огромный контекст -> Claude if token_count…
answerЧто такое tree search agents (MCTS for LLM) и когда они эффективны?
…Agent\|ReAct]] | Чередует reasoning и actions, без поиска | O(D) | Простые задачи, где одного шага reasoning достаточно. | | [[Вики/Self-reflection…
answerКак делать evaluation для long-context RAG (>100k токенов)?
…Метрика — [[Вики/Faithfulness\|точность ответа]] на вопросы, требующие [[Вики/Multi-hop reasoning\|multi-hop reasoning]]. Применение в [[Вики/Long Context…
answerКакие инструменты для Delegation Engineering существуют (Airflow для агентов)?
…Ключевая идея: [[Вики/Code\|код]] [[Вики/Workflow\|workflow]] пишется как обычная [[Вики/API\|функция]], но его выполнение может быть приостановлено…
answerЧто такое Wave Decoding и чем отличается от стандартного авторегрессивного?
…accuracy\|точность]] каждого токена** (например, [[Вики/math reasoning\|математические рассуждения]], [[Вики/code generation\|генерация кода]] с синтаксической строгостью). --- ## 5. Когда…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать Evol-Instruct для instruction tuning
…augmentation\|Constraining]] (добавить [[Вики/constraints\|ограничения]]) - [[Вики/Data augmentation\|Reasoning boost]] (потребовать объяснения) Каждый оператор — это [[Вики/prompt\|промпт]], который…
answerЧто такое emergent specialization в multi-agent systems (агенты сами распределяют роли)?
…со временем формируется устойчивое разделение труда — одни агенты становятся «специалистами по retrieval», другие — «специалистами по reasoning», третьи — «специалистами по генерации…
answerКак изменилась роль инженера с приходом Harness Engineering?
…Harness Engineering]] работа инженера строилась по классическому циклу «[[Вики/Code\|код]] → тест → [[Вики/canary deployment\|развёртывание]]»: 1. Определить задачу (например…
answerКак вы делаете online RL для агентов (self-improvement loops)?
…задачи на [[Вики/Reasoning\|рассуждение]] ([[Вики/HotpotQA\|HotpotQA]], [[Вики/ALFWorld\|AlfWorld]]). - Действия: [[Вики/generation\|генерация]] ответа, [[Вики/action\|вызов инструментов…
answerКакие есть типичные failure modes в harness-engineering (over-decomposition, over-pruning)?
…если агент считает, что действие безопасно, он может предоставить обоснование (reasoning) и выполнить его без подтверждения пользователя. ### Hallucinated execution - Обязательно…
answerКак работает tree search (MCTS) для LLM агентов?
…каждый узел – это [[Вики/Chain-of-Thought\|цепочка мыслей]], [[Вики/Evaluation\|оценка]] через LLM-самооценку. - **RAP (Reasoning via Planning)** – использует…