Поиск

  • wikicontinuous learning

    # continuous learning ## Определение Парадигма обучения, при которой модель непрерывно адаптируется к новым данным без катастрофического забывания. Используются техники вроде EWC…

  • wikiFisher Information Matrix

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • wikiUndersampling

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • wikiHot-swap

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • wikiexplicit feedback

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • wikiImplicit feedback

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • wikireplay buffer

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • wikifeedback embeddings

    # feedback embeddings ## Определение Эмбеддинги пользовательских фидбеков для организации continuous learning агента. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…

  • wikigolden examples

    # golden examples ## Определение Отборные примеры взаимодействий агента, используемые для continuous learning без катастрофического забывания и шума. ## Где встречается - [[800+ вопросов…

  • answerКак вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения на шум и без катастрофического забывания?

    Continuous Learning (непрерывное обучение) **[[Вики/continuous learning\|Continuous learning]]** — это парадигма, при которой [[Вики/model\|модель]] улучшается на данных, поступающих…

  • wikiModel registry

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • wikifeature store

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • wikiIsolation Forest

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • wikiHugging Face TRL

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • wikiuser satisfaction

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • wikicatastrophic forgetting

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • wikiHoldout set

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • wikitoken bucket

    …Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI|201. Что такое continuous

  • wikiParameter-Efficient Fine-Tuning

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • wikidata drift

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • wikiOutlier detection

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • wikiVLLM

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • wikiLLM distillation

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • wikiconfidence score

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • answerКак вы предотвращаете catastrophic forgetting при fine-tuning?

    …LoRA]]. [[Вики/EWC\|EWC]] чаще применяется в [[Вики/continuous learning\|continuous learning]], но может быть комбинирован с [[Вики/LoRA\|LoRA…

  • wikiROUGE

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • wikiBLEU

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • answerКак вы деплоите LLM с TensorRT-LLM в production?

    …Ключевые преимущества — низкая [[Вики/Latency\|latency]], высокая [[Вики/throughput\|throughput]] и поддержка продвинутых оптимизаций ([[Вики/Quantization\|квантизация]], [[Вики/continuous batching…

  • answerЧто такое learning-to-rank (LTR) и как он применяется к retrieval для LLM?

    …Что такое Learning-to-Rank (LTR) **[[Вики/learning-to-rank\|Learning-to-rank]]** — это [[Вики/Task\|задача]] обучения с учителем…

  • wikiPrometheus

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать latent reasoning (COCONUT)

    …Цель задачи Реализовать подход COCONUT (Chain of Continuous Thought) — метод рассуждения, при котором модель не генерирует токены, а использует непрерывные…

  • answerКак работает tensor parallelism для LLM инференса? В чем отличие от pipeline parallelism?

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • wikiGrafana

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • answerЧто вы видите следующим горизонтом после language representation?

    …Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI\|201]] | Как оценивать качество…

  • wikiUser feedback

    # User feedback ## Определение Механизм сбора сигналов от пользователя (лайки, дизлайки, явные оценки) для оценки и улучшения качества ответов агента; часто…

  • wikifallback model

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • answerЧто такое AI for materials science (GNoME, MatterGen) и как это отличается от text LLM?

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • answerКак вы проектируете агента, который может работать непрерывно (24/7) без дрейфа поведения?

    …Архитектура непрерывного обучения (continual learning) Чтобы агент не забывал старые паттерны при перекалибровке, применяются техники [[Вики/continuous learning\|continual learning

  • answerЧто такое packing sequences и зачем он нужен?

    …Альтернативы и дополнения - **[[Вики/continuous batching\|Dynamic batching]]** ([[Вики/continuous batching\|динамическое батчирование]]): последовательности группируются по длине на лету, но…

  • answerКак работает ∇-Reasoner (градиентный спуск в пространстве токенов на этапе теста)?

    …аналогично [[Вики/Gumbel-Softmax\|Gumbel-Softmax]] или [[Вики/Continuous relaxation\|continuous relaxation]] в нейронном машинном переводе). - Во время [[Вики/backpropagation…

  • answerКак вы переносите агента из прототипа в production (MLOps)?

    …CI/CD пайплайн (Continuous Integration / Continuous Deployment) CI/CD гарантирует, что каждое изменение (промпта, кода, инструмента) проходит тесты и автоматически…

  • answerКак вы уменьшаете latency RAG-системы (время ответа)?

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • answerЧто такое Chain-of-Thought без токенов (latent CoT, COCONUT)?

    …Для обучения использовать технику [[Вики/Imitation learning\|imitation learning]]: сначала сгенерировать правильные CoT-рассуждения с помощью большой модели (GPT-4…

  • answerКак вы делаете data quality monitoring для RAG корпуса?

    …3. [[Вики/continuous monitoring\|Continuous monitoring]] потоковая [[Вики/Validation set\|валидация]] при добавлении документов через [[Вики/API\|API]]. Пример с…

  • indexИндекс разборов

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • wikiИндекс терминов

    …Вики/Continuous Backup|Continuous Backup]] - [[Вики/continuous batching|continuous batching]] - [[Вики/continuous learning|continuous learning]] - [[Вики/continuous monitoring|continuous monitoring…

  • indexОглавление

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • answerКак вы версионируете агента целиком (prompts, tools, memory schema, orchestration graph)?

    …Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения…

  • answerКак работает agent replay для улучшения качества (анализ failed траекторий)?

    …Инструменты Python, LangChain (или чистый OpenAI API), SQLite для хранения траекторий, DPO через библиотеку `trl` (Transformers Reinforcement Learning). **Шаги:** 1…

  • indexПРАКТИЧЕСКИЙ ЧЕКЛИСТ: СТАFF+ AI SYSTEMS ENGINEERING

    …A/B тест агентов | Q 149, Pet 248 | | 400 | Continuous learning | H 111, Pet 223, Q 146 | --- ## Часть 28: Harness…