Поиск
- wikiWikiText-2
# WikiText-2 ## Определение Небольшой корпус текстов из Википедии, используемый для обучения и валидации моделей, например, в speculative decoding. ## Где встречается…
- wikiWikipedia API
# Wikipedia API ## Определение Интерфейс для программного доступа к содержимому Википедии. Применяется как внешний инструмент агента для поиска фактов, в том…
- wikiWikipedia abstracts
# Wikipedia abstracts ## Определение Краткие изложения статей Википедии, используемые в качестве корпуса документов для задач поиска и генерации ответов. ## Где встречается…
- wikiWikipedia
# Wikipedia ## Определение Онлайн-энциклопедия, применяемая как источник контекста и эталонных ответов (ground truth) для тестовых запросов при оценке RAG-систем…
- wikiWikiText-103
# WikiText-103 ## Определение Датасет для языкового моделирования, содержащий 103 миллиона токенов из статей Википедии. Применяется для оценки моделей. ## Где встречается…
- wikiWikitext
# Wikitext ## Определение Датасет, содержащий тексты из Википедии, используемый для генерации промптов фиксированной длины при тестировании LLM. ## Где встречается - [[206. Развернуть…
- wikiWikidata
# Wikidata ## Определение Открытая база знаний на основе RDF, доступная через SPARQL-запросы. Используется как источник структурированных данных для retrieval в…
- answerКак вы проектируете feature engineering для контекста RAG (кроме текста)?
…Если документ с [[Вики/Wikipedia\|Wikipedia]] (обычно нейтральный), а другой с Reddit (субъективный), [[Вики/model\|модель]] может учесть это при…
- wikiDBpedia
# DBpedia ## Определение Открытая база знаний, извлечённая из Wikipedia, доступная через SPARQL и используемая для retrieval из структурированных данных. ## Где встречается…
- wikiSPARQL
# SPARQL ## Определение Язык запросов к RDF-данным, применяемый для извлечения информации из Knowledge Graphs (например, Wikidata). ## Где встречается - [[377. Как…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Создать benchmark для retrieval
…Скачайте датасет `wikitext` через `datasets.load_dataset("wikitext", "wikitext-2-raw-v1")`. 2. Выберите 10 000 статей (текст в `text…
- answerКак работает agent self-improvement через self-reflection on failures?
…Реализуйте агента, который отвечает на исторические вопросы (например, «Когда началась Вторая мировая?») с помощью вызова [[Вики/Wikipedia\|Wikipedia]] [[Вики/retrieval…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настройка AWQ квантизации для LLM
…Оценка качества (1 час) Действия 1. [[Вики/Perplexity\|Perplexity]] на [[Вики/WikiText-2\|WikiText-2]] Реализовать вычисление: ```python def compute…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить гибридную архитектуру Mamba + Attention для улучшения качества языковой модели
…раздел симуляции) | | Базовая модель Transformer | HuggingFace `transformers` – GPT-2 small (124M) как baseline | | Датасет для языкового моделирования | WikiText-103 (HuggingFace…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с гибридным поиском (Qdrant + BM25 + RRF)
…Взять 500–1000 статей из [[Вики/Wikipedia\|Wikipedia]] (можно через `[[Вики/Wikipedia API\|wikipedia-api]]` случайные абзацы) 2. Каждую статью…
- answerКак вы проектируете dynamic benchmark (меняющийся со временем)?
…Факты берутся из базы знаний ([[Вики/Wikipedia\|Wikipedia]], [[Вики/Wikidata\|Wikidata]]). - [[Вики/generation\|Генерация с помощью LLM]] Используем [[Вики/GPT…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить contextual retrieval (Anthropic стиль)
…Загрузить и подготовить [[Вики/dataset\|датасет]] - Скачать 50–100 документов (например, статьи arXiv, разделы [[Вики/Wikipedia\|Wikipedia]]). - Сохранить каждый документ…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать failure injection для MoE router
…python from datasets import load_dataset dataset = load_dataset("wikitext", "wikitext-2-raw-v1", split="test") texts = dataset["text"][:50…
- answerЧто такое curriculum learning на уровне данных для LLM?
…Загрузить [[Вики/dataset\|датасет]] (например, `c4` или `[[Вики/WikiText-2\|wikitext-2]]`). 2. Вычислить сложность каждого примера: длина в токенах…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Написать документацию промпта
…Ключевой результат Файл документации промпта в формате [[Вики/Markdown\|Markdown]] (или в Wiki компании), содержащий: заголовок, версию, описание, [[Вики/промпт…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Написать test plan для агента
…Разверните простого агента на LangChain / Kernel|Semantic Kernel с 2–3 инструментами (например, поиск в Wikipedia и калькулятор). Используйте публичный…
- answerКак работает Toolformer-like обучение для агентов (self-supervised tool use)?
…начинайте с простых (калькулятор, поиск по Wikipedia, переводчик). Для каждого API нужен чёткий шаблон и возможность выполнить вызов без побочных…
- answerЧто такое ReAct Agent и как он работает?
…локальная LLM]] через [[Вики/LLM\|Ollama]]), библиотеки `[[Вики/Wikipedia API\|wikipedia-api]]`, `[[Вики/requests\|requests]]`, `[[Вики/JSON\|json]]`. **Шаги:** 1…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить cost tracking для агента
…GPT]]‑4o и вызывает один‑два инструмента (например, [[Вики/Wikipedia\|Wikipedia]] [[Вики/API\|API]], калькулятор). 2. Вставить в [[Вики/Code…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Написать postmortem для retrieval degradation
…Технологический стек | Компонент | Инструменты | Назначение | |-----------|-------------|------------| | База знаний (wiki для postmortem) | Obsidian / Notion / Markdown + Git | Хранение postmortem и шаблонов | | Логи retrieval…
- answerЧто такое planner/executor architecture для агентов и когда она нужна?
…Выполнить шаги с использованием реального поискового [[Вики/API\|API]] (например, [[Вики/SerpAPI\|SerpAPI]] или [[Вики/Wikipedia API\|Wikipedia API]]). 3…
- answerКак сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)?
…128 примеров из wikitext-2 или c4. **Шаги**: 1. Загрузите модель в FP16 (`torch.float16`) и измерьте perplexity на wikitext…
- answerКак вы ограничиваете бесконечный цикл агента?
…Инструменты [[Вики/SQL\|Python]], библиотека `[[Вики/GPT-4o\|openai]]`, `[[Вики/Wikipedia\|wikipedia]]`, `[[Вики/asyncio\|asyncio]]`, `[[Вики/pytest\|pytest]]`. **Шаги:** 1…
- answerКак работает LayerNorm и RMSNorm? В чем разница и почему RMSNorm быстрее?
…PyTorch, Hugging Face Transformers, датасет WikiText-2. **Шаги**: 1. Реализовать два класса `LayerNorm` и `RMSNorm` (как показано выше). 2. Создать…
- answerКак вы передаёте контекст между несколькими агентами (multi-agent system)?
…поиск информации в Wikipedia. - Агент B: извлечение ключевых фактов. - Агент C: генерация ответа пользователю. - Контекст (запрос, найденные статьи, факты, финальный…
- answerКак работает Toolformer (обучение агента использованию инструментов)?
…Вики/retrieval\|Поиск]]: [[Вики/model\|модель]] научилась запрашивать [[Вики/Wikipedia\|Wikipedia]] для ответа на вопросы, где внутренние знания недостаточны. - Совместное…
- answerНазовите 12+ слоёв эталонной архитектуры Harness?
…реализовать минимальную версию архитектуры Harness — агента, который использует RAG и инструменты (калькулятор, поиск в Wikipedia) с базовыми слоями безопасности и…
- answerКак вы анализируете embedding geometry для отладки retrieval качества?
…Пет-проект для закрепления [[Вики/Task\|Задача]] Проанализировать геометрию эмбеддингов для датасета из 5000 документов (например, статьи [[Вики/Wikipedia\|Wikipedia…
- answerGGUF vs GPTQ vs AWQ — сравнение форматов квантизации для локального запуска?
…метрики Основная метрика — [[Вики/Perplexity\|perplexity]] (перплексия) на калибровочном датасете (например, WikiText-2). Чем ниже perplexity, тем лучше качество. | Формат…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить GPTQ vs AWQ на reasoning задачах
…Калибровочные данные (берём 128 сэмплов из wikitext-2) calib_dataset = load_dataset("wikitext", "wikitext-2-raw-v1", split="train") calib…
- answerКак работает quantization-aware scaling в AWQ для защиты важных весов?
…качество на reasoning задачах В бенчмарках (статья AWQ, 2023) 4-битный AWQ показывает: - Perplexity на WikiText-2: 5.72 против…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с оценкой faithfulness и дашбордом Grafana
…Скачать [[Вики/dataset\|датасет]] (например, первые 100 статей из [[Вики/Wikipedia\|Wikipedia]] в формате [[Вики/Markdown\|Markdown]]). 2. Написать скрипт…
- answerКак вы делаете cache invalidation для semantic cache при обновлении знаний?
…Загрузите несколько статей Wikipedia (например, 10) в локальную векторную БД (FAISS). 2. Реализуйте простой RAG: retrieval + LLM (можно использовать OpenAI…
- answerКак вы тестируете агентов? (сложно из-за стохастичности)
…Инструменты Python, pytest, pytest-mock, requests (мок), Wikipedia API (можно использовать реальный, но с записью vcr). **Шаги:** 1. Создать агента…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Создать benchmark для агентов
…на LangChain с ограниченным набором инструментов (калькулятор, поиск в Wikipedia, чтение файлов) | ### Если нет реального инструмента — симулируем: 1. [[Вики/Генерация…
- answerКак вы делаете retrieval для структурированных данных (SQL, Knowledge Graph)?
…Для извлечения данных используются языки запросов: - [[Вики/SPARQL\|SPARQL]] — для RDF-графов ([[Вики/Wikidata\|Wikidata]], [[Вики/DBpedia\|DBpedia]]). - [[Вики/Cypher…
- answerGGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инференса?
…Влияние квантизации на качество Качество измеряется обычно через [[Вики/Perplexity\|perplexity]] на тестовом корпусе (например, wikitext) или на бенчмарках (MMLU…
- answerКак вы детектируете data contamination в evaluation датасетах?
…Выберите evaluation-датасет (например, SQuAD v2 или TriviaQA) и тренировочные данные (например, часть The Pile или Wikipedia). 2. Реализуйте n…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать A/B тестирование промптов
…Для эталонных ответов взять первые абзацы из [[Вики/Wikipedia\|Wikipedia]]. 4. Важно в таком случае метрика [[Вики/No hallucination\|faithfulness…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Fine-tune embedding под домен
…Исходные данные | Что нужно | Откуда взять | |-----------|--------------| | Доменный датасет (тексты документов и запросов) | Собрать из доступного источника (например, Wikipedia по тематике…
- answerКак вы защищаете RAG от data poisoning через неявные инструкции (subtle injections)?
…Создать базу знаний из 100 легитимных документов (Wikipedia). 2. Добавить 10 документов с subtle injections (например, «Вторая мировая война началась…
- answerЧто такое curriculum learning для LLM и как его реализовать?
…Например: - Сначала обучать на чистых, простых текстах ([[Вики/Wikipedia\|Wikipedia]], книги). - Затем добавлять шумные данные (Reddit, [[Вики/Code\|код]] с…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Fine-tune embedding для юридического домена
…Возьмите 5000 любых длинных текстов (например, новости из `AG_NEWS` или случайные статьи из [[Вики/Wikipedia\|Wikipedia]]). 2. Разбейте каждый…
- answerЧто такое differential privacy для LLM и как она работает?
…Примеры: - [[Вики/model\|Модель]] [[Вики/Transformer\|GPT-2]] могла воспроизводить личные данные из [[Вики/Wikipedia\|Wikipedia]]. - [[Вики/SFT\|Fine-tuning…
- answerКак вы делаете incremental ingestion для часто меняющихся документов?
…Задача]] Реализовать инкрементальную загрузку для коллекции статей на [[Вики/Wikipedia\|Wikipedia]] (или новостей), которые обновляются раз в день. Инструменты - Источник…