Какие 3 книги/курса вы рекомендуете по production LLM?

Q: Краткий тезис

Для перехода от экспериментов с [[Вики/LLM\|LLM]] к production-системам нужно сочетать фундаментальные знания [[Вики/MLOps\|MLOps]], практическую реализацию моделей и архитектуру RAG/агентов. Три ключевых источника: Designing Machine Learning Systems (Chip Huyen) — база по [[Вики/MLOps\|MLOps]] и дизайну систем, **"Build a [[Вики/LLM\|Large Language Model]] (From [[Вики/Scratch\|Scratch]])"** (Sebastian Raschka) — глубокое понимание внутреннего устройства [[Вики/LLM\|LLM]], и курс **DeepLearning

Q: 1. Почему важен осознанный выбор источников для production LLM

- [[Вики/Policy\|Стратегия]] и архитектура ([[Вики/MLOps\|MLOps]]). - Внутреннее устройство (чтобы понимать, как [[Вики/model\|модель]] работает под капотом). - Инженерная реализация (конкретные паттерны [[Вики/гибридный поиск\|RAG]], агентов). ---

Q: 2. Книга: "Designing Machine Learning Systems" (Chip Huyen)

Q: 3. Книга: "Build a Large Language Model (From Scratch)" (Sebastian Raschka)

**[[Вики/Kafka topic\|Тема]]: Глубокое понимание архитектуры и обучения [[Вики/GPT-4o\|LLM]].** - Основное содержание: - Реализация **[[Вики/Transformer\|Transformer]]** с нуля ([[Вики/Attention\|self-attention]], [[Вики/Attention\|multi-head attention]], [[Вики/Position Encoding\|positional encoding]]).

Q: 4. Курс DeepLearning.AI: "Building Systems with the ChatGPT API" (совместно с OpenAI)

Q: Блоги и технические статьи

- Hamel Husain (Hamel's Blog) — пишет о production RAG, мониторинге, деплое (особенно на Kubernetes). - Eugene Yan (eugeneyan.com) — обзоры SOTA в retrieval, ranking, рекомендациях. - LangChain docs (python.langchain.com) — документация по агентам, цепочкам, хранилищам (дек 2024 включает [[Вики/LangGraph\|LangGraph]] для графовых пайплайнов).

Q: Почему именно эти блоги?

- В них разбираются реальные кейсы: как уменьшить latency на 40%, как настроить гибридный поиск (BM25 + dense). - Авторы активно обновляют контент, следят за изменениями в LLM-экосистеме. ---

Q: 6. Как комбинировать эти источники на практике

| Уровень | Источник | Когда обратиться | |---------|----------|------------------| | Архитектура MLOps | Designing ML Systems | На старте проекта, при выборе инфраструктуры | | Понимание модели | Build LLM from Scratch | При отладке неожиданного поведения модели, выборе стратегии квантования |

Краткий тезис

Для перехода от экспериментов с LLM к production-системам нужно сочетать фундаментальные знания MLOps, практическую реализацию моделей и архитектуру RAG/агентов. Три ключевых источника: Designing Machine Learning Systems (Chip Huyen) — база по MLOps и дизайну систем, "Build a Large Language Model (From Scratch)" (Sebastian Raschka) — глубокое понимание внутреннего устройства LLM, и курс DeepLearning.AI — "Building Systems with the ChatGPT API" — практика по RAG, агентам и выводу. Дополнительно актуальные практики — в блогах Hamel Husain, Eugene Yan и документации LangChain.

1. Почему важен осознанный выбор источников для production LLM

Production LLM — это не только вызов модели через API, а целая инфраструктура: управление контекстом, оркестрация, мониторинг, безопасность, версионирование. Ошибка в выборе литературы может привести к потере времени на устаревшие или академические подходы. Три рекомендованных источника покрывают три уровня:

Стратегия и архитектура (MLOps).
Внутреннее устройство (чтобы понимать, как модель работает под капотом).
Инженерная реализация (конкретные паттерны RAG, агентов).

2. Книга: "Designing Machine Learning Systems" (Chip Huyen)

Тема: MLOps и проектирование production ML-систем.

Основное содержание:
- Жизненный цикл ML-проекта: сбор данных, фичи, обучение, деплой, мониторинг.
- Выбор инфраструктуры (базы данных, оркестраторы, CI/CD).
- Проблемы production ML]]: дрейф данных, воспроизводимость, управление версиями моделей.
- Feature store, model registry, AB-тестирование.
Для LLM: хотя книга не про LLM напрямую, она даёт системный взгляд на production. Например, главы про мониторинг — ключевые для отслеживания perplexity, latency и средней оценки faithfulness в RAG.
Формат: бумага/электронная книга, 2022 год, актуальна до сих пор.

Применение к LLM:

Выбор векторной БД (Pinecone, Weaviate) — это часть data storage layer.
Проектирование пайплайна обновления знаний (chunking, embedding, indexing) — data pipeline.
Оркестрация цепочек (LangChain, LlamaIndex) — serving infrastructure.

3. Книга: "Build a Large Language Model (From Scratch)" (Sebastian Raschka)

Тема: Глубокое понимание архитектуры и обучения LLM.

Основное содержание:
- Реализация Transformer с нуля (self-attention, multi-head attention, positional encoding).
- Предобучение (pre-training) на собственном корпусе.
- Fine-tuning инструкций (instruction tuning) и RLHF.
- Численные аспекты: квантование, распределённое обучение.
Для production: знание того, как модель обрабатывает контекст, помогает в настройке системных промптов и выборе стратегий контекстного окна. Понимание механизма attention объясняет проблему "lost in the middle".
Формат: книга + GitHub репозиторий с кодом (PyTorch), 2024 год, наиболее свежая.

Ключевые инсайты для production engineer:

Архитектура KV-cache и её влияние на latency.
Почему модели "забывают" середину длинного контекста (ограничения attention).
Как работает tokenization (BPE, SentencePiece) — влияет на стоимость и скорость.

4. Курс DeepLearning.AI: "Building Systems with the ChatGPT API" (совместно с OpenAI)

Тема: Построение production-систем на основе LLM API.

Основное содержание:
- Разбиение сложных запросов на цепочки (chains).
- Prompt chaining, routing, parallelization.
- Построение RAG-систем: Chunking, Embedding, Retrieval.
- Агенты (ReAct pattern) с функциями (tool use).
- Обработка ошибок, логирование, rate limiting.
Для production: курс даёт готовые паттерны, которые можно сразу применить. Включает работу с LangChain (версия курса немного устарела, но концепции актуальны).
Формат: видеолекции (1-2 часа) + Jupyter ноутбуки, бесплатный (с опцией сертификата).

Практические навыки:

Как построить multi-step reasoning (Chain-of-Thought).
Как добавить memory в диалоговые системы.
Как тестировать edge cases (пустые ответы, инъекции).

5. Дополнительные источники для актуальных практик

Блоги и технические статьи

Hamel Husain (Hamel's Blog) — пишет о production RAG, мониторинге, деплое (особенно на Kubernetes).
Eugene Yan (eugeneyan.com) — обзоры SOTA в retrieval, ranking, рекомендациях.
LangChain docs (python.langchain.com) — документация по агентам, цепочкам, хранилищам (дек 2024 включает LangGraph для графовых пайплайнов).
OpenAI Cookbook — рецепты по работе с API, эмбеддингами, классификациями.

Почему именно эти блоги?

В них разбираются реальные кейсы: как уменьшить latency на 40%, как настроить гибридный поиск (BM25 + dense).
Авторы активно обновляют контент, следят за изменениями в LLM-экосистеме.

6. Как комбинировать эти источники на практике

Уровень	Источник	Когда обратиться
Архитектура MLOps	Designing ML Systems	На старте проекта, при выборе инфраструктуры
Понимание модели	Build LLM from Scratch	При отладке неожиданного поведения модели, выборе стратегии квантования
Быстрый прототип	Курс DeepLearning.AI	На этапе MVP, построение первой RAG-системы
Оптимизация	Блоги и docs	На этапе доработки (latency, cost, reliability)

Рекомендуемый путь:

Пройти курс, чтобы быстро получить работающий прототип.
Прочитать "Designing ML Systems" для осознанного рефакторинга (оркестрация, мониторинг, масштабирование).
Изучить книгу Raschka, если нужно глубокое понимание (fine-tuning под конкретный домен, оптимизация inference).

7. Критерии выбора литературы для production LLM

Актуальность (не старше 2-3 лет для LLM и MLOps).
Практическая применимость (код, конфиги, чеклисты).
Покрытие lifecycle (от сбора данных до мониторинга).
Учёт новых тенденций (агенты, графовые оркестрации, Serverless).

8. Практические советы по использованию

Для собеседования: упор на системный подход — не просто назвать книги, а показать, как знания из них применяются в production. Пример: "Из Designing ML Systems я использую принципы мониторинга дрейфа данных для отслеживания релевантности retrieval в RAG".
Читательский трек: можно начать с блогов (1-2 статьи в день), потом курс, потом книги.
Закрепление: реализовать пет-проект (см. ниже).

Пет-проект для закрепления

Задача: Разработать production-готовую RAG-систему для ответов на вопросы по документации LangChain, используя все три источника.

Инструменты:

Backend: FastAPI + LangChain + Chroma DB (локальная векторная БД).
Модель: GPT-4o-mini (через API) или локальная модель (Llama 3 8B с квантованием GGUF).
Мониторинг: Prometheus + Grafana (latency, number of retrieved chunks, faithfulness score).
Оркестрация: Docker Compose.

Шаги:

На основе курса DeepLearning.AI построить базовую RAG-цепочку (chunking по 500 символов с перекрытием 100, эмбеддинги text-embedding-3-small).
Используя книгу Raschka, разобраться с контекстным окном: настроить динамическое переключение чанков в зависимости от длины запроса (если короткий вопрос → берём топ-3 чанка, если длинный → топ-5).
По книге Chip Huyen добавить мониторинг: логировать время retrieval, считать hit rate на тестовом сете из 50 вопросов.
Развернуть с помощью Docker и добавить аргументированные решения (почему выбрана Chroma, а не Milvus — для локального прототипа достаточно).

Ожидаемый результат:

Работающий сервис на localhost:8000.
Графики latency и hit rate в Grafana.
Отчёт о том, какая конфигурация (размер чанка, топ-k) даёт лучший balance между accuracy и cost.

Связь с другими вопросами

Вопрос	Тема
61	Что такое MLOps и зачем он нужен для LLM
65	Как контейнеризировать LLM-сервис
66	Как мониторить production LLM
78	Какие подходы к деплою LLM существуют
79	Как оценивать cost LLM-системы
81	Что такое LLMOps

Краткий тезис

1. Почему важен осознанный выбор источников для production LLM

Стратегия и архитектура (MLOps).
Внутреннее устройство (чтобы понимать, как модель работает под капотом).
Инженерная реализация (конкретные паттерны RAG, агентов).

2. Книга: "Designing Machine Learning Systems" (Chip Huyen)

Тема: MLOps и проектирование production ML-систем.

Основное содержание:
- Жизненный цикл ML-проекта: сбор данных, фичи, обучение, деплой, мониторинг.
- Выбор инфраструктуры (базы данных, оркестраторы, CI/CD).
- Проблемы production ML]]: дрейф данных, воспроизводимость, управление версиями моделей.
- Feature store, model registry, AB-тестирование.
Для LLM: хотя книга не про LLM напрямую, она даёт системный взгляд на production. Например, главы про мониторинг — ключевые для отслеживания perplexity, latency и средней оценки faithfulness в RAG.
Формат: бумага/электронная книга, 2022 год, актуальна до сих пор.

Применение к LLM:

Выбор векторной БД (Pinecone, Weaviate) — это часть data storage layer.
Проектирование пайплайна обновления знаний (chunking, embedding, indexing) — data pipeline.
Оркестрация цепочек (LangChain, LlamaIndex) — serving infrastructure.

3. Книга: "Build a Large Language Model (From Scratch)" (Sebastian Raschka)

Тема: Глубокое понимание архитектуры и обучения LLM.

Основное содержание:
- Реализация Transformer с нуля (self-attention, multi-head attention, positional encoding).
- Предобучение (pre-training) на собственном корпусе.
- Fine-tuning инструкций (instruction tuning) и RLHF.
- Численные аспекты: квантование, распределённое обучение.
Для production: знание того, как модель обрабатывает контекст, помогает в настройке системных промптов и выборе стратегий контекстного окна. Понимание механизма attention объясняет проблему "lost in the middle".
Формат: книга + GitHub репозиторий с кодом (PyTorch), 2024 год, наиболее свежая.

Ключевые инсайты для production engineer:

Архитектура KV-cache и её влияние на latency.
Почему модели "забывают" середину длинного контекста (ограничения attention).
Как работает tokenization (BPE, SentencePiece) — влияет на стоимость и скорость.

4. Курс DeepLearning.AI: "Building Systems with the ChatGPT API" (совместно с OpenAI)

Тема: Построение production-систем на основе LLM API.

Основное содержание:
- Разбиение сложных запросов на цепочки (chains).
- Prompt chaining, routing, parallelization.
- Построение RAG-систем: Chunking, Embedding, Retrieval.
- Агенты (ReAct pattern) с функциями (tool use).
- Обработка ошибок, логирование, rate limiting.
Для production: курс даёт готовые паттерны, которые можно сразу применить. Включает работу с LangChain (версия курса немного устарела, но концепции актуальны).
Формат: видеолекции (1-2 часа) + Jupyter ноутбуки, бесплатный (с опцией сертификата).

Практические навыки:

Как построить multi-step reasoning (Chain-of-Thought).
Как добавить memory в диалоговые системы.
Как тестировать edge cases (пустые ответы, инъекции).

5. Дополнительные источники для актуальных практик

Блоги и технические статьи

Hamel Husain (Hamel's Blog) — пишет о production RAG, мониторинге, деплое (особенно на Kubernetes).
Eugene Yan (eugeneyan.com) — обзоры SOTA в retrieval, ranking, рекомендациях.
LangChain docs (python.langchain.com) — документация по агентам, цепочкам, хранилищам (дек 2024 включает LangGraph для графовых пайплайнов).
OpenAI Cookbook — рецепты по работе с API, эмбеддингами, классификациями.

Почему именно эти блоги?

В них разбираются реальные кейсы: как уменьшить latency на 40%, как настроить гибридный поиск (BM25 + dense).
Авторы активно обновляют контент, следят за изменениями в LLM-экосистеме.

6. Как комбинировать эти источники на практике

Уровень	Источник	Когда обратиться
Архитектура MLOps	Designing ML Systems	На старте проекта, при выборе инфраструктуры
Понимание модели	Build LLM from Scratch	При отладке неожиданного поведения модели, выборе стратегии квантования
Быстрый прототип	Курс DeepLearning.AI	На этапе MVP, построение первой RAG-системы
Оптимизация	Блоги и docs	На этапе доработки (latency, cost, reliability)

Рекомендуемый путь:

Пройти курс, чтобы быстро получить работающий прототип.
Прочитать "Designing ML Systems" для осознанного рефакторинга (оркестрация, мониторинг, масштабирование).
Изучить книгу Raschka, если нужно глубокое понимание (fine-tuning под конкретный домен, оптимизация inference).

7. Критерии выбора литературы для production LLM

Актуальность (не старше 2-3 лет для LLM и MLOps).
Практическая применимость (код, конфиги, чеклисты).
Покрытие lifecycle (от сбора данных до мониторинга).
Учёт новых тенденций (агенты, графовые оркестрации, Serverless).

8. Практические советы по использованию

Для собеседования: упор на системный подход — не просто назвать книги, а показать, как знания из них применяются в production. Пример: "Из Designing ML Systems я использую принципы мониторинга дрейфа данных для отслеживания релевантности retrieval в RAG".
Читательский трек: можно начать с блогов (1-2 статьи в день), потом курс, потом книги.
Закрепление: реализовать пет-проект (см. ниже).

Пет-проект для закрепления

Инструменты:

Backend: FastAPI + LangChain + Chroma DB (локальная векторная БД).
Модель: GPT-4o-mini (через API) или локальная модель (Llama 3 8B с квантованием GGUF).
Мониторинг: Prometheus + Grafana (latency, number of retrieved chunks, faithfulness score).
Оркестрация: Docker Compose.

Шаги:

На основе курса DeepLearning.AI построить базовую RAG-цепочку (chunking по 500 символов с перекрытием 100, эмбеддинги text-embedding-3-small).
Используя книгу Raschka, разобраться с контекстным окном: настроить динамическое переключение чанков в зависимости от длины запроса (если короткий вопрос → берём топ-3 чанка, если длинный → топ-5).
По книге Chip Huyen добавить мониторинг: логировать время retrieval, считать hit rate на тестовом сете из 50 вопросов.
Развернуть с помощью Docker и добавить аргументированные решения (почему выбрана Chroma, а не Milvus — для локального прототипа достаточно).

Ожидаемый результат:

Работающий сервис на localhost:8000.
Графики latency и hit rate в Grafana.
Отчёт о том, какая конфигурация (размер чанка, топ-k) даёт лучший balance между accuracy и cost.

Связь с другими вопросами

Вопрос	Тема
61	Что такое MLOps и зачем он нужен для LLM
65	Как контейнеризировать LLM-сервис
66	Как мониторить production LLM
78	Какие подходы к деплою LLM существуют
79	Как оценивать cost LLM-системы
81	Что такое LLMOps

Какие 3 книги/курса вы рекомендуете по production LLM?

Краткий тезис

1. Почему важен осознанный выбор источников для production LLM

2. Книга: "Designing Machine Learning Systems" (Chip Huyen)

3. Книга: "Build a Large Language Model (From Scratch)" (Sebastian Raschka)

4. Курс DeepLearning.AI: "Building Systems with the ChatGPT API" (совместно с OpenAI)

5. Дополнительные источники для актуальных практик

Блоги и технические статьи

Почему именно эти блоги?

6. Как комбинировать эти источники на практике

7. Критерии выбора литературы для production LLM

8. Практические советы по использованию

Пет-проект для закрепления

Связь с другими вопросами

Навигация

Какие 3 книги/курса вы рекомендуете по production LLM?

Краткий тезис

1. Почему важен осознанный выбор источников для production LLM

2. Книга: "Designing Machine Learning Systems" (Chip Huyen)

3. Книга: "Build a Large Language Model (From Scratch)" (Sebastian Raschka)

4. Курс DeepLearning.AI: "Building Systems with the ChatGPT API" (совместно с OpenAI)

5. Дополнительные источники для актуальных практик

Блоги и технические статьи

Почему именно эти блоги?

6. Как комбинировать эти источники на практике

7. Критерии выбора литературы для production LLM

8. Практические советы по использованию

Пет-проект для закрепления

Связь с другими вопросами

Навигация