ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить search-based inference (AlphaSearch)

1. Цель задачи

Реализовать поисковый механизм поверх LLM, использующий MCTS (Monte Carlo Tree Search) в сочетании с verifier для выбора наилучшего ответа. Цель — улучшить качество рассуждений модели на сложных задачах (математика, логика) по сравнению с обычным greedy-декодированием или best-of-N. Вы научитесь строить композитную inference-систему, комбинировать multiple rollouts, обрезать ветви и присваивать вознаграждения.

Ключевой результат Рабочий пайплайн AlphaSearch, который на тестовых задачах (например, 100 примеров из GSM8K) даёт accuracy выше, чем greedy decoding (минимум +5%).

2. Исходные данные

Что нужно	Откуда взять
LLM (7B-13B, желательно с умением chain-of-thought)	Hugging Face: `microsoft/phi-2`, `mistralai/Mistral-7B-Instruct-v0.3`, `meta-llama/Llama-2-7b-chat-hf`
Датасет сложных задач (математика)	GSM8K (`gsm8k`), MATH (`hendrycks/ma th`) или арифметические цепочки
Verifier (reward model)	Обученная модель (например, `OpenAssistant/reward-model-deberta-v3-large-v2`) или rule-based: сравнение финального числового ответа с эталоном
Инфраструктура для запуска	Python 3.10+, PyTorch, CUDA (GPU 16GB+), vLLM (опционально для ускорения)
Референсный baseline	Greedy decoding с temperature=0, top-p=1

Если нет реального verifier — симулируем:

Используем часть датасета с известными ответами (train split). Для каждого rollout проверяем, совпадает ли финальный ответ с правильным (постобработка: извлечь число после ## или Answer:).
Для шагов внутри MCTS используем прогнозирование правильности по правилу: ближайший rollout score = 1, если промежуточный шаг ведёт к правильному финалу (имитация через несколько симуляций до конца).

3. Технологический стек

Компонент	Инструменты	Назначение
Модель LLM	HuggingFace Transformers, vLLM	Генерация рассуждений и токенов
MCTS	Python (библиотеки: `mcts`, `tree` или реализация вручную)	Поиск по дереву мыслей
Verifier / Reward model	HuggingFace AutoModelForSequenceClassification / кастомный класс	Оценка качества полного или частичного ответа
Дашборд / логирование	Weights & Biases, TensorBoard	Сравнение метрик разных стратегий
Датасет	HuggingFace datasets	GSM8K, MATH
Окружение	Python 3.10, PyTorch, CUDA	Вычисления

4. Этапы выполнения

Этап 1: Подготовка окружения и baseline (1 час)

Действия

Установить зависимости: pip install transformers torch datasets vllm swig (swig для mcts, если нужно).
Загрузить модель (например, Mistral-7B-Instruct) и токенайзер.
Загрузить датасет GSM8K (100 примеров из test split для оценки).
Реализовать greedy-декодирование: model.generate(... temperature=0.0, max_new_tokens=512).
Постобработка: извлечь финальный ответ (число). Вычислить accuracy на 100 примерах.
Зафиксировать результат как baseline.

Ожидаемый результат этапа Скрипт baseline.py, accuracy на GSM8K (например, 42% для 7B модели). Вывод в STDERR: Greedy accuracy: 0.42.

Этап 2: Реализация MCTS-дерева (3 часа)

Действия

Определить структуру узла: state (текущий частичный рассуждение), parent, children, visits, value.
Написать функции:
- select(node) — выбор узла по UCB1: Q + c * sqrt(log(N_parent) / (1 + n)).
- expand(node) — генерация k вариантов следующего шага (например, top-k из LLM с temperature=0.8).
- simulate(node) — rollout от заданного состояния до конца (greedy).
- backpropagate(node, reward) — обновление Q и visits по пути.
Ограничить количество симуляций (например, 50 на корневой узел).
Интегрировать LLM: при expand вызывать model.generate с несколькими примерами (можно через do_sample=True, num_return_sequences=k).
После завершения MCTS выбрать лучший путь (тот, у которого максимальный Q в корне, или полный путь с наибольшим value на листе).

Ожидаемый результат этапа Функция mcts_inference(prompt) -> final_answer. Тест на 5 примерах — получает ответы, время ~30 секунд на пример.

Этап 3: Интеграция verifier (2 часа)

Действия

Выбрать подход:
- Option A Rule-based verifier: для каждого полного rollout извлечь финальное число и сравнить с правильным (если датасет train split). Использовать это как reward для backpropagation.
- Option B Reward model: загрузить предобученный ревард-модель (например, OpenAssistant/reward-model-deberta-v3-large-v2). Подавать полный текст ответа (с промптом) в модель, получить scalar reward (0-1). Использовать как score в backpropagation.
Если выбрали Option B, написать обёртку: verifier.score(prompt + generation) -> float.
Модифицировать simulate(node): после генерации полного ответа вызвать verifier, получить reward.
Убедиться, что reward попадает в backpropagation правильно.

Важно Для Option B reward модель должна быть совместима по токенизации (часто отдельный токенайзер). Использовать AutoTokenizer.from_pretrained.

Ожидаемый результат этапа MCTS теперь использует verifier. Запустить на 10 примерах — accuracy должна быть не ниже baseline (если нет, проверить масштаб reward, c параметр UCB).

Этап 4: Оптимизация и тестирование (2 часа)

Действия

Настроить гиперпараметры MCTS:
- c (exploration constant) — попробовать 0.5, 1.0, 2.0.
- num_simulations — 20, 50, 100.
- expand_k (число детей) — 3, 5.
- temperature при generate — 0.6, 0.8, 1.0.
Сравнить accuracy на тестовых 100 примерах: Greedy (baseline), Best-of-5 (простой sampling с выбором через verifier), AlphaSearch (MCTS+verifier).
Построить таблицу/график сравнения.
Замерить среднее время инференса на один пример для каждой стратегии.

Ожидаемый результат этапа Таблица метрик:

Стратегия	Accuracy	Среднее время (с)
Greedy	42%	3
Best-of-5	47%	15
AlphaSearch	50%	45

Этап 5: Анализ и документирование (1 час)

Действия

Задокументировать архитектуру: как соединены LLM, MCTS, verifier.
Написать небольшой отчет: какие примеры улучшились, какие ухудшились, почему.
Зафиксировать лучшие гиперпараметры и конфигурацию.
Выгрузить код в репозиторий (GitHub/GitLab) с README.

Ожидаемый результат этапа Файл REPORT.md с результатами и выводами.

5. Критерии приемки (Definition of Done)

Реализован MCTS с UCB1, expand, simulate, backpropagate.
Verifier интегрирован в simulate (rule-based или reward model).
Альфа-версия запускается на 100 примерах GSM8K.
Accuracy AlphaSearch выше, чем greedy (разница > 5 процентных пунктов).
Получен хотя бы один из двух вариантов verifier (rule-based или модель).
Создана таблица сравнения greedy, best-of-5, AlphaSearch.
Зафиксировано среднее время инференса.
Код оформлен в виде модулей (mcts.py, verifier.py, inference.py) с README.
Воспроизводимость: requirements.txt, скрипт run_experiments.sh или python main.py.

6. Ожидаемый результат

Основной артефакт Репозиторий с папкой alphasearch, содержащей:

mcts.py — реализация дерева MCTS.
verifier.py — класс verifier (rule-based или модель).
inference.py — функция answer = alpha_search(prompt, model, verifier).
run_experiments.py — сравнение стратегий, вывод метрик.
REPORT.md — отчёт с таблицей accuracy и времени.
requirements.txt — зависимости.

Дополнительно График accuracy_vs_time.png (опционально).

7. Возможные сложности и их решение

Сложность	Решение
LLM слишком медленная для множества симуляций	Использовать vLLM для batch inference; уменьшить симуляции до 20; использовать маленькую модель (Phi-2)
Verifier (reward model) несовместим по токенайзеру	Взять rule-based verifier, который можно натренировать на валидации ответа по числу
MCTS зависает в рекурсии / бесконечные rollout	Ограничить глубину rollouts (max_new_tokens=512) и количество симуляций; добавить максимальное количество токенов на узел
UCB1 не сходится	Увеличить exploration constant c; использовать нормализацию reward (z-score)
Разница в форматах вывода модели (например, ответ без спецметок)	Стандартизировать постобработку: извлекать последнее число после символа `=`, `Result:`, или `answer:`. Использовать regex `r'[-+]?\d+\.?\d*'`
GPU Out-of-Memory при использовании нескольких моделей	Использовать одну модель для генерации, verifier загрузить на CPU (если медленно — на GPU с offloading)

8. Бюджет времени (оценка)

Этап	Время
Этап 1: baseline	1 час
Этап 2: MCTS	3 часа
Этап 3: verifier	2 часа
Этап 4: оптимизация и тест	2 часа
Этап 5: документирование	1 час
Итого	9 часов

Примечание Если используется предобученный reward model, этап 3 может занять меньше (1 час). Для первого раза рекомендуется заложить +2 часа на отладку скрытых багов.

9. Связанные вопросы из базы знаний

Вопрос	Тема
12	MCTS в AlphaGo/AlphaZero
17	Beam search и лучшие стратегии декодирования
23	Chain-of-Thought prompting
34	Reward models и RLHF
41	Тестово-временное масштабирование (test-time compute)
55	Self-consistency decoding
78	Verifiers и их обучение на reasoning tasks
94	Best-of-N sampling
112	UCB1 и exploration-exploitation
205	Масштабирование inference для математических задач

10. Чек-лист самопроверки

Я разобрался(лась) с архитектурой MCTS: selection, expansion, simulation, backpropagation.
Я выбрал(а) подходящий verifier и настроил(а) его связку с LLM.
Я проверил(а) baseline accuracy и убедился(лась), что AlphaSearch даёт прирост.
Я задокументировал(а) гиперпараметры, чтобы эксперимент можно было воспроизвести.
Я написал(а) простой тест на 1–2 примерах, который показывает корректность выдачи.

ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить search-based inference (AlphaSearch)

1. Цель задачи

2. Исходные данные

Что нужно	Откуда взять
LLM (7B-13B, желательно с умением chain-of-thought)	Hugging Face: `microsoft/phi-2`, `mistralai/Mistral-7B-Instruct-v0.3`, `meta-llama/Llama-2-7b-chat-hf`
Датасет сложных задач (математика)	GSM8K (`gsm8k`), MATH (`hendrycks/ma th`) или арифметические цепочки
Verifier (reward model)	Обученная модель (например, `OpenAssistant/reward-model-deberta-v3-large-v2`) или rule-based: сравнение финального числового ответа с эталоном
Инфраструктура для запуска	Python 3.10+, PyTorch, CUDA (GPU 16GB+), vLLM (опционально для ускорения)
Референсный baseline	Greedy decoding с temperature=0, top-p=1

Если нет реального verifier — симулируем:

Используем часть датасета с известными ответами (train split). Для каждого rollout проверяем, совпадает ли финальный ответ с правильным (постобработка: извлечь число после ## или Answer:).
Для шагов внутри MCTS используем прогнозирование правильности по правилу: ближайший rollout score = 1, если промежуточный шаг ведёт к правильному финалу (имитация через несколько симуляций до конца).

3. Технологический стек

Компонент	Инструменты	Назначение
Модель LLM	HuggingFace Transformers, vLLM	Генерация рассуждений и токенов
MCTS	Python (библиотеки: `mcts`, `tree` или реализация вручную)	Поиск по дереву мыслей
Verifier / Reward model	HuggingFace AutoModelForSequenceClassification / кастомный класс	Оценка качества полного или частичного ответа
Дашборд / логирование	Weights & Biases, TensorBoard	Сравнение метрик разных стратегий
Датасет	HuggingFace datasets	GSM8K, MATH
Окружение	Python 3.10, PyTorch, CUDA	Вычисления

4. Этапы выполнения

Этап 1: Подготовка окружения и baseline (1 час)

Действия

Установить зависимости: pip install transformers torch datasets vllm swig (swig для mcts, если нужно).
Загрузить модель (например, Mistral-7B-Instruct) и токенайзер.
Загрузить датасет GSM8K (100 примеров из test split для оценки).
Реализовать greedy-декодирование: model.generate(... temperature=0.0, max_new_tokens=512).
Постобработка: извлечь финальный ответ (число). Вычислить accuracy на 100 примерах.
Зафиксировать результат как baseline.

Ожидаемый результат этапа Скрипт baseline.py, accuracy на GSM8K (например, 42% для 7B модели). Вывод в STDERR: Greedy accuracy: 0.42.

Этап 2: Реализация MCTS-дерева (3 часа)

Действия

Определить структуру узла: state (текущий частичный рассуждение), parent, children, visits, value.
Написать функции:
- select(node) — выбор узла по UCB1: Q + c * sqrt(log(N_parent) / (1 + n)).
- expand(node) — генерация k вариантов следующего шага (например, top-k из LLM с temperature=0.8).
- simulate(node) — rollout от заданного состояния до конца (greedy).
- backpropagate(node, reward) — обновление Q и visits по пути.
Ограничить количество симуляций (например, 50 на корневой узел).
Интегрировать LLM: при expand вызывать model.generate с несколькими примерами (можно через do_sample=True, num_return_sequences=k).
После завершения MCTS выбрать лучший путь (тот, у которого максимальный Q в корне, или полный путь с наибольшим value на листе).

Этап 3: Интеграция verifier (2 часа)

Действия

Выбрать подход:
- Option A Rule-based verifier: для каждого полного rollout извлечь финальное число и сравнить с правильным (если датасет train split). Использовать это как reward для backpropagation.
- Option B Reward model: загрузить предобученный ревард-модель (например, OpenAssistant/reward-model-deberta-v3-large-v2). Подавать полный текст ответа (с промптом) в модель, получить scalar reward (0-1). Использовать как score в backpropagation.
Если выбрали Option B, написать обёртку: verifier.score(prompt + generation) -> float.
Модифицировать simulate(node): после генерации полного ответа вызвать verifier, получить reward.
Убедиться, что reward попадает в backpropagation правильно.

Этап 4: Оптимизация и тестирование (2 часа)

Действия

Настроить гиперпараметры MCTS:
- c (exploration constant) — попробовать 0.5, 1.0, 2.0.
- num_simulations — 20, 50, 100.
- expand_k (число детей) — 3, 5.
- temperature при generate — 0.6, 0.8, 1.0.
Сравнить accuracy на тестовых 100 примерах: Greedy (baseline), Best-of-5 (простой sampling с выбором через verifier), AlphaSearch (MCTS+verifier).
Построить таблицу/график сравнения.
Замерить среднее время инференса на один пример для каждой стратегии.

Ожидаемый результат этапа Таблица метрик:

Стратегия	Accuracy	Среднее время (с)
Greedy	42%	3
Best-of-5	47%	15
AlphaSearch	50%	45

Этап 5: Анализ и документирование (1 час)

Действия

Задокументировать архитектуру: как соединены LLM, MCTS, verifier.
Написать небольшой отчет: какие примеры улучшились, какие ухудшились, почему.
Зафиксировать лучшие гиперпараметры и конфигурацию.
Выгрузить код в репозиторий (GitHub/GitLab) с README.

Ожидаемый результат этапа Файл REPORT.md с результатами и выводами.

5. Критерии приемки (Definition of Done)

Реализован MCTS с UCB1, expand, simulate, backpropagate.
Verifier интегрирован в simulate (rule-based или reward model).
Альфа-версия запускается на 100 примерах GSM8K.
Accuracy AlphaSearch выше, чем greedy (разница > 5 процентных пунктов).
Получен хотя бы один из двух вариантов verifier (rule-based или модель).
Создана таблица сравнения greedy, best-of-5, AlphaSearch.
Зафиксировано среднее время инференса.
Код оформлен в виде модулей (mcts.py, verifier.py, inference.py) с README.
Воспроизводимость: requirements.txt, скрипт run_experiments.sh или python main.py.

6. Ожидаемый результат

Основной артефакт Репозиторий с папкой alphasearch, содержащей:

mcts.py — реализация дерева MCTS.
verifier.py — класс verifier (rule-based или модель).
inference.py — функция answer = alpha_search(prompt, model, verifier).
run_experiments.py — сравнение стратегий, вывод метрик.
REPORT.md — отчёт с таблицей accuracy и времени.
requirements.txt — зависимости.

Дополнительно График accuracy_vs_time.png (опционально).

7. Возможные сложности и их решение

Сложность	Решение
LLM слишком медленная для множества симуляций	Использовать vLLM для batch inference; уменьшить симуляции до 20; использовать маленькую модель (Phi-2)
Verifier (reward model) несовместим по токенайзеру	Взять rule-based verifier, который можно натренировать на валидации ответа по числу
MCTS зависает в рекурсии / бесконечные rollout	Ограничить глубину rollouts (max_new_tokens=512) и количество симуляций; добавить максимальное количество токенов на узел
UCB1 не сходится	Увеличить exploration constant c; использовать нормализацию reward (z-score)
Разница в форматах вывода модели (например, ответ без спецметок)	Стандартизировать постобработку: извлекать последнее число после символа `=`, `Result:`, или `answer:`. Использовать regex `r'[-+]?\d+\.?\d*'`
GPU Out-of-Memory при использовании нескольких моделей	Использовать одну модель для генерации, verifier загрузить на CPU (если медленно — на GPU с offloading)

8. Бюджет времени (оценка)

Этап	Время
Этап 1: baseline	1 час
Этап 2: MCTS	3 часа
Этап 3: verifier	2 часа
Этап 4: оптимизация и тест	2 часа
Этап 5: документирование	1 час
Итого	9 часов

9. Связанные вопросы из базы знаний

Вопрос	Тема
12	MCTS в AlphaGo/AlphaZero
17	Beam search и лучшие стратегии декодирования
23	Chain-of-Thought prompting
34	Reward models и RLHF
41	Тестово-временное масштабирование (test-time compute)
55	Self-consistency decoding
78	Verifiers и их обучение на reasoning tasks
94	Best-of-N sampling
112	UCB1 и exploration-exploitation
205	Масштабирование inference для математических задач

10. Чек-лист самопроверки

Я разобрался(лась) с архитектурой MCTS: selection, expansion, simulation, backpropagation.
Я выбрал(а) подходящий verifier и настроил(а) его связку с LLM.
Я проверил(а) baseline accuracy и убедился(лась), что AlphaSearch даёт прирост.
Я задокументировал(а) гиперпараметры, чтобы эксперимент можно было воспроизвести.
Я написал(а) простой тест на 1–2 примерах, который показывает корректность выдачи.