Что такое Wave Decoding и чем отличается от стандартного авторегрессивного?

Q: 2.1 Пошаговый процесс

1. На вход подаётся [[Вики/промпт агента\|промпт]] (например, «Кошка сидит на»). 2. [[Вики/model\|Модель]] вычисляет [[Вики/probabilities\|вероятности]] для следующего токена: `P([[Вики/token usage\|токен]] | "Кошка сидит на")`. 3. Выбирается [[Вики/token usage\|токен]] (жадно или сэмплированием), например «ковре».

Q: 2.2 Проблема: последовательное узкое место

- Каждый шаг требует полного [[Вики/backward pass\|forward pass]] модели. - [[Вики/context window\|Длина последовательности]] L → L [[Вики/backward pass\|forward pass]]’ов. - Невозможно распараллелить, так как каждый шаг зависит от предыдущего. - Для длинных текстов (например, 1024 токена) [[Вики/TTFT\|latency]] линейно растёт.

Q: 2.3 Beam search как попытка улучшить качество

- **[[Вики/beam search\|Beam search]]** хранит K гипотез (лучей) и на каждом шаге расширяет каждую гипотезу на один [[Вики/token\|токен]], затем отсекает худшие. - Но [[Вики/Expansion\|расширение]] всё равно последовательное: шаг за шагом. - [[Вики/Wave Decoding\|Wave Decoding]] радикально меняет эту логику.

Q: 3.1 Основная идея

- [[Вики/model\|Модель]] генерирует сразу несколько токенов для каждой позиции, используя независимые предсказания (или слабо зависимые). - Гипотезы формируются как комбинации токенов на разных позициях, и лучшая комбинация выбирается с помощью глобального скоринга (например, по сумме логарифмов вероятностей).

Q: 3.2 Как это работает (упрощённо)

1. Инициализация: задаётся [[Вики/prompt\|промпт]] и желаемая длина генерации N. 2. Параллельное предсказание: [[Вики/model\|модель]] получает [[Вики/prompt\|промпт]] и предсказывает распределения для всех N позиций сразу (например, с помощью специальной архитектуры или маскирования).

Q: 3.3 Отличие от beam search

| Параметр | Beam search | Wave Decoding | |----------|-------------|---------------| | Расширение | Последовательное (шаг за шагом) | Параллельное (сразу несколько позиций) | | Зависимость | Полная (каждый шаг зависит от предыдущих) | Ослабленная (токены могут предсказываться независимо) |

Краткий тезис

Wave Decoding — это неавторегрессивный метод генерации текста, при котором модель одновременно предсказывает несколько токенов в разных «ветках» (параллельных гипотезах), отказываясь от последовательного расширения одного луча. В отличие от стандартного авторегрессивного декодирования, где каждый следующий токен зависит от всех предыдущих и генерируется по одному, Decoding|Wave Decoding жертвует небольшим качеством (1–2% падения метрик) ради значительного ускорения (в 2–3 раза) за счёт параллелизма. Метод особенно полезен в real-time сценариях (кибернетика, голосовые ассистенты, UI-генерация), где скорость важнее идеальной точности.

1. Термины: авторегрессивное декодирование и Wave Decoding

Авторегрессивное декодирование (autoregressive decoding) — стандартный способ генерации текста в LLM: на каждом шаге модель получает на вход всю предыдущую последовательность (включая только что сгенерированный токен) и предсказывает следующий токен. Процесс строго последовательный: шаг 1 → шаг 2 → … → шаг N. Это даёт высокое качество, но медленно на длинных последовательностях.

Wave Decoding (Decoding|волновое декодирование) — неавторегрессивный метод, вдохновлённый beam search, но без последовательного расширения одного луча. Вместо этого модель одновременно генерирует несколько токенов в разных «ветвях» (гипотезах), а затем выбирает лучшую комбинацию на основе скоринга. Термин «wave» (волна) отражает идею, что множество гипотез распространяется параллельно, как волна.

2. Стандартное авторегрессивное декодирование: как работает и в чём проблема

2.1 Пошаговый процесс

На вход подаётся промпт (например, «Кошка сидит на»).
Модель вычисляет вероятности для следующего токена: P(токен | "Кошка сидит на").
Выбирается токен (жадно или сэмплированием), например «ковре».
Новая последовательность: «Кошка сидит на ковре» → снова подаётся на вход.
Повторяется до токена конца (EOS) или максимальной длины.

2.2 Проблема: последовательное узкое место

Каждый шаг требует полного forward pass модели.
Длина последовательности L → L forward pass’ов.
Невозможно распараллелить, так как каждый шаг зависит от предыдущего.
Для длинных текстов (например, 1024 токена) latency линейно растёт.

2.3 Beam search как попытка улучшить качество

Beam search хранит K гипотез (лучей) и на каждом шаге расширяет каждую гипотезу на один токен, затем отсекает худшие.
Но расширение всё равно последовательное: шаг за шагом.
Wave Decoding радикально меняет эту логику.

3. Wave Decoding: концепция и механизм

3.1 Основная идея

Wave Decoding отказывается от последовательного расширения одного луча. Вместо этого:

Модель генерирует сразу несколько токенов для каждой позиции, используя независимые предсказания (или слабо зависимые).
Гипотезы формируются как комбинации токенов на разных позициях, и лучшая комбинация выбирается с помощью глобального скоринга (например, по сумме логарифмов вероятностей).
Таким образом, весь текст генерируется за один или несколько «волновых» проходов, а не за L шагов.

3.2 Как это работает (упрощённо)

Инициализация: задаётся промпт и желаемая длина генерации N.
Параллельное предсказание: модель получает промпт и предсказывает распределения для всех N позиций сразу (например, с помощью специальной архитектуры или маскирования).
Формирование гипотез: из каждого распределения выбирается K токенов (top-K). Получается K^N комбинаций — слишком много. Для сокращения используется динамическое программирование или жадный отбор по волнам.
Скоринг и выбор: каждая полная гипотеза (последовательность длины N) оценивается, выбирается лучшая.
Уточнение (опционально): можно сделать несколько итераций (волн), на каждой уточняя предсказания на основе уже выбранных токенов.

3.3 Отличие от beam search

Параметр	Beam search	Wave Decoding
Расширение	Последовательное (шаг за шагом)	Параллельное (сразу несколько позиций)
Зависимость	Полная (каждый шаг зависит от предыдущих)	Ослабленная (токены могут предсказываться независимо)
Количество forward pass’ов	L (длина)	1–3 (число волн)
Качество	Высокое (точное условие)	Чуть ниже (1–2%)
Скорость	Медленная	В 2–3 раза быстрее

4. Преимущества и недостатки Wave Decoding

4.1 Преимущества

Ускорение генерации: за счёт параллелизма latency снижается в 2–3 раза (на длинных текстах ещё больше).
Подходит для real-time: голосовые ассистенты, автодополнение кода, UI-генерация.
Меньше потребление энергии: меньше последовательных вычислений.
Гибкость: можно комбинировать с другими методами ускорения (speculative decoding, KV-cache).

4.2 Недостатки

Потеря качества: на 1–2% по метрикам (BLEU, ROUGE, perplexity) из-за ослабленных зависимостей.
Сложность реализации: требуется модификация архитектуры (например, non-autoregressive head) или специальный тренинг.
Ограничение длины: эффективен для фиксированной или предсказуемой длины; для переменной длины нужны дополнительные механизмы (например, early stopping).
Не подходит для задач, где важна точность каждого токена (например, математические рассуждения, генерация кода с синтаксической строгостью).

5. Когда использовать Wave Decoding

Real-time приложения: чат-боты с низкой задержкой, голосовые ассистенты, генерация UI-элементов.
Задачи с избыточностью: суммаризация, перефразирование, где небольшие отклонения допустимы.
Сценарии с ограниченными ресурсами: мобильные устройства, edge-вычисления.
Кибернетика и робототехника: генерация команд управления в реальном времени.

Не рекомендуется для:

Точного перевода, юридических/медицинских текстов.
Задач, где каждый токен критичен (генерация SQL, формул).

6. Математическая/алгоритмическая основа (псевдокод)

Пусть модель M умеет предсказывать распределения для всех позиций сразу (например, через masked language modeling или non-autoregressive transformer).

def wave_decode(prompt, length, K, waves):
    # Инициализация: пустая последовательность длины length
    seq = [MASK] * length
    # Волновые итерации
    for w in range(waves):
        # Параллельный forward pass: получаем распределения для всех позиций
        logits = M(prompt + seq)  # shape: (length, vocab_size)
        # Для каждой позиции выбираем top-K токенов
        candidates = top_k(logits, K)  # list of lists
        # Формируем гипотезы: комбинируем токены (например, жадно)
        best_seq = None
        best_score = -inf
        for pos in range(length):
            for token in candidates[pos]:
                # Оцениваем гипотезу с заменой токена на позиции pos
                new_seq = seq.copy()
                new_seq[pos] = token
                score = score_sequence(prompt + new_seq)  # например, сумма log P
                if score > best_score:
                    best_score = score
                    best_seq = new_seq
        seq = best_seq
    return seq

На практике используют более эффективные алгоритмы (динамическое программирование, CKY или wave beam search), чтобы не перебирать K^L комбинаций.

7. Пример реализации на Python (упрощённый)

import numpy as np

def wave_decode(model, prompt_ids, length, K=5, waves=2):
    # prompt_ids: list[int]
    # model: функция, принимающая список токенов и возвращающая logits для каждой позиции
    seq = [model.vocab.mask_id] * length
    for _ in range(waves):
        input_ids = prompt_ids + seq
        logits = model(input_ids)  # (batch=1, total_len, vocab)
        # Берём logits только для позиций seq (после промпта)
        logits_seq = logits[0, len(prompt_ids):, :]  # (length, vocab)
        # Top-K для каждой позиции
        top_k_indices = np.argsort(-logits_seq, axis=1)[:, :K]  # (length, K)
        # Жадный выбор: для каждой позиции берём токен с макс. вероятностью
        best_tokens = top_k_indices[:, 0]  # (length,)
        # Уточняем: пробуем заменить каждый токен на другой из top-K, если улучшает скор
        for pos in range(length):
            current_token = seq[pos]
            best_token = current_token
            best_score = score_sequence(model, prompt_ids + seq)
            for token in top_k_indices[pos]:
                if token == current_token:
                    continue
                new_seq = seq.copy()
                new_seq[pos] = token
                score = score_sequence(model, prompt_ids + new_seq)
                if score > best_score:
                    best_score = score
                    best_token = token
            seq[pos] = best_token
    return seq

def score_sequence(model, ids):
    logits = model(ids)  # (1, len, vocab)
    # Сумма логарифмов вероятностей выбранных токенов
    probs = np.take_along_axis(logits[0], np.array(ids)[None, :, None], axis=2).squeeze()
    return np.sum(probs)

Этот код иллюстрирует принцип, но для продакшена нужны оптимизации (batched scoring, pruning).

8. Связь с другими техниками ускорения

Метод	Суть	Отличие от Wave Decoding
Speculative Decoding	Маленькая модель генерирует черновик, большая проверяет	Wave Decoding не требует двух моделей; генерирует сразу несколько токенов параллельно
Parallel Decoding (Medusa)	Добавляет несколько головок для предсказания следующих токенов	Wave Decoding может работать без дополнительных головок, используя итеративное уточнение
Non-autoregressive generation (NAT)	Генерирует все токены за один проход	Wave Decoding — частный случай NAT с несколькими волнами для улучшения качества
Blockwise parallel decoding	Генерирует блок токенов за раз	Wave Decoding более гибок: может начинать с любой позиции и уточнять

9. Пет-проект для закрепления

Задача: Реализовать упрощённую версию Wave Decoding для небольшой модели (например, GPT-2) и сравнить скорость и качество с авторегрессивным декодированием.

Инструменты: Python, PyTorch, transformers (GPT-2), numpy, time.

Шаги:

Загрузите предобученную GPT-2 (distilgpt2 для скорости).
Реализуйте функцию autoregressive_generate(prompt, max_length) — стандартный жадный поиск.
Реализуйте wave_generate(prompt, max_length, K, waves):
- Используйте model.generate с do_sample=False для получения top-K логов.
- Напишите цикл уточнения, как в псевдокоде выше.
- Для скоринга используйте сумму логарифмов вероятностей (можно получить из outputs.logits).
Замерьте время генерации для 10 разных промптов (длина 50–100 токенов).
Оцените качество: посчитайте perplexity сгенерированных текстов (или BLEU при наличии референса).
Постройте график: latency vs качество для разных K и waves.

Ожидаемый результат: Вы увидите, что Wave Decoding даёт ускорение в 1.5–2 раза при незначительном росте perplexity (1–3%). Для K=3, waves=2 качество почти не уступает авторегрессии, а скорость выше.

10. Связь с другими вопросами

Вопрос	Тема
448	Что такое авторегрессивное декодирование?
449	Что такое beam search и как он работает?
451	Что такое speculative decoding и как он ускоряет генерацию?
452	Какие методы параллельной генерации токенов существуют?
453	Как работает Medusa (multiple heads) для ускорения?
454	В чём разница между autoregressive и non-autoregressive generation?

11. Навигация

Предыдущий: 449
Следующий: 451
Индекс: 00. Индекс разборов