Что такое BLEU? Почему он плохо подходит для суммаризации на русском языке?

Q: 2. Исходное назначение: машинный перевод

**Почему BLEU считался удачным для MT:** - Ориентация на точность (precision) – меньше ложно-положительных совпадений. - Штраф за краткость не даёт «схалтурить» коротким переводом. - Использование n-грамм учитывает как локальную лексику, так и порядок слов. ---

Краткий тезис

BLEU (Bilingual Evaluation Understudy) – автоматическая метрика оценки качества текста, основанная на совпадении n-грамм между гипотезой и эталоном. Изначально создана для машинного перевода, но для оценки суммаризации, особенно на русском языке, даёт ненадёжные результаты из-за множества допустимых вариантов пересказа, чувствительности к порядку слов и флективной морфологии русского языка.

2. Исходное назначение: машинный перевод

Машинный перевод (MT) – основная сфера применения BLEU. Задача MT: породить один «правильный» перевод заданного исходного текста. Эталон (reference) создаётся человеком-переводчиком, и предполагается, что он единственно верный (или один из немногих, но обычно 1–4 эталона). BLEU хорошо коррелирует с человеческой оценкой в рамках shared tasks (WMT), потому что в переводе лексический состав и порядок слов достаточно жёстко заданы семантикой исходного языка.

Почему BLEU считался удачным для MT:

Ориентация на точность (precision) – меньше ложно-положительных совпадений.
Штраф за краткость не даёт «схалтурить» коротким переводом.
Использование n-грамм учитывает как локальную лексику, так и порядок слов.

3. Проблемы для суммаризации: много хороших вариантов, короткие ответы

Суммаризация (извлечение ключевой информации из длинного текста в сжатой форме) принципиально отличается от перевода.

3.1 Множество допустимых эталонов

Один и тот же исходный текст можно пересказать десятками способов, сохраняя смысл. BLEU полагается на ограниченный набор эталонов (обычно 2–3), и хорошая суммаризация может иметь нулевое совпадение по n-граммам с эталоном, при этом быть содержательно верной. Пример:

Исходный текст: «Российская компания Яндекс разработала новую языковую модель YandexGPT на основе архитектуры Transformer». Эталон: «Яндекс создал YandexGPT – свою LLM на трансформерах». Альтернативная правильная суммаризация: «Нейросеть от Яндекса, YandexGPT, построена на архитектуре Transformer» → BLEU может быть очень низким, хотя суть передана.

3.2 Короткие гипотезы и brevity penalty

Суммаризации обычно короткие (1–3 предложения). Даже при хорошей точности небольшое несоответствие длины сильно штрафуется BP, хотя для пересказа допустима любая лаконичная форма. BLEU часто наказывает более сжатые, но информативные варианты.

3.3 Отсутствие оценки смысловой близости

BLEU – это поверхностная n-граммная метрика, не учитывающая синонимию, семантические роли и текстовую связность. Для суммаризации это критично, так как нужно оценивать, сохранена ли ключевая информация (фактологическая точность), а не просто лексическое сходство.

3.4 Низкая корреляция с человеком

Исследования (например, работа Liu & Liu, 2008) показывают, что BLEU плохо коррелирует с оценками человека на задачах суммаризации, особенно при сравнении абстрактивных систем. На современных наборах данных (CNN/DailyMail, XSum) correlation часто оказывается ниже 0.2.

4. Русский язык: флективность, порядок слов

4.1 Флективность

Русский язык использует окончания для выражения грамматических отношений (падеж, число, род, время). Одна и та же основа может иметь множество словоформ. BLEU считает n-граммы буквально, без стемминга или лемматизации. Поэтому даже совершенно правильная перефразировка, где заменён падеж (например, «книгой» вместо «книга»), не совпадёт с эталоном.

Пример:

Эталон: «Автомобиль был продан компанией». Гипотеза: «Компания продала автомобиль».

Монограммы: {автомобиль, был, продан, компанией} vs {компания, продала, автомобиль} → совпадает только «автомобиль» → unigram precision = 1/3 ≈ 0.33.
Bigrams: вообще нет совпадений → 0.

4.2 Свободный порядок слов

В русском языке порядок слов гибок: «Я купил книгу» и «Книгу я купил» – оба варианта грамматически и семантически корректны. BLEU, использующий n-граммы, чувствителен к перестановкам. Для русского языка это приводит к дополнительному занижению метрики, даже если смысл полностью сохранён.

4.3 Отсутствие учёта синонимии

Русский язык богат синонимами и вариантами выражения одной мысли. BLEU не различает «очень большой» и «огромный», хотя для суммаризации это может быть допустимая замена.

4.4 Практические последствия

На практике при оценке русскоязычных суммаризаций с помощью BLEU:

Высокое качество человека может давать BLEU < 10.
Модели, генерирующие дословные извлечения (extractive) из исходного текста, получают преимущество перед абстрактивными, хотя вторые могут быть информативнее.
Межмодельное сравнение становится ненадёжным – разница в BLEU может отражать не качество, а степень лексического сходства с эталоном.

5. Пет-проект для закрепления

Задача: Реализовать BLEU-оценку для русских суммаризаций на датасете Gazeta (или любом другом корпусе суммаризации) и показать его ограничения.

Инструменты:

Python, библиотека nltk (функция corpus_bleu или sentence_bleu),
датасет с эталонными суммаризациями (например, Gazeta.ru от ИСИ СО РАН),
возможность ручной разметки нескольких альтернативных суммаризаций.

Шаги:

Загрузить датасет с парами «текст → эталонная суммаризация».
Написать для одного текста 3–4 собственных альтернативных суммаризации, различающихся лексикой, порядком слов, грамматическими формами, но сохраняющих факты.
Для каждой альтернативы вычислить BLEU-1, BLEU-2, BLEU-3, BLEU-4 и общий BLEU.
Сравнить результаты: показать, что семантически равные варианты имеют сильно различающиеся BLEU, а некоторые короткие правильные суммаризации получают низкий балл из-за brevity penalty.
Провести аналогичный эксперимент, добавив перед подсчётом лемматизацию (pymorphy2) – как изменится BLEU?

Ожидаемый результат:

Таблица с вариантами и их BLEU-метриками.
Вывод: BLEU не чувствителен к синонимии, порядку слов и флексии русского языка, следовательно, непригоден как единственная метрика для оценки суммаризации.
Код на GitHub или в статье с анализом.

Связь с другими вопросами

Вопрос	Тема
909. ROUGE – метрика для суммаризации	ROUGE – альтернативная метрика (recall по n-граммам), разработанная специально для суммаризации.

Краткий тезис

2. Исходное назначение: машинный перевод

Почему BLEU считался удачным для MT:

Ориентация на точность (precision) – меньше ложно-положительных совпадений.
Штраф за краткость не даёт «схалтурить» коротким переводом.
Использование n-грамм учитывает как локальную лексику, так и порядок слов.

3. Проблемы для суммаризации: много хороших вариантов, короткие ответы

3.1 Множество допустимых эталонов

Исходный текст: «Российская компания Яндекс разработала новую языковую модель YandexGPT на основе архитектуры Transformer». Эталон: «Яндекс создал YandexGPT – свою LLM на трансформерах». Альтернативная правильная суммаризация: «Нейросеть от Яндекса, YandexGPT, построена на архитектуре Transformer» → BLEU может быть очень низким, хотя суть передана.

3.2 Короткие гипотезы и brevity penalty

3.3 Отсутствие оценки смысловой близости

3.4 Низкая корреляция с человеком

4. Русский язык: флективность, порядок слов

4.1 Флективность

Пример:

Эталон: «Автомобиль был продан компанией». Гипотеза: «Компания продала автомобиль».

Монограммы: {автомобиль, был, продан, компанией} vs {компания, продала, автомобиль} → совпадает только «автомобиль» → unigram precision = 1/3 ≈ 0.33.
Bigrams: вообще нет совпадений → 0.

4.2 Свободный порядок слов

4.3 Отсутствие учёта синонимии

4.4 Практические последствия

На практике при оценке русскоязычных суммаризаций с помощью BLEU:

Высокое качество человека может давать BLEU < 10.
Модели, генерирующие дословные извлечения (extractive) из исходного текста, получают преимущество перед абстрактивными, хотя вторые могут быть информативнее.
Межмодельное сравнение становится ненадёжным – разница в BLEU может отражать не качество, а степень лексического сходства с эталоном.

5. Пет-проект для закрепления

Инструменты:

Python, библиотека nltk (функция corpus_bleu или sentence_bleu),
датасет с эталонными суммаризациями (например, Gazeta.ru от ИСИ СО РАН),
возможность ручной разметки нескольких альтернативных суммаризаций.

Шаги:

Загрузить датасет с парами «текст → эталонная суммаризация».
Написать для одного текста 3–4 собственных альтернативных суммаризации, различающихся лексикой, порядком слов, грамматическими формами, но сохраняющих факты.
Для каждой альтернативы вычислить BLEU-1, BLEU-2, BLEU-3, BLEU-4 и общий BLEU.
Сравнить результаты: показать, что семантически равные варианты имеют сильно различающиеся BLEU, а некоторые короткие правильные суммаризации получают низкий балл из-за brevity penalty.
Провести аналогичный эксперимент, добавив перед подсчётом лемматизацию (pymorphy2) – как изменится BLEU?

Ожидаемый результат:

Таблица с вариантами и их BLEU-метриками.
Вывод: BLEU не чувствителен к синонимии, порядку слов и флексии русского языка, следовательно, непригоден как единственная метрика для оценки суммаризации.
Код на GitHub или в статье с анализом.

Связь с другими вопросами

Вопрос	Тема
909. ROUGE – метрика для суммаризации	ROUGE – альтернативная метрика (recall по n-граммам), разработанная специально для суммаризации.

Что такое BLEU? Почему он плохо подходит для суммаризации на русском языке?

Краткий тезис

2. Исходное назначение: машинный перевод

3. Проблемы для суммаризации: много хороших вариантов, короткие ответы

3.1 Множество допустимых эталонов

3.2 Короткие гипотезы и brevity penalty

3.3 Отсутствие оценки смысловой близости

3.4 Низкая корреляция с человеком

4. Русский язык: флективность, порядок слов

4.1 Флективность

4.2 Свободный порядок слов

4.3 Отсутствие учёта синонимии

4.4 Практические последствия

5. Пет-проект для закрепления

Связь с другими вопросами

Навигация

Что такое BLEU? Почему он плохо подходит для суммаризации на русском языке?

Краткий тезис

2. Исходное назначение: машинный перевод

3. Проблемы для суммаризации: много хороших вариантов, короткие ответы

3.1 Множество допустимых эталонов

3.2 Короткие гипотезы и brevity penalty

3.3 Отсутствие оценки смысловой близости

3.4 Низкая корреляция с человеком

4. Русский язык: флективность, порядок слов

4.1 Флективность

4.2 Свободный порядок слов

4.3 Отсутствие учёта синонимии

4.4 Практические последствия

5. Пет-проект для закрепления

Связь с другими вопросами

Навигация