Что такое LiveIdeaBench и для чего он нужен?

Краткий тезис

LiveIdeaBench — это бенчмарк для оценки дивергентного мышления (способности генерировать разнообразные, нестандартные идеи) у больших языковых моделей (LLM). Он измеряет креативность по пяти ключевым измерениям: оригинальность, выполнимость, беглость, гибкость и ясность. Главный вывод бенчмарка — творческие способности LLM слабо коррелируют с их общей «интеллектуальностью» (intelligence), что подчёркивает необходимость отдельной оценки креативности в агентных системах.


1. Термин: Дивергентное мышление (Divergent Thinking)

Дивергентное мышление — это когнитивный процесс, направленный на генерацию множества различных идей, решений или гипотез на основе одного стимула. В отличие от конвергентного мышления (поиск единственного правильного ответа), дивергентное мышление ценит количество, разнообразие и нестандартность.

В контексте LLM дивергентное мышление проявляется как способность модели:

  • предлагать разные варианты ответов на один и тот же запрос;
  • выходить за рамки шаблонных решений;
  • комбинировать знания из разных областей.

Пример: На запрос «Придумай способы использования кирпича» модель с высоким дивергентным мышлением предложит не только «построить стену», но и «использовать как пресс для бумаги», «создать скульптуру», «нагреть и использовать как утюг» и т.д.


2. Зачем оценивать креативность LLM?

Традиционные бенчмарки (MMLU, GSM8K, HumanEval) измеряют intelligence — способность решать задачи, требующие знаний, логики и кода. Однако для многих приложений, особенно в Agentic RAG, важна креативность:

  • Генерация гипотез при анализе данных.
  • Составление планов действий в нестандартных ситуациях.
  • Создание контента (маркетинг, дизайн, сценарии).
  • Поиск неочевидных связей между документами.

Без оценки креативности мы рискуем получить «умную», но шаблонную модель, которая не справится с задачами, требующими творческого подхода.


3. Что такое LiveIdeaBench?

LiveIdeaBench — это бенчмарк, разработанный для количественной оценки дивергентного мышления LLM. Он основан на классических психологических тестах креативности (например, Torrance Tests of Creative Thinking), но адаптирован для автоматической оценки с помощью LLM-асессора.

Структура бенчмарка

  • Модели даётся ключевое слово (например, «книга», «облако», «робот»).
  • Задача: сгенерировать как можно больше разнообразных идей, связанных с этим словом.
  • Ответы оцениваются по пяти измерениям (см. раздел 4).

Пример задания «Назови как можно больше необычных способов использования обычного стула».


4. Пять измерений оценки

ИзмерениеОписаниеПример (для слова «стул»)
Оригинальность (Originality)Насколько идея редкая и нестандартная по сравнению с ответами других моделей или людей.«Использовать как каркас для теплицы» — высокая оригинальность.
Выполнимость (Feasibility)Насколько идею можно реализовать на практике с учётом физических и логических ограничений.«Сделать из стула лодку» — низкая выполнимость.
Беглость (Fluency)Количество сгенерированных идей (чем больше, тем выше беглость).15 идей против 5.
Гибкость (Flexibility)Разнообразие категорий, к которым относятся идеи (например, бытовое использование, искусство, спорт).Идеи из 4 разных категорий — выше гибкость.
Ясность (Clarity)Чёткость и однозначность формулировки идеи.«Поставить на стул книги» — ясно; «как-то применить в интерьере» — неясно.

Каждое измерение оценивается по шкале (например, от 1 до 5), и итоговый креативный балл может быть суммой или средним.


5. Методология бенчмарка

  1. Сбор данных Набор ключевых слов (стимулов) из разных доменов (быт, наука, искусство, технологии).
  2. Генерация ответов LLM получает инструкцию и стимул, генерирует список идей.
  3. Оценка Другая LLM (или человек) оценивает каждую идею по пяти измерениям. Для автоматизации часто используется LLM-as-a-judge (например, GPT-4).
  4. Агрегация Для каждого стимула вычисляются средние баллы, затем усредняются по всем стимулам.

Важно Чтобы избежать «заучивания» бенчмарка, стимулы и инструкции могут меняться между запусками.


6. Результаты и выводы

LiveIdeaBench показал несколько ключевых результатов:

  • Слабая корреляция с intelligence Модели с высокими баллами на MMLU или GSM8K не обязательно получают высокие баллы по креативности. Например, GPT-4 может превосходить Claude по логике, но уступать по оригинальности.
  • Разброс между измерениями Некоторые модели показывают высокую беглость (много идей), но низкую оригинальность (все идеи шаблонны). Другие — наоборот.
  • Влияние температуры Повышение температуры генерации увеличивает оригинальность, но снижает выполнимость и ясность.
  • Зависимость от стимула Креативность модели может сильно варьироваться в зависимости от темы (например, технические стимулы vs. художественные).

Вывод Креативность — отдельное качество, которое нужно измерять и оптимизировать независимо от общей intelligence.


7. Ограничения LiveIdeaBench

  • Субъективность оценки Даже с LLM-as-a-judge оценка оригинальности и выполнимости остаётся субъективной. Разные асессоры могут давать разные баллы.
  • Культурная предвзятость Стимулы и критерии могут отражать западные представления о креативности.
  • Не учитывает контекст Одна и та же идея может быть креативной в одном контексте и банальной в другом.
  • Фокус на дивергентное мышление Бенчмарк не оценивает конвергентное мышление (выбор лучшей идеи) или креативное решение проблем в несколько шагов.

8. Связь с Agentic RAG

В Agentic RAG агенты часто должны:

  • Планировать последовательность действий (требует гибкости).
  • Генерировать гипотезы на основе найденных документов (оригинальность).
  • Адаптироваться к неожиданным результатам поиска (беглость и гибкость).

LiveIdeaBench позволяет оценить, насколько LLM-ядро агента способно к творческому мышлению, что критично для задач, где нет единственно правильного решения. Например, агент, который ищет лекарство от редкой болезни, должен предложить несколько нетривиальных путей, а не только очевидные.


9. Альтернативные бенчмарки креативности

БенчмаркФокусМетод оценки
Torrance Tests (TTCT)Дивергентное мышление у людейРучная оценка по 4-5 измерениям
Creative Writing (AlpacaEval)Литературное творчествоПредпочтения человека
DIV-1 / DIV-2 (BIG-bench)Генерация идейАвтоматическая оценка разнообразия
StoryBenchСюжетная креативностьLLM-as-a-judge

LiveIdeaBench отличается тем, что специально заточен под LLM и использует современные методы автоматической оценки.


10. Практическое применение: как улучшить креативность LLM

На основе результатов LiveIdeaBench можно:

  • Тюнить модель на данных с высокими баллами по оригинальности и гибкости.
  • Использовать специальные промпты (например, «придумай 10 нестандартных идей, включая абсурдные»).
  • Комбинировать модели одна генерирует идеи (высокая беглость), другая отбирает лучшие (конвергентное мышление).
  • Добавлять внешние источники (RAG) для подсказок, стимулирующих креативность.

Пет-проект для закрепления

Задача Реализовать упрощённую версию LiveIdeaBench для оценки креативности двух LLM (например, GPT-4 и Llama 3).

Инструменты

  • Python (библиотеки: openai, transformers, pandas).
  • LLM для генерации идей и оценки (можно использовать одну и ту же модель для обоих этапов, но лучше разные).
  • Набор из 5-10 ключевых слов (например, «бумага», «огонь», «интернет», «колесо», «зеркало»).

Шаги:

  1. Написать функцию generate_ideas(model, keyword, n=10), которая возвращает список идей.
  2. Написать функцию evaluate_ideas(ideas, keyword), которая для каждой идеи ставит баллы (1-5) по оригинальности, выполнимости, беглости (количество), гибкости (число категорий), ясности.
  3. Для оценки использовать LLM-as-a-judge с промптом, описывающим критерии.
  4. Запустить для двух моделей, собрать результаты в DataFrame.
  5. Построить графики (радарные диаграммы) для каждой модели по пяти измерениям.

Ожидаемый результат Вы увидите, что одна модель может быть более «беглой» (много идей), но менее оригинальной, а другая — наоборот. Это наглядно демонстрирует, почему креативность нужно измерять многомерно.


Связь с другими вопросами

ВопросТема
170Что такое Agentic RAG и чем отличается от обычного RAG?
171Как агент планирует последовательность действий?
173Как оценивать качество работы AI-агента?
174Какие инструменты (tools) могут использовать агенты?
175Как устроена память агента (short-term / long-term)?

Навигация