Chain-of-Thought критика

Определение

Метод, при котором LLM пишет объяснение, почему один ответ лучше другого, а затем использует это для генерации пар предпочтений. Применяется в синтетических данных для RLHF.

Где встречается

686. Как работает synthetic data для RLHF (предпочтения)

Chain-of-Thought критика

Chain-of-Thought критика

Определение

Где встречается

Навигация