Embedding diversity
Embedding diversity
Определение
Метрика разнообразия датасета, основанная на кластеризации эмбеддингов. Обычно вычисляется как среднее попарное косинусное расстояние между эмбеддингами ответов; его уменьшение сигнализирует о коллапсе разнообразия.
Где встречается
- 688. Что такое synthetic data collapse (когда синтетические данные деградируют со временем)
- 800+ вопросов