декодирующая голова
декодирующая голова
Определение
Выходной линейный слой LLM, который преобразует скрытое состояние в вероятности для каждого токена словаря. Используется для предсказания следующего токена.
Где встречается
- 290. Что такое Chain-of-Thought без токенов (latent CoT) и как это реализовано
- 675. Как работает dropout и зачем он нужен в LLM (regularization)
- 677. Как работает forward pass LLM от токена до вероятности следующего токена