декодирующая голова

Определение

Выходной линейный слой LLM, который преобразует скрытое состояние в вероятности для каждого токена словаря. Используется для предсказания следующего токена.

Где встречается

290. Что такое Chain-of-Thought без токенов (latent CoT) и как это реализовано
675. Как работает dropout и зачем он нужен в LLM (regularization)
677. Как работает forward pass LLM от токена до вероятности следующего токена

декодирующая голова

декодирующая голова

Определение

Где встречается

Навигация