Weight tying
Weight tying
Определение
Приём, при котором матрица эмбеддингов и LM head (unembedding) разделяют одни и те же веса. Часто используется в моделях типа GPT-2 для уменьшения числа параметров.
Где встречается
- 674. Что такое logit lens (интерпретация скрытых состояний)
- 677. Как работает forward pass LLM от токена до вероятности следующего токена