Reformer
Reformer
Определение
Эффективная архитектура Transformer, использующая LSH attention (Locality-Sensitive Hashing) для аппроксимации внимания, что позволяет работать с длинными контекстами при меньших вычислительных затратах.
Где встречается
- 299. Как работает attention между слоями (cross-layer attention) в современных архитектурах
- 652. Почему в формуле attention нужно делить на √d_k Что будет без масштабирования