English translation is not available yet. Showing Russian content.

Attention pruning

Attention pruning

Определение

Техника удаления неважных токенов из механизма внимания или KV cache для снижения вычислительной нагрузки и потребления памяти, особенно в длинных контекстах.

Где встречается

Навигация