SentencePiece
SentencePiece
Определение
Библиотека токенизации от Google, работающая напрямую с сырыми байтами без предварительной токенизации. Реализует алгоритмы Unigram и BPE, используется в таких моделях, как T5, Llama и Gemma.
Где встречается
- 80. Какие 3 книгикурса вы рекомендуете по production LLM
- 284. Как работают современные tokenizers (BPE, Unigram, SentencePiece) и их ограничения
- 475. Почему tokenizer влияет на стоимость training
- 619. Как работает LLM fingerprinting (идентификация модели по ответам)
- 677. Как работает forward pass LLM от токена до вероятности следующего токена
- 800+ вопросов