中文翻译暂不可用,显示俄语原文。
BPE
BPE
Определение
BPE (Byte Pair Encoding) — алгоритм субсловной токенизации, который итеративно сливает наиболее частые пары символов или токенов. Используется в моделях GPT, BERT, RoBERTa и Whisper для обработки текста на 90+ языках, но неэффективен для представления чисел.
Где встречается
- 80. Какие 3 книгикурса вы рекомендуете по production LLM
- 181. В чем проблема «natural language bottleneck» для LLM
- 213. Что такое Guided Decoding и как оно связано с JSON schema
- 284. Как работают современные tokenizers (BPE, Unigram, SentencePiece) и их ограничения
- 363. Как работает Whisper (architecture, tokenization, training) для ASR
- 365. Как работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)
- 545. Как работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)
- 619. Как работает LLM fingerprinting (идентификация модели по ответам)
- 627. Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)
- 677. Как работает forward pass LLM от токена до вероятности следующего токена
- 800+ вопросов