tokenizer
tokenizer
Определение
Компонент, преобразующий текст в последовательность токенов (субсловных единиц) для обработки LLM. Влияет на количество токенов, FLOPs и стоимость обучения. Современные алгоритмы: BPE, Unigram, SentencePiece.
Где встречается
- 32. Как вы подготовите датасет для fine-tuning, если у вас только неструктурированные диалоги с клиентами
- 80. Какие 3 книгикурса вы рекомендуете по production LLM
- 284. Как работают современные tokenizers (BPE, Unigram, SentencePiece) и их ограничения
- 475. Почему tokenizer влияет на стоимость training
- 619. Как работает LLM fingerprinting (идентификация модели по ответам)
- 677. Как работает forward pass LLM от токена до вероятности следующего токена
- 693. Как вы обнаруживаете contamination (пересечение synthetic данных с тестовыми)
- 800+ вопросов
- 51. Развернуть Mamba-2 локально
- 52. Настроить RWKV для инференса
- 59. Сравнить архитектуры на reasoning задачах
- 62. Настроить MCTS для математических задач
- 67. Реализовать latent reasoning (∇-Reasoner)
- 71. Рассчитать cost per 1M tokens для разных моделей
- 133. Реализовать cost-aware routing
- 174. Настроить prompt caching
- 206. Развернуть vLLM vs TGI, сравнить throughput
- 209. Настроить AWQ quantization для LLM
- 212. Настроить chunked prefill для long context
- 223. Fine-tune LoRA для стиля
- 227. RAG с гибридным поиском
- 244. Fine-tune QLoRA на 1 GPU