tokenizer

Определение

Компонент, преобразующий текст в последовательность токенов (субсловных единиц) для обработки LLM. Влияет на количество токенов, FLOPs и стоимость обучения. Современные алгоритмы: BPE, Unigram, SentencePiece.

Где встречается

32. Как вы подготовите датасет для fine-tuning, если у вас только неструктурированные диалоги с клиентами
80. Какие 3 книгикурса вы рекомендуете по production LLM
284. Как работают современные tokenizers (BPE, Unigram, SentencePiece) и их ограничения
475. Почему tokenizer влияет на стоимость training
619. Как работает LLM fingerprinting (идентификация модели по ответам)
677. Как работает forward pass LLM от токена до вероятности следующего токена
693. Как вы обнаруживаете contamination (пересечение synthetic данных с тестовыми)
800+ вопросов
51. Развернуть Mamba-2 локально
52. Настроить RWKV для инференса
59. Сравнить архитектуры на reasoning задачах
62. Настроить MCTS для математических задач
67. Реализовать latent reasoning (∇-Reasoner)
71. Рассчитать cost per 1M tokens для разных моделей
133. Реализовать cost-aware routing
174. Настроить prompt caching
206. Развернуть vLLM vs TGI, сравнить throughput
209. Настроить AWQ quantization для LLM
212. Настроить chunked prefill для long context
223. Fine-tune LoRA для стиля
227. RAG с гибридным поиском
244. Fine-tune QLoRA на 1 GPU

tokenizer

tokenizer

Определение

Где встречается

Навигация