中文翻译暂不可用,显示俄语原文。
Thompson sampling
Thompson sampling
Определение
Байесовский метод multi-armed bandit, выбирающий действие пропорционально вероятности быть оптимальным; используется для баланса exploration/exploitation.
Где встречается
- 382. Как вы проектируете canary deployment для LLM модели
- 723. Как моделировать экономику агентов с ограниченными бюджетами на API вызовы
- 803. Как делать canary deployment для промптов (5% трафика)