WebArena
WebArena
Определение
Бенчмарк для оценки многошаговых действий агентов в симулированной веб-среде. Позволяет измерять способность агентов выполнять сложные сценарии, например, онлайн-шопинг.
Бенчмарк для оценки многошаговых действий агентов в симулированной веб-среде. Позволяет измерять способность агентов выполнять сложные сценарии, например, онлайн-шопинг.