要約
言語エージェントのゼロショットまたは数ショットの意思決定の恐るべき能力は、私たちに切実な疑問を投げかけます。言語エージェントは、従来の逐次的意思決定タスクにおける PPO エージェントの代替となり得るでしょうか?
これを調査するために、まず OpenAI Gym に収集された環境をテストベッドとして取得し、TextGym シミュレーターを構築するテキスト環境にそれらを統合します。
これにより、OpenAI Gym が広く採用されているため、PPO エージェントと言語エージェントを簡単かつ効率的に比較できます。
公平で効果的なベンチマークを保証するために、正確なドメイン知識制御のための $5$ レベルのシナリオと、言語エージェント向けの統合 RL にインスピレーションを受けたフレームワークを導入します。
さらに、TextGym 内のタスクを解決するための革新的なエクスプロイト ガイド付き言語 (EXE) エージェントを提案します。
数値実験とアブレーション研究を通じて、言語エージェントの意思決定能力に関する貴重な洞察を抽出し、古典的な逐次的意思決定問題における PPO の代替となる言語エージェントの可能性について予備評価を行います。
この論文は、言語エージェントのパフォーマンスに光を当て、この刺激的な分野における将来の研究への道を開きます。
私たちのコードは~\url{https://github.com/mail-ecnu/Text-Gym-Agents}で公開されています。
要約(オリジナル)
The formidable capacity for zero- or few-shot decision-making in language agents encourages us to pose a compelling question: Can language agents be alternatives to PPO agents in traditional sequential decision-making tasks? To investigate this, we first take environments collected in OpenAI Gym as our testbeds and ground them to textual environments that construct the TextGym simulator. This allows for straightforward and efficient comparisons between PPO agents and language agents, given the widespread adoption of OpenAI Gym. To ensure a fair and effective benchmarking, we introduce $5$ levels of scenario for accurate domain-knowledge controlling and a unified RL-inspired framework for language agents. Additionally, we propose an innovative explore-exploit-guided language (EXE) agent to solve tasks within TextGym. Through numerical experiments and ablation studies, we extract valuable insights into the decision-making capabilities of language agents and make a preliminary evaluation of their potential to be alternatives to PPO in classical sequential decision-making problems. This paper sheds light on the performance of language agents and paves the way for future research in this exciting domain. Our code is publicly available at~\url{https://github.com/mail-ecnu/Text-Gym-Agents}.
arxiv情報
著者 | Junjie Sheng,Zixiao Huang,Chuyun Shen,Wenhao Li,Yun Hua,Bo Jin,Hongyuan Zha,Xiangfeng Wang |
発行日 | 2023-12-06 04:48:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google