要約
大規模言語モデル (LLM) は、ライブ コンピューター環境 (例: MiniWoB++) で高レベルの目標を計画および実行する際の能力が向上していることが示されています。
タスクを実行するために、最近の研究では、多くの場合、モデルが教師あり学習または少数/多ショット プロンプトのいずれかを介してタスクのトレース例から学習する必要があります。
これらのトレース例がなければ、エージェントがコンピュータ上での制御を自律的に学習して改善する方法は依然として課題であり、新しいタスクを実行するエージェントの能力が制限されます。
私たちは、特定の専門家によるトレースを必要としないゼロショット エージェントを使用して、この問題に取り組みます。
私たちのエージェントは、部分的に観察された環境上で実行可能なアクションを計画し、内省と構造化された思考管理を通じて間違いを特定しそこから学ぶことでタスクを反復的に進めます。
MiniWoB++ の簡単なタスクでは、ゼロショット エージェントが、より効率的な推論により、最近の SoTA よりも優れたパフォーマンスを発揮することが多いことを示します。
以前の作品には専門家のトレースや追加の画面情報にアクセスできるという利点があったにもかかわらず、より複雑なタスクの場合、当社の反射エージェントは以前の最高のモデルと同等のパフォーマンスを発揮します。
要約(オリジナル)
Large language models (LLMs) have shown increasing capacity at planning and executing a high-level goal in a live computer environment (e.g. MiniWoB++). To perform a task, recent works often require a model to learn from trace examples of the task via either supervised learning or few/many-shot prompting. Without these trace examples, it remains a challenge how an agent can autonomously learn and improve its control on a computer, which limits the ability of an agent to perform a new task. We approach this problem with a zero-shot agent that requires no given expert traces. Our agent plans for executable actions on a partially observed environment, and iteratively progresses a task by identifying and learning from its mistakes via self-reflection and structured thought management. On the easy tasks of MiniWoB++, we show that our zero-shot agent often outperforms recent SoTAs, with more efficient reasoning. For tasks with more complexity, our reflective agent performs on par with prior best models, even though previous works had the advantages of accessing expert traces or additional screen information.
arxiv情報
著者 | Tao Li,Gang Li,Zhiwei Deng,Bryan Wang,Yang Li |
発行日 | 2023-10-23 17:39:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google