要約
コンピューター上で一般的なタスクを実行できるエージェントは、反復的なタスクを自動化し、複雑な問題解決を支援することで、効率と生産性を向上させることができます。
理想的には、このようなエージェントは、自然言語コマンドを通じて提示された新しいコンピューター タスクを解決できる必要があります。
しかし、この問題に対するこれまでのアプローチでは、大量の専門家によるデモンストレーションとタスク固有の報酬関数が必要であり、どちらも新しいタスクには現実的ではありません。
この研究では、事前トレーニングされた大規模言語モデル (LLM) エージェントが、エージェントが出力を再帰的に批判して改善する (RCI) という単純なプロンプト スキームを使用して、自然言語によってガイドされるコンピューター タスクを実行できることを示します。
RCI アプローチは、コンピュータ タスクを自動化する既存の LLM 手法を大幅に上回り、MiniWoB++ ベンチマークで教師あり学習 (SL) および強化学習 (RL) アプローチを上回ります。
複数の LLM を比較したところ、InstructGPT-3+RLHF LLM を使用した RCI は MiniWoB++ 上で最先端であり、タスクごとに数万ではなく少数のデモンストレーションのみを使用し、タスク固有の報酬関数を使用していないことがわかりました。
さらに、一連の自然言語推論タスクにおける LLM の推論能力を強化する RCI プロンプトの有効性が、外部フィードバックによる思考連鎖 (CoT) プロンプトを上回っていることを実証します。
RCI と CoT を組み合わせた方が、それぞれを単独で使用するよりも優れたパフォーマンスを発揮することがわかりました。
私たちのコードは、https://github.com/posgnu/rci-agent にあります。
要約(オリジナル)
Agents capable of carrying out general tasks on a computer can improve efficiency and productivity by automating repetitive tasks and assisting in complex problem-solving. Ideally, such agents should be able to solve new computer tasks presented to them through natural language commands. However, previous approaches to this problem require large amounts of expert demonstrations and task-specific reward functions, both of which are impractical for new tasks. In this work, we show that a pre-trained large language model (LLM) agent can execute computer tasks guided by natural language using a simple prompting scheme where the agent Recursively Criticizes and Improves its output (RCI). The RCI approach significantly outperforms existing LLM methods for automating computer tasks and surpasses supervised learning (SL) and reinforcement learning (RL) approaches on the MiniWoB++ benchmark. We compare multiple LLMs and find that RCI with the InstructGPT-3+RLHF LLM is state-of-the-art on MiniWoB++, using only a handful of demonstrations per task rather than tens of thousands, and without a task-specific reward function. Furthermore, we demonstrate RCI prompting’s effectiveness in enhancing LLMs’ reasoning abilities on a suite of natural language reasoning tasks, outperforming chain of thought (CoT) prompting with external feedback. We find that RCI combined with CoT performs better than either separately. Our code can be found here: https://github.com/posgnu/rci-agent.
arxiv情報
著者 | Geunwoo Kim,Pierre Baldi,Stephen McAleer |
発行日 | 2023-11-16 20:15:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google