要約
言語エージェントは、基礎モデルを使用して推論することにより、自律的な意思決定能力を実証してきました。
最近では、多段階の推論や行動軌跡を訓練データとして用いて、言語エージェントの性能向上を訓練する取り組みが行われている。
ただし、そのような軌跡を収集するには、人為的な注釈または多様なプロンプト フレームワークの実装によって、依然としてかなりの人的努力が必要です。
この研究では、ReAct のスタイルでエージェントの軌跡の自律的なアノテーションを可能にするフレームワークである A$^3$T を提案します。
中心的な役割は、任意のアクションの理由を説明する ActRe プロンプト エージェントです。
外部アクションをランダムにサンプリングする場合、ReAct スタイルのエージェントはアクションを使用して ActRe エージェントにクエリを実行し、そのテキストの根拠を取得できます。
その後、ActRe からの事後推論をサンプリングされたアクションに付加することによって、新しい軌跡が合成されます。
このようにして、ReAct スタイルのエージェントは失敗したタスクに対して複数の軌跡を実行し、成功したタスクを選択して失敗した軌跡を補完して、対照的な自己トレーニングを行います。
二値化された報酬を伴うポリシー勾配法によって実現される、蓄積された軌跡による対照的自己訓練は、言語エージェントの自己改善の複数ラウンドの閉ループを促進します。
オープンソースの Mistral-7B-Instruct-v0.2 を使用して QLoRA 微調整を使用して実験を行います。
AlfWorld では、A$^3$T でトレーニングされたエージェントは 96% の単発成功率を獲得し、4 回の反復ラウンドで 100% の成功率を達成します。
WebShop では、A$^3$T エージェントの 1 回限りのパフォーマンスは人間の平均と一致し、4 ラウンドの反復改良により人間の専門家に近づくパフォーマンスが得られます。
A$^3$T エージェントは、GPT-4 によるプロンプト、高度なエージェント フレームワーク、完全に微調整された LLM などの既存の技術を大幅に上回ります。
要約(オリジナル)
Language agents have demonstrated autonomous decision-making abilities by reasoning with foundation models. Recently, efforts have been made to train language agents for performance improvement, with multi-step reasoning and action trajectories as the training data. However, collecting such trajectories still requires considerable human effort, by either artificial annotations or implementations of diverse prompting frameworks. In this work, we propose A$^3$T, a framework that enables the Autonomous Annotation of Agent Trajectories in the style of ReAct. The central role is an ActRe prompting agent, which explains the reason for an arbitrary action. When randomly sampling an external action, the ReAct-style agent could query the ActRe agent with the action to obtain its textual rationales. Novel trajectories are then synthesized by prepending the posterior reasoning from ActRe to the sampled action. In this way, the ReAct-style agent executes multiple trajectories for the failed tasks, and selects the successful ones to supplement its failed trajectory for contrastive self-training. Realized by policy gradient methods with binarized rewards, the contrastive self-training with accumulated trajectories facilitates a closed loop for multiple rounds of language agent self-improvement. We conduct experiments using QLoRA fine-tuning with the open-sourced Mistral-7B-Instruct-v0.2. In AlfWorld, the agent trained with A$^3$T obtains a 1-shot success rate of 96%, and 100% success with 4 iterative rounds. In WebShop, the 1-shot performance of the A$^3$T agent matches human average, and 4 rounds of iterative refinement lead to the performance approaching human experts. A$^3$T agents significantly outperform existing techniques, including prompting with GPT-4, advanced agent frameworks, and fully fine-tuned LLMs.
arxiv情報
著者 | Zonghan Yang,Peng Li,Ming Yan,Ji Zhang,Fei Huang,Yang Liu |
発行日 | 2024-03-21 17:43:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google