AMOR: A Recipe for Building Adaptable Modular Knowledge Agents Through Process Feedback

要約

大規模言語モデル (LLM) の顕著な成功により、さまざまな複雑なタスクを実行する言語エージェントの構築が急増しています。
我々は、オープンソース LLM に基づくエージェント フレームワークである AMOR を紹介します。AMOR は、外部の知識ベースを使用して推論し、推論プロセスに対する人間の監督を通じて特定のドメインに適応します。
AMOR は有限状態マシン (FSM) 上に推論ロジックを構築し、自律的な実行ともつれの解けたモジュール上の遷移を通じて問題を解決します。
これにより、人間が個々のモジュールに直接フィードバックを提供できるようになり、プロセスの監視が自然に形成されます。
この推論とフィードバックのフレームワークに基づいて、ウォームアップと適応という 2 段階の微調整を通じて AMOR を開発します。
前者は、さまざまな公開データセットから自動的に構築されたサンプルを使用して LLM を微調整し、AMOR をさまざまな知識環境にわたって一般化できるようにします。一方、後者は、プロセス フィードバックを使用して AMOR を特定の領域に合わせて調整します。
複数のドメインにわたる広範な実験により、FSM ベースの推論とプロセス フィードバック メカニズムのおかげで、強力なベースラインに対する AMOR の利点が実証されています。
コードとデータは \url{https://github.com/JianGuanTHU/AMOR} で公開されています。

要約(オリジナル)

The notable success of large language models (LLMs) has sparked an upsurge in building language agents to complete various complex tasks. We present AMOR, an agent framework based on open-source LLMs, which reasons with external knowledge bases and adapts to specific domains through human supervision to the reasoning process. AMOR builds reasoning logic over a finite state machine (FSM) that solves problems through autonomous executions and transitions over disentangled modules. This allows humans to provide direct feedback to the individual modules, and thus naturally forms process supervision. Based on this reasoning and feedback framework, we develop AMOR through two-stage fine-tuning: warm-up and adaptation. The former fine-tunes the LLM with examples automatically constructed from various public datasets, enabling AMOR to generalize across different knowledge environments, while the latter tailors AMOR to specific domains using process feedback. Extensive experiments across multiple domains demonstrate the advantage of AMOR to strong baselines, thanks to its FSM-based reasoning and process feedback mechanism. The code and data are publicly available at \url{https://github.com/JianGuanTHU/AMOR}.

arxiv情報

著者 Jian Guan,Wei Wu,Zujie Wen,Peng Xu,Hongning Wang,Minlie Huang
発行日 2024-10-25 09:30:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク