AMOR: A Recipe for Building Adaptable Modular Knowledge Agents Through Process Feedback

要約

大規模言語モデル(LLMs)の顕著な成功は、様々な複雑なタスクを完了するための言語エージェントの構築に拍車をかけている。我々は、オープンソースのLLMをベースとしたエージェントフレームワークであるAMORを紹介する。AMORは、外部の知識ベースを用いて推論を行い、推論プロセスに対する人間の監視を通して特定のドメインに適応する。AMORは、自律的な実行と分離されたモジュール上の遷移によって問題を解決する有限状態機械(FSM)上に推論ロジックを構築する。これにより、人間が個々のモジュールに直接フィードバックを与えることができ、プロセスの監視が自然に形成される。この推論とフィードバックのフレームワークに基づいて、我々はウォームアップとアダプテーションという2段階の微調整を通してAMORを開発する。前者は、様々な公開データセットから自動的に構築された例を用いてLLMを微調整し、AMORが異なる知識環境にわたって一般化することを可能にする。複数のドメインにわたる広範な実験により、FSMベースの推論とプロセスフィードバック機構により、強力なベースラインに対するAMORの優位性が実証された。

要約(オリジナル)

The notable success of large language models (LLMs) has sparked an upsurge in building language agents to complete various complex tasks. We present AMOR, an agent framework based on open-source LLMs, which reasons with external knowledge bases and adapts to specific domains through human supervision to the reasoning process. AMOR builds reasoning logic over a finite state machine (FSM) that solves problems through autonomous executions and transitions over disentangled modules. This allows humans to provide direct feedback to the individual modules, and thus naturally forms process supervision. Based on this reasoning and feedback framework, we develop AMOR through two-stage fine-tuning: warm-up and adaptation. The former fine-tunes the LLM with examples automatically constructed from various public datasets and enables AMOR to generalize across different knowledge environments, while the latter tailors AMOR to specific domains using process feedback. Extensive experiments across multiple domains demonstrate the advantage of AMOR to strong baselines, thanks to its FSM-based reasoning and process feedback mechanism.

arxiv情報

著者 Jian Guan,Wei Wu,Zujie Wen,Peng Xu,Hongning Wang,Minlie Huang
発行日 2024-02-02 14:56:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク