要約
クローズドソースエージェントは、特に複雑な対話型タスクにおいて、手頃な価格、透明性、再現性の欠如など、いくつかの問題に悩まされています。
これは、オープンソースの代替手段の開発の動機となります。
オープンソースの LLM ベースのエージェントをトレーニングするための最初のフレームワークの 1 つである LUMOS を紹介します。
LUMOS は、高レベルのサブ目標の生成を学習する計画モジュールと、実行モジュールのさまざまなツールを使用してこれらをアクションに変換するように訓練されたグラウンディング モジュールを備えた、学習可能で統合されたモジュール式アーキテクチャを特徴としています。
この設計により、モジュール式のアップグレードが可能になり、多様な対話型タスクへの幅広い適用が可能になります。
一般化可能なエージェント学習を促進するために、さまざまな複雑なインタラクティブ タスクにわたって、さまざまなグラウンドトゥルース推論理論的根拠から派生した、大規模で統合された高品質のトレーニング アノテーションを収集します。
9 つのデータセットで、LUMOS はいくつかの重要な利点を示します。 (1) LUMOS は、各タスク タイプの保持されたデータセット (トレーニングに使用されていない) で、複数の大規模なオープンソース エージェントよりも優れています。
LUMOS は、QA および Web タスクにおいて GPT エージェントをも上回ります。
(2) LUMOS は、思考の連鎖とモジュール化されていない統合トレーニングによって生成されたオープンソース エージェントよりも優れたパフォーマンスを発揮します。
(3) LUMOS は、目に見えないタスクを効果的に一般化し、33B スケールのエージェントやドメイン固有のエージェントを上回るパフォーマンスを発揮します。
要約(オリジナル)
Closed-source agents suffer from several issues such as a lack of affordability, transparency, and reproducibility, particularly on complex interactive tasks. This motivates the development of open-source alternatives. We introduce LUMOS, one of the first frameworks for training open-source LLM-based agents. LUMOS features a learnable, unified, and modular architecture with a planning module that learns high-level subgoal generation, and a grounding module trained to translate these into actions using various tools in the execution module. The design allows for modular upgrades and wider applicability to diverse interactive tasks. To foster generalizable agent learning, we collect large-scale, unified, and high-quality training annotations derived from diverse ground-truth reasoning rationales across various complex interactive tasks. On 9 datasets, LUMOS exhibits several key advantages: (1) LUMOS excels multiple larger open-source agents on the held-out datasets (unused for training) for each task type. LUMOS even surpasses GPT agents on QA and web tasks; (2) LUMOS outperforms open-source agents produced by chain-of-thoughts and unmodularized integrated training; and (3) LUMOS effectively generalizes to unseen tasks, outperforming 33B-scale agents and domain-specific agents.
arxiv情報
著者 | Da Yin,Faeze Brahman,Abhilasha Ravichander,Khyathi Chandu,Kai-Wei Chang,Yejin Choi,Bill Yuchen Lin |
発行日 | 2024-07-10 17:36:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google