要約
LLMベースのマルチエージェントシステムは、高品質のプレゼンテーションスライドの生成から洗練された科学研究の実施まで、多面的な推論とコラボレーションを必要とする複雑なエージェントタスクに対処する際に、顕著な機能を実証しています。
一方、RLはエージェントインテリジェンスの強化における有効性について広く認識されていますが、限られた研究では、基礎RL技術を使用したLAMAの微調整を調査しています。
さらに、MARL方法論のラマスへの直接的な適用は、ラマに固有のユニークな特性とメカニズムに起因する重要な課題をもたらします。
これらの課題に対処するために、この記事では、LLMベースのMARLの包括的な研究を提示し、マルチエージェント強化微調整(MARFT)と呼ばれる新しいパラダイムを提案します。
ラマに合わせて調整された普遍的なアルゴリズムフレームワークを紹介し、概念的な基盤、重要な区別、実用的な実装戦略の概要を説明します。
まず、RLからの進化を確認して、微調整を強化し、マルチエージェントドメインの並列分析の段階を設定します。
ラマの文脈では、MarlとMarftの間の重大な違いを解明します。
これらの違いは、RFTの斬新なラマス指向の定式化への移行を動機付けます。
この作業の中心は、堅牢でスケーラブルなMarftフレームワークのプレゼンテーションです。
コアアルゴリズムについて詳しく説明し、採用とさらなる研究を促進するために、完全なオープンソースの実装を提供します。
論文の後者のセクションでは、MARFTでの現実世界のアプリケーションの視点と課題を開くことを探ります。
理論的な基盤を実用的な方法論で橋渡しすることにより、この作業は、エージェントシステムの回復力のある適応ソリューションに向けてMarftを前進させようとする研究者のロードマップとして機能することを目的としています。
提案されたフレームワークの実装は、https://github.com/jwliao-ai/marftで公開されています。
要約(オリジナル)
LLM-based Multi-Agent Systems have demonstrated remarkable capabilities in addressing complex, agentic tasks requiring multifaceted reasoning and collaboration, from generating high-quality presentation slides to conducting sophisticated scientific research. Meanwhile, RL has been widely recognized for its effectiveness in enhancing agent intelligence, but limited research has investigated the fine-tuning of LaMAS using foundational RL techniques. Moreover, the direct application of MARL methodologies to LaMAS introduces significant challenges, stemming from the unique characteristics and mechanisms inherent to LaMAS. To address these challenges, this article presents a comprehensive study of LLM-based MARL and proposes a novel paradigm termed Multi-Agent Reinforcement Fine-Tuning (MARFT). We introduce a universal algorithmic framework tailored for LaMAS, outlining the conceptual foundations, key distinctions, and practical implementation strategies. We begin by reviewing the evolution from RL to Reinforcement Fine-Tuning, setting the stage for a parallel analysis in the multi-agent domain. In the context of LaMAS, we elucidate critical differences between MARL and MARFT. These differences motivate a transition toward a novel, LaMAS-oriented formulation of RFT. Central to this work is the presentation of a robust and scalable MARFT framework. We detail the core algorithm and provide a complete, open-source implementation to facilitate adoption and further research. The latter sections of the paper explore real-world application perspectives and opening challenges in MARFT. By bridging theoretical underpinnings with practical methodologies, this work aims to serve as a roadmap for researchers seeking to advance MARFT toward resilient and adaptive solutions in agentic systems. Our implementation of the proposed framework is publicly available at: https://github.com/jwliao-ai/MARFT.
arxiv情報
著者 | Junwei Liao,Muning Wen,Jun Wang,Weinan Zhang |
発行日 | 2025-04-24 02:54:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google