Smurfs: Leveraging Multiple Proficiency Agents with Context-Efficiency for Tool Planning

要約

大規模言語モデル (LLM) の出現により、多くの場合人間のパフォーマンスに匹敵する複雑なタスクを自動化するための前例のない可能性が開かれました。
LLM はその機能にもかかわらず、多面的な問題を単独で処理する際の固有の制限により、高レベルの精度と複雑さを必要とするタスクを完了する際に依然として困難に直面しています。
このペーパーでは、LLM のアプリケーションに革命を起こすために設計された最先端のマルチエージェント フレームワークである「Smurfs」について紹介します。
従来の LLM を相乗的なマルチエージェント アンサンブルに変換することで、Smurfs は追加のトレーニングを必要とせずにタスクの分解と実行を強化します。
これは、モデル内で異なる役割を割り当てる革新的なプロンプト戦略によって実現され、それによって専門のエージェント間のコラボレーションが促進されます。
このフレームワークにより、複雑なタスクを効率的に解決するための外部ツールにアクセスできるようになります。
ケーススタディとして mistral-7b-instruct モデルを取り上げた私たちの実証的調査は、複雑なツール利用シナリオにおける Smurfs の優れた能力を示しています。
特に、Smurfs は、ToolBench I2 および I3 ベンチマークで 84.4% という驚くべき勝率で ChatGPT-ReACT を上回り、GPT-4 モデルの最高記録である 73.5% を上回っています。
さらに、包括的なアブレーション研究を通じて、マルチエージェントフレームワークのコアコンポーネントがその全体的な有効性に対してどのように寄与しているかを詳しく分析します。
これは、フレームワークの有効性を検証するだけでなく、マルチエージェント LLM システムの将来の探索のための道筋も設定します。

要約(オリジナル)

The emergence of large language models (LLMs) has opened up unprecedented possibilities for automating complex tasks that are often comparable to human performance. Despite their capabilities, LLMs still encounter difficulties in completing tasks that require high levels of accuracy and complexity due to their inherent limitations in handling multifaceted problems single-handedly. This paper introduces ‘Smurfs’, a cutting-edge multi-agent framework designed to revolutionize the application of LLMs. By transforming a conventional LLM into a synergistic multi-agent ensemble, Smurfs enhances task decomposition and execution without necessitating extra training. This is achieved through innovative prompting strategies that allocate distinct roles within the model, thereby facilitating collaboration among specialized agents. The framework gives access to external tools to efficiently solve complex tasks. Our empirical investigation, featuring the mistral-7b-instruct model as a case study, showcases Smurfs’ superior capability in intricate tool utilization scenarios. Notably, Smurfs outmatches the ChatGPT-ReACT in the ToolBench I2 and I3 benchmark with a remarkable 84.4% win rate, surpassing the highest recorded performance of a GPT-4 model at 73.5%. Furthermore, through comprehensive ablation studies, we dissect the contribution of the core components of the multi-agent framework to its overall efficacy. This not only verifies the effectiveness of the framework, but also sets a route for future exploration of multi-agent LLM systems.

arxiv情報

著者 Junzhi Chen,Juhao Liang,Benyou Wang
発行日 2024-05-09 17:49:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク