Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning

要約

大規模言語モデル (LLM) に基づく既存のエージェントは、LLM の固有の知識、強力なコンテキスト内学習およびゼロショット機能、および人間による複雑に設計された LLM 呼び出しワークフローと組み合わせたツールの使用を統合することにより、堅牢な問題解決機能を実証します。
ただし、これらのエージェントは長期的な推論において依然として欠点を示しており、既存のツールの可能性を十分に活用していないため、複雑な現実世界の推論シナリオでは顕著な欠陥が生じています。
これらの制限に対処するために、最小限のツール セットを効率的に活用して複雑な推論タスクに取り組むように設計された、シンプルでありながら強力な LLM ベースのエージェント フレームワークである Sibyl を紹介します。
グローバル ワークスペース理論からインスピレーションを得た Sibyl には、システム全体での知識と会話履歴の管理と共有を強化するグローバル ワークスペースが組み込まれています。
さらに、Sibyl は、Society of Mind Theory に基づいて、マルチエージェントの討論ベースの陪審を実装して、最終的な答えを自己調整し、包括的でバランスの取れたアプローチを保証します。
このアプローチは、システムの複雑さを軽減しながら、通常人間が数分で解決できる問題から、数時間、場合によっては数日かかる問題まで、解決可能な問題の範囲を拡大し、システム 1 からシステム 2 への思考の移行を促進することを目的としています。
Sibyl は、機能を向上させるために他の LLM アプリケーションにシームレスかつ低労力で統合することを目的として、当初から関数型プログラミングのリエントランシーの概念を組み込むことにより、スケーラビリティとデバッグのしやすさに重点を置いて設計されています。
GAIA ベンチマーク テスト セットでの実験結果では、GPT-4 でインスタンス化された Sibyl エージェントが、GPT-4 ベースの他のエージェントと比較して、平均スコア 34.55% で最先端のパフォーマンスを達成していることが明らかになりました。
私たちは、Sibyl がより信頼性が高く再利用可能な LLM ベースのエージェント ソリューションを生み出し、現実世界の複雑な推論タスクに対処できることを期待しています。

要約(オリジナル)

Existing agents based on large language models (LLMs) demonstrate robust problem-solving capabilities by integrating LLMs’ inherent knowledge, strong in-context learning and zero-shot capabilities, and the use of tools combined with intricately designed LLM invocation workflows by humans. However, these agents still exhibit shortcomings in long-term reasoning and under-use the potential of existing tools, leading to noticeable deficiencies in complex real-world reasoning scenarios. To address these limitations, we introduce Sibyl, a simple yet powerful LLM-based agent framework designed to tackle complex reasoning tasks by efficiently leveraging a minimal set of tools. Drawing inspiration from Global Workspace Theory, Sibyl incorporates a global workspace to enhance the management and sharing of knowledge and conversation history throughout the system. Furthermore, guided by Society of Mind Theory, Sibyl implements a multi-agent debate-based jury to self-refine the final answers, ensuring a comprehensive and balanced approach. This approach aims to reduce system complexity while expanding the scope of problems solvable-from matters typically resolved by humans in minutes to those requiring hours or even days, thus facilitating a shift from System-1 to System-2 thinking. Sibyl has been designed with a focus on scalability and ease of debugging by incorporating the concept of reentrancy from functional programming from its inception, with the aim of seamless and low effort integration in other LLM applications to improve capabilities. Our experimental results on the GAIA benchmark test set reveal that the Sibyl agent instantiated with GPT-4 achieves state-of-the-art performance with an average score of 34.55%, compared to other agents based on GPT-4. We hope that Sibyl can inspire more reliable and reusable LLM-based agent solutions to address complex real-world reasoning tasks.

arxiv情報

著者 Yulong Wang,Tianhao Shen,Lifeng Liu,Jian Xie
発行日 2024-07-16 14:16:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク