Multi-Mission Tool Bench: Assessing the Robustness of LLM based Agents through Related and Dynamic Missions

要約

大規模言語モデル(LLM)は、その高度な理解力と計画能力により、ツールを呼び出すためのエージェントとして強い可能性を示している。ユーザーは、反復的な相互作用を通じて複雑なミッションを解決するために、ますますLLMベースのエージェントに依存している。しかし、既存のベンチマークは、主に単一ミッションシナリオでエージェントにアクセスするため、実世界の複雑性を捉えることができない。このギャップを埋めるために、我々はマルチミッションツールベンチを提案する。このベンチマークでは、各テストケースは相互に関連する複数のミッションから構成される。この設計では、エージェントは進化する要求に動的に適応する必要がある。さらに、提案するベンチマークでは、固定されたミッション数の中で可能な全てのミッション切り替えパターンを探索する。具体的には、ベンチマークを構築するためのマルチエージェントデータ生成フレームワークを提案する。また、動的決定木を用いてエージェントの決定の精度と効率を評価する新しい手法を提案する。多様なオープンソースおよびクローズドソースのLLMを用いた実験により、エージェントの頑健性に影響する重要な要因を明らかにし、ツール起動社会に対する実用的な洞察を提供する。

要約(オリジナル)

Large language models (LLMs) demonstrate strong potential as agents for tool invocation due to their advanced comprehension and planning capabilities. Users increasingly rely on LLM-based agents to solve complex missions through iterative interactions. However, existing benchmarks predominantly access agents in single-mission scenarios, failing to capture real-world complexity. To bridge this gap, we propose the Multi-Mission Tool Bench. In the benchmark, each test case comprises multiple interrelated missions. This design requires agents to dynamically adapt to evolving demands. Moreover, the proposed benchmark explores all possible mission-switching patterns within a fixed mission number. Specifically, we propose a multi-agent data generation framework to construct the benchmark. We also propose a novel method to evaluate the accuracy and efficiency of agent decisions with dynamic decision trees. Experiments on diverse open-source and closed-source LLMs reveal critical factors influencing agent robustness and provide actionable insights to the tool invocation society.

arxiv情報

著者 PeiJie Yu,Yifan Yang,Jinjian Li,Zelong Zhang,Haorui Wang,Xiao Feng,Feng Zhang
発行日 2025-04-03 14:21:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI | Multi-Mission Tool Bench: Assessing the Robustness of LLM based Agents through Related and Dynamic Missions はコメントを受け付けていません

Agentic Large Language Models, a survey

要約

エージェント型LLM(エージェントとして動作する大規模な言語モデル)に大きな関心が集まっている。本稿では、この分野における研究の進展を概観し、研究課題を提示する。エージェント型LLMとは、(1)推論し、(2)行動し、(3)相互作用するLLMのことである。この3つのカテゴリーに従って文献を整理する。第一のカテゴリーは推論、内省、検索に焦点を当てた研究で、意思決定の改善を目指す。第二のカテゴリーは行動モデル、ロボット、ツールに焦点を当てた研究で、有用なアシスタントとして機能するエージェントを目指す。第三のカテゴリーはマルチエージェントシステムに焦点を当てた研究で、協調的なタスク解決や、創発的な社会的行動を研究するための相互作用のシミュレーションを目指す。我々は、検索がツールの使用を可能にし、内省がマルチエージェントコラボレーションを向上させ、推論が全てのカテゴリーに利益をもたらすなど、他のカテゴリーの成果から作品が相互に恩恵を受けることを発見した。我々は、エージェント型LLMの応用について議論し、さらなる研究のためのアジェンダを提供する。重要なアプリケーションは、医療診断、物流、金融市場分析である。一方、自己反映的なエージェントが役割を果たし、互いに相互作用することで、科学研究のプロセスそのものが強化される。さらに、エージェント型LLMは、LLMが学習データを使い果たしてしまうという問題に対する解決策を提供する可能性がある。推論時の振る舞いが新たな学習状態を生成するため、LLMはこれまで以上に大きなデータセットを必要とすることなく学習を続けることができる。LLMのアシスタントが実世界で行動を起こすことにはリスクが伴うが、エージェント型LLMは社会に利益をもたらす可能性も高い。

要約(オリジナル)

There is great interest in agentic LLMs, large language models that act as agents. We review the growing body of work in this area and provide a research agenda. Agentic LLMs are LLMs that (1) reason, (2) act, and (3) interact. We organize the literature according to these three categories. The research in the first category focuses on reasoning, reflection, and retrieval, aiming to improve decision making; the second category focuses on action models, robots, and tools, aiming for agents that act as useful assistants; the third category focuses on multi-agent systems, aiming for collaborative task solving and simulating interaction to study emergent social behavior. We find that works mutually benefit from results in other categories: retrieval enables tool use, reflection improves multi-agent collaboration, and reasoning benefits all categories. We discuss applications of agentic LLMs and provide an agenda for further research. Important applications are in medical diagnosis, logistics and financial market analysis. Meanwhile, self-reflective agents playing roles and interacting with one another augment the process of scientific research itself. Further, agentic LLMs may provide a solution for the problem of LLMs running out of training data: inference-time behavior generates new training states, such that LLMs can keep learning without needing ever larger datasets. We note that there is risk associated with LLM assistants taking action in the real world, while agentic LLMs are also likely to benefit society.

arxiv情報

著者 Aske Plaat,Max van Duijn,Niki van Stein,Mike Preuss,Peter van der Putten,Kees Joost Batenburg
発行日 2025-04-03 14:32:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | Agentic Large Language Models, a survey はコメントを受け付けていません

Mixture of Attentions For Speculative Decoding

要約

大規模言語モデル(LLM)のパラメータ数の増加により、計算要件が大幅に急増し、導入が困難でコスト高になっている。投機的デコーディング(SD)は、より小さなモデルを活用して将来のトークンを効率的に提案し、それをLLMが並行して検証します。LLMからのアクティベーションを利用する小型モデルは、現在のところ最速のデコード速度を達成している。しかし、SDモデルには、学習中のオンポリシー性の欠如や部分的な観測可能性など、いくつかの限界があることが分かっている。これらの欠点に対処するため、我々はSDのための注意の混合を導入することで、小さなモデルのより地に足のついたアーキテクチャを提案する。我々の新しいアーキテクチャは2つのシナリオで適用できる:従来の単一デバイス展開と、小型モデルが消費者デバイス上でホストされ、LLMがサーバー上でホストされる新しいクライアント・サーバー展開である。シングルデバイスシナリオでは、EAGLE-2を9.5%改善し、アクセプタンス長を25%改善する最先端のスピードアップを実証した。クライアント・サーバー環境での実験では、以下のことが実証された:1) さまざまなネットワーク条件において、サーバーへの呼び出しを最小限に抑えた最先端の待ち時間、2) 完全に接続が切断された場合でも、本アプローチは他のSD手法と比較して高い精度を維持することができ、そうでなければ生成プロセスを継続できないLLMへのAPI呼び出しよりも優れていること。

要約(オリジナル)

The growth in the number of parameters of Large Language Models (LLMs) has led to a significant surge in computational requirements, making them challenging and costly to deploy. Speculative decoding (SD) leverages smaller models to efficiently propose future tokens, which are then verified by the LLM in parallel. Small models that utilise activations from the LLM currently achieve the fastest decoding speeds. However, we identify several limitations of SD models including the lack of on-policyness during training and partial observability. To address these shortcomings, we propose a more grounded architecture for small models by introducing a Mixture of Attentions for SD. Our novel architecture can be applied in two scenarios: a conventional single device deployment and a novel client-server deployment where the small model is hosted on a consumer device and the LLM on a server. In a single-device scenario, we demonstrate state-of-the-art speedups improving EAGLE-2 by 9.5% and its acceptance length by 25%. In a client-server setting, our experiments demonstrate: 1) state-of-the-art latencies with minimal calls to the server for different network conditions, and 2) in the event of a complete disconnection, our approach can maintain higher accuracy compared to other SD methods and demonstrates advantages over API calls to LLMs, which would otherwise be unable to continue the generation process.

arxiv情報

著者 Matthieu Zimmer,Milan Gritta,Gerasimos Lampouras,Haitham Bou Ammar,Jun Wang
発行日 2025-04-03 14:35:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | Mixture of Attentions For Speculative Decoding はコメントを受け付けていません

Prompt Optimization with Logged Bandit Data

要約

本研究では、プロンプトを用いてパーソナライズされた文章を生成するための大規模言語モデル(LLM)パイプラインを最適化するために、クリックなどの自然に利用可能なユーザフィードバックを利用する方法を研究する。プロンプト空間におけるポリシーの勾配を推定するナイーブなアプローチは、プロンプトの大きな行動空間によって引き起こされる分散や、不正確な報酬予測によって引き起こされるバイアスに悩まされる。これらの課題を回避するために、我々はカーネルベースのオフポリシー勾配法を提案する。これは、生成された文の類似性を利用してポリシー勾配を推定し、バイアスを抑制しながら分散を大幅に削減する。我々が新たに確立した一連のベンチマークを用いた実証結果により、特に候補となるプロンプトの数が多い場合に、映画推薦のためのパーソナライズされた説明文を生成する上で、提案アプローチの有効性が実証された。

要約(オリジナル)

We study how to use naturally available user feedback, such as clicks, to optimize large language model (LLM) pipelines for generating personalized sentences using prompts. Naive approaches, which estimate the policy gradient in the prompt space, suffer either from variance caused by the large action space of prompts or bias caused by inaccurate reward predictions. To circumvent these challenges, we propose a novel kernel-based off-policy gradient method, which estimates the policy gradient by leveraging similarity among generated sentences, substantially reducing variance while suppressing the bias. Empirical results on our newly established suite of benchmarks demonstrate the effectiveness of the proposed approach in generating personalized descriptions for movie recommendations, particularly when the number of candidate prompts is large.

arxiv情報

著者 Haruka Kiyohara,Daniel Yiming Cao,Yuta Saito,Thorsten Joachims
発行日 2025-04-03 14:40:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.IR, cs.LG, stat.ML | Prompt Optimization with Logged Bandit Data はコメントを受け付けていません

Wormhole Memory: A Rubik’s Cube for Cross-Dialogue Retrieval

要約

本研究では、現在の大規模言語モデルにおけるダイアログ間のメモリ共有のギャップに鑑み、異なるダイアログ間でメモリを任意に取り出せるルービックキューブとして実現するワームホールメモリモジュール(WMM)を提案する。シミュレーション実験により、Python環境をベースとした実験フレームワークを構築し、メモリバリアの設定により、LLMsダイアログ間のメモリ共有が困難な現状をシミュレートした。実験では、CoQA開発データセットをインポートし、WMMの非線形インデクシングと動的検索について、そのクロスダイアログメモリ検索機能の実現可能性を検証し、TitansやMemGPTメモリモジュールの機能との比較分析を行った。実験の結果、WMMは8つの実験において、対話をまたいだ記憶検索能力と定量的指標の安定性を実証した。本論文は、LLMのメモリ管理の最適化に対する新たな技術的アプローチに貢献し、今後の実用化に向けた経験を提供するものである。

要約(オリジナル)

In view of the gap in the current large language model in sharing memory across dialogues, this research proposes a wormhole memory module (WMM) to realize memory as a Rubik’s cube that can be arbitrarily retrieved between different dialogues. Through simulation experiments, the researcher built an experimental framework based on the Python environment and used setting memory barriers to simulate the current situation where memories between LLMs dialogues are difficult to share. The CoQA development data set was imported into the experiment, and the feasibility of its cross-dialogue memory retrieval function was verified for WMM’s nonlinear indexing and dynamic retrieval, and a comparative analysis was conducted with the capabilities of Titans and MemGPT memory modules. Experimental results show that WMM demonstrated the ability to retrieve memory across dialogues and the stability of quantitative indicators in eight experiments. It contributes new technical approaches to the optimization of memory management of LLMs and provides experience for the practical application in the future.

arxiv情報

著者 Libo Wang
発行日 2025-04-03 14:45:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | Wormhole Memory: A Rubik’s Cube for Cross-Dialogue Retrieval はコメントを受け付けていません

SymDQN: Symbolic Knowledge and Reasoning in Neural Network-based Reinforcement Learning

要約

我々は、ディープニューラルネットワークを用いた強化学習において、記号的な制御とガイダンスを可能にする学習アーキテクチャを提案する。既存のDueling Deep Q-Networks (DuelDQN)アーキテクチャを、Logic Tensor Networks (LTN)のニューロシンボリックフレームワークに基づくモジュールで補強する、新しいモジュールアプローチであるSymDQNを紹介する。このモジュールは行動ポリシーの学習を導き、強化学習エージェントが環境についての推論と一致した行動を示すことを可能にする。我々の実験は、このモジュールに対して行われるアブレーション研究である。この実験は、5×5のグリッドを移動する強化学習環境で行われ、エージェントが様々な形状に遭遇し、それぞれに報酬が与えられる。基礎となるDuelDQNは、この環境におけるエージェントの最適な振る舞いを学習しようとする一方で、モジュールは形状の認識と報酬の予測を容易にする。我々は、我々のアーキテクチャが、性能とエージェントの精度の両方において、学習を大幅に改善することを示す。SymDQNのモジュール性により、強化学習におけるニューラルアプローチとシンボリックアプローチの組み合わせの複雑さと複雑さを考察することができる。

要約(オリジナル)

We propose a learning architecture that allows symbolic control and guidance in reinforcement learning with deep neural networks. We introduce SymDQN, a novel modular approach that augments the existing Dueling Deep Q-Networks (DuelDQN) architecture with modules based on the neuro-symbolic framework of Logic Tensor Networks (LTNs). The modules guide action policy learning and allow reinforcement learning agents to display behaviour consistent with reasoning about the environment. Our experiment is an ablation study performed on the modules. It is conducted in a reinforcement learning environment of a 5×5 grid navigated by an agent that encounters various shapes, each associated with a given reward. The underlying DuelDQN attempts to learn the optimal behaviour of the agent in this environment, while the modules facilitate shape recognition and reward prediction. We show that our architecture significantly improves learning, both in terms of performance and the precision of the agent. The modularity of SymDQN allows reflecting on the intricacies and complexities of combining neural and symbolic approaches in reinforcement learning.

arxiv情報

著者 Ivo Amador,Nina Gierasimczuk
発行日 2025-04-03 14:51:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LO, cs.NE, I.2.6 | SymDQN: Symbolic Knowledge and Reasoning in Neural Network-based Reinforcement Learning はコメントを受け付けていません

The Value of Information in Human-AI Decision-making

要約

人間やAIモデルを含む複数のエージェントは、しばしば意思決定タスクにおいてペアを組み、両エージェントのパフォーマンスを組み合わせることで、どちらか一方のみのパフォーマンスを上回る、相補的なパフォーマンスを達成することが期待される。しかし、人間とAIのチームのパフォーマンスを向上させる方法を知ることは、各エージェントがどのような特定の情報や戦略を採用しているのかを詳しく知ることなしには、しばしば困難である。我々は、AIが支援する意思決定ワークフローにおける情報の価値、ひいてはエージェントが利用可能な情報をより良く活用する機会を特徴付けるための意思決定理論的フレームワークを提供する。我々は、モデルの選択、人間とAIのパフォーマンスの経験的評価、および説明設計のためのフレームワークの使用を実証する。我々は、意思決定における情報価値を説明するために、顕著性ベースの説明であるSHAPを適応させた新しい情報ベースの説明技法を提案する。

要約(オリジナル)

Multiple agents — including humans and AI models — are often paired on decision tasks with the expectation of achieving complementary performance, where the combined performance of both agents outperforms either one alone. However, knowing how to improve the performance of a human-AI team is often difficult without knowing more about what particular information and strategies each agent employs. We provide a decision-theoretic framework for characterizing the value of information — and consequently, opportunities for agents to better exploit available information — in AI-assisted decision workflows. We demonstrate the use of the framework for model selection, empirical evaluation of human-AI performance, and explanation design. We propose a novel information-based explanation technique that adapts SHAP, a saliency-based explanation, to explain information value in decision making.

arxiv情報

著者 Ziyang Guo,Yifan Wu,Jason Hartline,Jessica Hullman
発行日 2025-04-03 14:57:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | The Value of Information in Human-AI Decision-making はコメントを受け付けていません

Quamba2: A Robust and Scalable Post-training Quantization Framework for Selective State Space Models

要約

状態空間モデル(SSM)は、一貫したメモリ使用量と高いパフォーマンスにより、Transformerに代わる有力な選択肢として台頭してきている。にもかかわらず、クラウドサービスや限られたリソースのデバイス上でSSMをスケールアップすることは、そのストレージ要件と計算能力のために困難である。これを克服するために、低ビット幅のデータフォーマットでSSMを量子化することで、モデルサイズを縮小し、ハードウェアアクセラレーションの恩恵を受けることができます。SSMは量子化に起因するエラーが発生しやすいため、最近の取り組みでは、性能を犠牲にすることなく効率性を高めるために、特定のモデルやビット幅を最適化することに焦点が当てられています。しかし、W4A8は大バッチのデコード速度を向上させ、W4A16は単一ユーザー向けの短時間アプリケーションの生成速度を向上させるなど、異なるシナリオには異なるビット幅構成が不可欠である。この目的のために、我々はMamba1とMamba2の両方のバックボーン用のW8A8、W4A8、W4A16と互換性のあるQuamba2を発表し、様々なプラットフォーム上でのSSM展開の需要の高まりに対応する。SSMのチャネル次数保持と活性化持続性に基づいて、入力$x$のソートとクラスタリング、入力依存パラメータ$B$と$C$の状態グループ毎の量子化と組み合わせることにより、8ビットでの線形再帰の入力を量子化するオフラインアプローチを提案する。SSM出力の計算不変性を確保するため、クラスタリング順序に従って重みをオフラインで再配列する。実験の結果、Quamba2-8Bは、いくつかの最新のSSM量子化手法を凌駕し、プリフィリングと生成段階でそれぞれ1.3$times$と3$times$の高速化を実現し、平均精度低下$1.6%$のみで4$times$のメモリ削減を提供する。MMLUでの評価は、本フレームワークの汎用性と頑健性を示す。コードと量子化モデルはhttps://github.com/enyac-group/Quamba。

要約(オリジナル)

State Space Models (SSMs) are emerging as a compelling alternative to Transformers because of their consistent memory usage and high performance. Despite this, scaling up SSMs on cloud services or limited-resource devices is challenging due to their storage requirements and computational power. To overcome this, quantizing SSMs with low bit-width data formats can reduce model size and benefit from hardware acceleration. As SSMs are prone to quantization-induced errors, recent efforts have focused on optimizing a particular model or bit-width for efficiency without sacrificing performance. However, distinct bit-width configurations are essential for different scenarios, like W4A8 for boosting large-batch decoding speed, and W4A16 for enhancing generation speed in short prompt applications for a single user. To this end, we present Quamba2, compatible with W8A8, W4A8, and W4A16 for both Mamba1 and Mamba2 backbones, addressing the growing demand for SSM deployment on various platforms. Based on the channel order preserving and activation persistence of SSMs, we propose an offline approach to quantize inputs of a linear recurrence in 8-bit by sorting and clustering for input $x$, combined with a per-state-group quantization for input-dependent parameters $B$ and $C$. To ensure compute-invariance in the SSM output, we rearrange weights offline according to the clustering sequence. The experiments show that Quamba2-8B outperforms several state-of-the-art SSM quantization methods and delivers 1.3$\times$ and 3$\times$ speed-ups in the pre-filling and generation stages, respectively, while offering 4$\times$ memory reduction with only a $1.6\%$ average accuracy drop. The evaluation on MMLU shows the generalizability and robustness of our framework. The code and quantized models will be released at: https://github.com/enyac-group/Quamba.

arxiv情報

著者 Hung-Yueh Chiang,Chi-Chih Chang,Natalia Frumkin,Kai-Chiang Wu,Mohamed S. Abdelfattah,Diana Marculescu
発行日 2025-04-03 15:04:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG, cs.PF | Quamba2: A Robust and Scalable Post-training Quantization Framework for Selective State Space Models はコメントを受け付けていません

The Foundations of Tokenization: Statistical and Computational Concerns

要約

トークン化(アルファベットの文字列を語彙のトークン列に変換すること)は、自然言語処理パイプラインの重要なステップである。トークン表現の使用は、モデルのパフォーマンスを向上させると広く信じられていますが、偽の曖昧さや矛盾など、多くの望ましくない動作の原因ともなっています。NLPにおける標準的な表現方法としての重要性が認識されているにもかかわらず、トークン化の理論的基盤はまだ完全に理解されていない。特に、トークン化が言語モデルの推定に与える影響は、主に経験的な手段によって研究されてきた。本論文は、トークナイザーモデルを表現・分析するための統一的な形式的枠組みを提案することで、この理論的ギャップの解決に貢献する。この枠組みは確率写像のカテゴリーに基づき、トークナイザーを原理的に利用するための一般的な条件、そして最も重要なこととして、トークナイザーモデルが統計的推定量の一貫性を保つための必要十分条件を確立することを可能にする。さらに、トークナイザーモデルを設計・実装する上で重要な統計的・計算上の問題、例えば、矛盾性、曖昧性、有限性、逐次性について議論する。本論文のフレームワークと結果は、ニューラル言語モデリングにおける表現のための強固な理論的基礎の構築に貢献し、将来の理論的・実証的研究に情報を提供することができる。

要約(オリジナル)

Tokenization – the practice of converting strings of characters from an alphabet into sequences of tokens over a vocabulary – is a critical step in the NLP pipeline. The use of token representations is widely credited with increased model performance but is also the source of many undesirable behaviors, such as spurious ambiguity or inconsistency. Despite its recognized importance as a standard representation method in NLP, the theoretical underpinnings of tokenization are not yet fully understood. In particular, the impact of tokenization on language model estimation has been investigated primarily through empirical means. The present paper contributes to addressing this theoretical gap by proposing a unified formal framework for representing and analyzing tokenizer models. Based on the category of stochastic maps, this framework enables us to establish general conditions for a principled use of tokenizers and, most importantly, the necessary and sufficient conditions for a tokenizer model to preserve the consistency of statistical estimators. In addition, we discuss statistical and computational concerns crucial for designing and implementing tokenizer models, such as inconsistency, ambiguity, finiteness, and sequentiality. The framework and results advanced in this paper contribute to building robust theoretical foundations for representations in neural language modeling that can inform future theoretical and empirical research.

arxiv情報

著者 Juan Luis Gastaldi,John Terilla,Luca Malagutti,Brian DuSell,Tim Vieira,Ryan Cotterell
発行日 2025-04-03 15:07:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | The Foundations of Tokenization: Statistical and Computational Concerns はコメントを受け付けていません

Affordable AI Assistants with Knowledge Graph of Thoughts

要約

大規模言語モデル(Large Language Models: LLM)は、ドメイン横断的に多様なタスクを実行できるAIアシスタントの開発に革命をもたらしている。しかし、現在の最先端のLLM駆動エージェントは、高い運用コストやGAIAのような複雑なベンチマークでの成功率の限界など、大きな課題に直面している。これらの問題に対処するために、我々は、LLM推論と動的に構築された知識グラフ(KG)を統合した革新的なAIアシスタントアーキテクチャであるKGoT(Knowledge Graph of Thoughts)を提案する。KGoTは、タスクに関連する知識を抽出し、動的なKG表現に構造化し、数学ソルバー、ウェブクローラ、Pythonスクリプトなどの外部ツールによって反復的に拡張する。このようなタスク関連知識の構造化表現により、低コストモデルで複雑なタスクを効果的に解くことができる。例えば、KGoTはGAIAベンチマークにおいて、GPT-4o miniを搭載したHugging Face Agentsと比較して、タスク成功率で29%の改善を達成する一方、GPT-4oと比較して36倍以上のコスト削減を実現しています。最近の推論モデルの改善も同様で、例えばQwen2.5-32BとDeepseek-R1-70Bではそれぞれ36%と37.5%です。KGoTは、AIアシスタントにスケーラブルで手頃な価格の高性能ソリューションを提供する。

要約(オリジナル)

Large Language Models (LLMs) are revolutionizing the development of AI assistants capable of performing diverse tasks across domains. However, current state-of-the-art LLM-driven agents face significant challenges, including high operational costs and limited success rates on complex benchmarks like GAIA. To address these issues, we propose the Knowledge Graph of Thoughts (KGoT), an innovative AI assistant architecture that integrates LLM reasoning with dynamically constructed knowledge graphs (KGs). KGoT extracts and structures task-relevant knowledge into a dynamic KG representation, iteratively enhanced through external tools such as math solvers, web crawlers, and Python scripts. Such structured representation of task-relevant knowledge enables low-cost models to solve complex tasks effectively. For example, KGoT achieves a 29% improvement in task success rates on the GAIA benchmark compared to Hugging Face Agents with GPT-4o mini, while reducing costs by over 36x compared to GPT-4o. Improvements for recent reasoning models are similar, e.g., 36% and 37.5% for Qwen2.5-32B and Deepseek-R1-70B, respectively. KGoT offers a scalable, affordable, and high-performing solution for AI assistants.

arxiv情報

著者 Maciej Besta,Lorenzo Paleari,Jia Hao Andrea Jiang,Robert Gerstenberger,You Wu,Patrick Iff,Ales Kubicek,Piotr Nyczyk,Diana Khimey,Jón Gunnar Hannesson,Grzegorz Kwaśniewski,Marcin Copik,Hubert Niewiadomski,Torsten Hoefler
発行日 2025-04-03 15:11:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG | Affordable AI Assistants with Knowledge Graph of Thoughts はコメントを受け付けていません