要約
大規模な言語モデル(LLM)は、ドメイン間で多様なタスクを実行できるAIアシスタントの開発に革命をもたらしています。
ただし、現在の最先端のLLM主導のエージェントは、Gaiaのような複雑なベンチマークでの高い運用コストや限られた成功率など、重大な課題に直面しています。
これらの問題に対処するために、LLMの推論を動的に構築された知識グラフ(KG)と統合する革新的なAIアシスタントアーキテクチャである思考の知識グラフ(KGOT)を提案します。
KGOTは、数学ソルバー、Webクローラー、Pythonスクリプトなどの外部ツールを介して繰り返し強化された動的なKG表現にタスク関連の知識を抽出および構造化します。
タスク関連の知識のこのような構造化された表現により、低コストのモデルは複雑なタスクを効果的に解決しながら、バイアスとノイズを最小限に抑えることができます。
たとえば、KGOTは、GPT-4o Miniを使用してフェイスエージェントを抱き締めるのと比較して、Gaiaベンチマークでタスクの成功率を29%改善しています。
さらに、小規模なモデルを利用すると、GPT-4oと比較して運用コストが36倍以上削減されます。
他のモデル(QWEN2.5-32BおよびDeepSeek-R1-70Bなど)およびベンチマーク(SimpleQAなど)の改善は似ています。
KGOTは、AIアシスタント向けにスケーラブルで手頃な価格の多用途で高性能なソリューションを提供します。
要約(オリジナル)
Large Language Models (LLMs) are revolutionizing the development of AI assistants capable of performing diverse tasks across domains. However, current state-of-the-art LLM-driven agents face significant challenges, including high operational costs and limited success rates on complex benchmarks like GAIA. To address these issues, we propose Knowledge Graph of Thoughts (KGoT), an innovative AI assistant architecture that integrates LLM reasoning with dynamically constructed knowledge graphs (KGs). KGoT extracts and structures task-relevant knowledge into a dynamic KG representation, iteratively enhanced through external tools such as math solvers, web crawlers, and Python scripts. Such structured representation of task-relevant knowledge enables low-cost models to solve complex tasks effectively while also minimizing bias and noise. For example, KGoT achieves a 29% improvement in task success rates on the GAIA benchmark compared to Hugging Face Agents with GPT-4o mini. Moreover, harnessing a smaller model dramatically reduces operational costs by over 36x compared to GPT-4o. Improvements for other models (e.g., Qwen2.5-32B and Deepseek-R1-70B) and benchmarks (e.g., SimpleQA) are similar. KGoT offers a scalable, affordable, versatile, and high-performing solution for AI assistants.
arxiv情報
著者 | Maciej Besta,Lorenzo Paleari,Jia Hao Andrea Jiang,Robert Gerstenberger,You Wu,Jón Gunnar Hannesson,Patrick Iff,Ales Kubicek,Piotr Nyczyk,Diana Khimey,Nils Blach,Haiqiang Zhang,Tao Zhang,Peiran Ma,Grzegorz Kwaśniewski,Marcin Copik,Hubert Niewiadomski,Torsten Hoefler |
発行日 | 2025-06-16 14:19:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google