要約
ツール学習を大規模な言語モデル(LLMS)と統合すると、外部ツールを活用することにより、複雑なタスクの処理に能力が拡大しました。
ただし、ツール学習のための既存のベンチマークは、重要な実世界のパーソナライズされたシナリオ、特に動的環境でのマルチホップ推論と帰納的知識適応を必要とするシナリオに対処しません。
このギャップを埋めるために、パーソナライズされたマルチホップツールの使用シナリオをシミュレートするファミリーベースの知識グラフ(kg)に基づいた新しいベンチマークであるFamilyToolを紹介します。
FamilyToolは、1〜3のリレーショナルホップ(例えば、家族のつながりや好みを推測する)にまたがるクエリでLLMSに挑戦し、モデルが目に見えないユーザーの好みや関係に適応しなければならない誘導KG設定を組み込みます。
さらに、Kgetoolを提案します。これらの設定でLLMSのツール使用能力を体系的に評価するための単純なKGの高等評価パイプライン。
実験により、最先端のLLMSの重大なパフォーマンスギャップが明らかになり、ホップの複雑さが増加すると精度が急激に低下し、誘導シナリオが重度の一般化障害を明らかにします。
これらの調査結果は、パーソナライズされた進化する実世界のコンテキストを処理する際の現在のLLMの限界を強調し、ツール学習フレームワークの進歩の緊急の必要性を強調しています。
FamilyToolは、複雑で動的な環境におけるLLMエージェントの推論、適応性、およびスケーラビリティを評価および前進させるための重要なリソースとして機能します。
コードとデータセットはGitHubで入手できます。
要約(オリジナル)
The integration of tool learning with Large Language Models (LLMs) has expanded their capabilities in handling complex tasks by leveraging external tools. However, existing benchmarks for tool learning inadequately address critical real-world personalized scenarios, particularly those requiring multi-hop reasoning and inductive knowledge adaptation in dynamic environments. To bridge this gap, we introduce FamilyTool, a novel benchmark grounded in a family-based knowledge graph (KG) that simulates personalized, multi-hop tool use scenarios. FamilyTool challenges LLMs with queries spanning 1 to 3 relational hops (e.g., inferring familial connections and preferences) and incorporates an inductive KG setting where models must adapt to unseen user preferences and relationships without re-training, a common limitation in prior approaches that compromises generalization. We further propose KGETool: a simple KG-augmented evaluation pipeline to systematically assess LLMs’ tool use ability in these settings. Experiments reveal significant performance gaps in state-of-the-art LLMs, with accuracy dropping sharply as hop complexity increases and inductive scenarios exposing severe generalization deficits. These findings underscore the limitations of current LLMs in handling personalized, evolving real-world contexts and highlight the urgent need for advancements in tool-learning frameworks. FamilyTool serves as a critical resource for evaluating and advancing LLM agents’ reasoning, adaptability, and scalability in complex, dynamic environments. Code and dataset are available at Github.
arxiv情報
著者 | Yuxin Wang,Yiran Guo,Yining Zheng,Zhangyue Yin,Shuo Chen,Jie Yang,Jiajun Chen,Xuanjing Huang,Xipeng Qiu |
発行日 | 2025-04-09 10:42:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google