要約
大規模な言語モデルは、外部ツールや API 呼び出しを備えた場合に自律エージェントとして実行する際に優れた価値を実証しています。
それにもかかわらず、複雑なタスクを実行する潜在能力を効果的に活用するには、関数呼び出し機能の強化が不可欠です。
このペーパーでは、既存の関数呼び出しモデルの重大なギャップを特定します。このギャップでは、多くの場合、特定の命名規則によって誤解されることが原因で、ベンチマーク間でパフォーマンスが大幅に異なります。
このような問題に対処するために、オンデバイス関数呼び出し用に特別に設計された新しい基盤モデル ファミリである Hammer を紹介します。
Hammer は、無関係な関数に対するモデルの感度を高め、誤解を招くことを最小限に抑えるために関数マスキング技術を組み込む拡張データセットを採用しています。
私たちの経験的評価により、Hammer が大規模なモデルよりも優れたパフォーマンスを発揮するだけでなく、さまざまなベンチマークにわたって堅牢な一般化を示し、sota 結果を達成できることが明らかになりました。
私たちのオープンソースへの貢献には、無関係性検出のための特殊なデータセット、強化された一般化のためのチューニング フレームワーク、および関数呼び出しパフォーマンスの新しい標準を確立する Hammer モデルが含まれます。
要約(オリジナル)
Large language models have demonstrated impressive value in performing as autonomous agents when equipped with external tools and API calls. Nonetheless, effectively harnessing their potential for executing complex tasks crucially relies on enhancements in their function calling capabilities. This paper identifies a critical gap in existing function calling models, where performance varies significantly across benchmarks, often due to being misled by specific naming conventions. To address such an issue, we introduce Hammer, a novel family of foundation models specifically engineered for on-device function calling. Hammer employs an augmented dataset that enhances models’ sensitivity to irrelevant functions and incorporates function masking techniques to minimize misleading. Our empirical evaluations reveal that Hammer not only outperforms larger models but also demonstrates robust generalization across diverse benchmarks, achieving sota results. Our open source contributions include a specialized dataset for irrelevance detection, a tuning framework for enhanced generalization, and the Hammer models, establishing a new standard for function calling performance.
arxiv情報
著者 | Qiqiang Lin,Muning Wen,Qiuying Peng,Guanyu Nie,Junwei Liao,Jun Wang,Xiaoyun Mo,Jiamu Zhou,Cheng Cheng,Yin Zhao,Jun Wang,Weinan Zhang |
発行日 | 2024-10-10 17:29:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google