Benchmarking Floworks against OpenAI & Anthropic: A Novel Framework for Enhanced LLM Function Calling

要約

大規模言語モデル (LLM) はさまざまなドメインで顕著な機能を示していますが、その経済的影響はツールの使用と関数呼び出しの課題によって制限されています。
このペーパーでは、LLM の関数呼び出し能力を大幅に強化する新しいアーキテクチャである ThorV2 を紹介します。
当社は、HubSpot CRM 運用に焦点を当てた包括的なベンチマークを開発し、ThorV2 を OpenAI および Anthropic の主要モデルと比較して評価します。
私たちの結果は、ThorV2 が単一 API 呼び出しタスクと複数 API 呼び出しタスクの両方において、精度、信頼性、遅延、コスト効率の点で既存のモデルよりも優れていることを示しています。
また、ThorV2 は従来のモデルと比べて信頼性がはるかに高く、複数ステップのタスクに対してより適切に拡張できることも示しています。
私たちの研究は、大幅に小型の LLM を使用した今日の最高パフォーマンスのモデルと比較して、より正確な関数呼び出しの魅力的な可能性を提供します。
これらの進歩は、より有能な AI アシスタントの開発と、現実世界のシナリオにおける LLM の広範な応用に重大な影響を及ぼします。

要約(オリジナル)

Large Language Models (LLMs) have shown remarkable capabilities in various domains, yet their economic impact has been limited by challenges in tool use and function calling. This paper introduces ThorV2, a novel architecture that significantly enhances LLMs’ function calling abilities. We develop a comprehensive benchmark focused on HubSpot CRM operations to evaluate ThorV2 against leading models from OpenAI and Anthropic. Our results demonstrate that ThorV2 outperforms existing models in accuracy, reliability, latency, and cost efficiency for both single and multi-API calling tasks. We also show that ThorV2 is far more reliable and scales better to multistep tasks compared to traditional models. Our work offers the tantalizing possibility of more accurate function-calling compared to today’s best-performing models using significantly smaller LLMs. These advancements have significant implications for the development of more capable AI assistants and the broader application of LLMs in real-world scenarios.

arxiv情報

著者 Nirav Bhan,Shival Gupta,Sai Manaswini,Ritik Baba,Narun Yadav,Hillori Desai,Yash Choudhary,Aman Pawar,Sarthak Shrivastava,Sudipta Biswas
発行日 2024-10-23 15:23:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク