要約
言語モデルは、さまざまなソフトウェア アプリケーション、特に自動ワークフローに関連するタスクにおいて有効性を示しています。
これらのモデルは、AI エージェントの作成に不可欠な関数を呼び出す重要な機能を備えています。
クラウド環境における大規模言語モデルは高いパフォーマンスを発揮しますが、多くの場合、プライバシーとコストに関する懸念が伴います。
関数呼び出し用の現在のオンデバイス モデルは、遅延と精度の問題に直面しています。
私たちの研究では、20 億のパラメーターを備えたオンデバイス モデルを強化して、精度と遅延の両方で GPT-4 のパフォーマンスを上回り、コンテキストの長さを 95\% 短縮する新しい方法を紹介します。
RAG ベースの関数呼び出しメカニズムを備えた Llama-7B と比較すると、私たちの方法ではレイテンシが 35 倍向上します。
この方法により、実世界のアプリケーションのパフォーマンス要件に合わせて、実稼働環境のさまざまなエッジ デバイスにわたる展開に適しているとみなされるレベルまで遅延が削減されます。
要約(オリジナル)
Language models have shown effectiveness in a variety of software applications, particularly in tasks related to automatic workflow. These models possess the crucial ability to call functions, which is essential in creating AI agents. Despite the high performance of large-scale language models in cloud environments, they are often associated with concerns over privacy and cost. Current on-device models for function calling face issues with latency and accuracy. Our research presents a new method that empowers an on-device model with 2 billion parameters to surpass the performance of GPT-4 in both accuracy and latency, and decrease the context length by 95\%. When compared to Llama-7B with a RAG-based function calling mechanism, our method enhances latency by 35-fold. This method reduces the latency to levels deemed suitable for deployment across a variety of edge devices in production environments, aligning with the performance requisites for real-world applications.
arxiv情報
著者 | Wei Chen,Zhiyuan Li |
発行日 | 2024-04-16 16:39:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google