Octopus v2: On-device language model for super agent

要約

言語モデルは、様々なソフトウェア・アプリケーション、特に自動ワークフローに関連するタスクにおいて有効性を示してきた。これらのモデルは、AIエージェントの作成に不可欠な、関数を呼び出す重要な能力を持っている。クラウド環境における大規模な言語モデルの性能は高いものの、プライバシーやコストに関する懸念がつきまといます。関数呼び出しのための現在のオンデバイスモデルは、待ち時間と精度の問題に直面している。本研究では、20億個のパラメータを持つオンデバイスモデルを強化し、精度と待ち時間の両方でGPT-4の性能を上回り、コンテキスト長を95%削減する新しい手法を提案する。RAGベースの関数呼び出し機構を持つLlama-7Bと比較すると、本手法はレイテンシを35倍向上させる。この方法は、実稼働環境における様々なエッジ・デバイスへの展開に適したレベルまでレイテンシを低減し、実世界のアプリケーションに必要な性能と一致する。

要約(オリジナル)

Language models have shown effectiveness in a variety of software applications, particularly in tasks related to automatic workflow. These models possess the crucial ability to call functions, which is essential in creating AI agents. Despite the high performance of large-scale language models in cloud environments, they are often associated with concerns over privacy and cost. Current on-device models for function calling face issues with latency and accuracy. Our research presents a new method that empowers an on-device model with 2 billion parameters to surpass the performance of GPT-4 in both accuracy and latency, and decrease the context length by 95\%. When compared to Llama-7B with a RAG-based function calling mechanism, our method enhances latency by 35-fold. This method reduces the latency to levels deemed suitable for deployment across a variety of edge devices in production environments, aligning with the performance requisites for real-world applications.

arxiv情報

著者 Wei Chen,Zhiyuan Li
発行日 2024-04-03 17:40:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク