Squid: Long Context as a New Modality for Energy-Efficient On-Device Language Models

要約

本論文では、言語モデルにおける長いコンテキストのエネルギー効率的な処理のための新しいデコーダ-デコーダアーキテクチャであるDolphinを紹介する。我々のアプローチは、オンデバイスモデルに特有のエネルギー消費と待ち時間の大きな課題に対処する。Dolphinは、コンパクトな0.5Bパラメータデコーダを採用し、広範なコンテキスト情報をメモリ埋め込みに抽出することで、主要な7Bパラメータデコーダモデルの入力長を大幅に削減します。視覚言語モデルからヒントを得て、我々は画像埋め込みプロジェクターを長いテキストコンテキストのエンコードに再利用し、拡張コンテキストを効果的に別個のモダリティとして扱います。この革新的な方法により、拡張入力シーケンスに関連する典型的な計算オーバーヘッドなしに、大幅に長いコンテキストの処理が可能となる。実証的な評価では、応答の質を失うことなく、従来の全長コンテキスト処理手法と比較して、エネルギー効率で10倍、待ち時間で5倍の改善が実証された。私たちの研究は、リソースに制約のある環境において、長い文脈を理解する精度を維持しながら、エネルギー効率と応答性の高いAI技術に対する重要なニーズに対応し、オンデバイスアプリケーションのより持続可能でスケーラブルな言語モデルの開発に貢献します。この研究は、自然言語処理の広範な分野、特にリソースが限られた環境における効率的なモデル設計の分野に示唆を与える。エッジデバイス上でより洗練されたAI機能を実現することで、ドルフィンは、計算リソースが限られている幅広いアプリケーションにおいて、高度な言語処理への道を開きます。Dolphinモデルはhttps://huggingface.co/NexaAIDev/Dolphin。

要約(オリジナル)

This paper presents Dolphin, a novel decoder-decoder architecture for energy-efficient processing of long contexts in language models. Our approach addresses the significant energy consumption and latency challenges inherent in on-device models. Dolphin employs a compact 0.5B parameter decoder to distill extensive contextual information into a memory embedding, substantially reducing the input length for the primary 7B parameter decoder model. Inspired by vision-language models, we repurpose the image embedding projector to encode long textual contexts, effectively treating extended context as a distinct modality. This innovative method enables processing of substantially longer contexts without the typical computational overhead associated with extended input sequences. Empirical evaluations demonstrate a 10-fold improvement in energy efficiency and a 5-fold reduction in latency compared to conventional full-length context processing methods without losing quality of the response. Our work contributes to the development of more sustainable and scalable language models for on-device applications, addressing the critical need for energy-efficient and responsive AI technologies in resource-constrained environments while maintaining the accuracy to understand long contexts. This research has implications for the broader field of natural language processing, particularly in the domain of efficient model design for resource-limited settings. By enabling more sophisticated AI capabilities on edge devices, Dolphin paves the way for advanced language processing in a wide range of applications where computational resources are at a premium. The Dolphin model is publicly available at https://huggingface.co/NexaAIDev/Dolphin.

arxiv情報

著者 Wei Chen,Zhiyuan Li,Shuo Xin,Yihao Wang
発行日 2024-09-03 04:38:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク