要約
トランスベースの大手言語モデル(LLMS)は、注意メカニズムの二次複雑さとキー価値(kV)キャッシュからのメモリ要求の増加により、エッジデバイスの長いシーケンスを処理する際に課題に遭遇します。
既存のKVキャッシュの最適化は、長年の出力タスクにおける不可逆的なトークンの立ち退きに苦労していますが、代替シーケンスモデリングアーキテクチャは、確立されたトランスインフラストラクチャ内で採用するのに費用がかかることが証明されています。
トレーニング可能なメモリゲーティングモジュールを介して、圧縮メモリを変圧器ベースのLLMに統合する無限コンテキストのメモリ効率の高いソリューションであるEdgeInfiniteを提示します。
このアプローチは、標準のトランスアーキテクチャとの完全な互換性を維持し、パラメーターのごく一部のみを微調整する必要があり、長いおよび短いコンテキストタスクルーティングのメモリゲーティングモジュールの選択的アクティブ化を可能にします。
実験結果は、EdgeInfiniteがメモリの消費と最初のトークンまでの時間を最適化しながら、長いコンテキストベンチマークでベースライン変圧器ベースのLLMに匹敵するパフォーマンスを達成することを示しています。
要約(オリジナル)
Transformer-based large language models (LLMs) encounter challenges in processing long sequences on edge devices due to the quadratic complexity of attention mechanisms and growing memory demands from Key-Value (KV) cache. Existing KV cache optimizations struggle with irreversible token eviction in long-output tasks, while alternative sequence modeling architectures prove costly to adopt within established Transformer infrastructure. We present EdgeInfinite, a memory-efficient solution for infinite contexts that integrates compressed memory into Transformer-based LLMs through a trainable memory-gating module. This approach maintains full compatibility with standard Transformer architectures, requiring fine-tuning only a small part of parameters, and enables selective activation of the memory-gating module for long and short context task routing. The experimental result shows that EdgeInfinite achieves comparable performance to baseline Transformer-based LLM on long context benchmarks while optimizing memory consumption and time to first token.
arxiv情報
著者 | Jiyu Chen,Shuang Peng,Daxiong Luo,Fan Yang,Renshou Wu,Fangyuan Li,Xiaoxin Chen |
発行日 | 2025-03-28 07:26:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google