AdaptiVocab: Enhancing LLM Efficiency in Focused Domains through Lightweight Vocabulary Adaptation

要約

大規模な言語モデル(LLM)は、汎用モデルとして印象的な汎用性を示しています。
ただし、それらの幅広い適用性は、特に各ステップにフォワードパスが必要な自動回帰デコードで、高コストの計算オーバーヘッドでもたらされます。
ドメイン固有の設定では、汎用機能は不要であり、効率のために交換できます。
この作業では、ドメインの適応に関する新しい視点を取り、語彙を関心のあるドメインに適応させることにより、レイテンシと計算コストを削減します。
低リソースドメインのLLM効率を高めるために設計された語彙適応のエンドツーエンドアプローチであるAdaptivoCabを紹介します。
AdaptivoCabは、トークン化装置およびアーキテクチャに適用でき、トークンをドメイン固有のN-GRAMベースのトークンに置き換えることで語彙を変更し、入力処理と出力生成の両方に必要なトークンの数を減らすことができます。
AdaptivoCabは、既存の埋め込みの指数関数的に重み付けされた組み合わせを使用して、新しいNトークンエンゲーションを初期化し、単一のGPUで効率的に実行できる軽量の微調整位相を採用します。
3つのニッチドメインで2つの7B LLMを評価し、効率、生成品質、およびエンドタスクのパフォーマンスを評価します。
私たちの結果は、AdaptivoCabがパフォーマンスを損なうことなくトークンの使用を25%以上削減することを示しています

要約(オリジナル)

Large Language Models (LLMs) have shown impressive versatility as general purpose models. However, their broad applicability comes at a high-cost computational overhead, particularly in auto-regressive decoding where each step requires a forward pass. In domain-specific settings, general-purpose capabilities are unnecessary and can be exchanged for efficiency. In this work, we take a novel perspective on domain adaptation, reducing latency and computational costs by adapting the vocabulary to focused domains of interest. We introduce AdaptiVocab, an end-to-end approach for vocabulary adaptation, designed to enhance LLM efficiency in low-resource domains. AdaptiVocab can be applied to any tokenizer and architecture, modifying the vocabulary by replacing tokens with domain-specific n-gram-based tokens, thereby reducing the number of tokens required for both input processing and output generation. AdaptiVocab initializes new n-token embeddings using an exponentially weighted combination of existing embeddings and employs a lightweight fine-tuning phase that can be efficiently performed on a single GPU. We evaluate two 7B LLMs across three niche domains, assessing efficiency, generation quality, and end-task performance. Our results show that AdaptiVocab reduces token usage by over 25% without compromising performance

arxiv情報

著者 Itay Nakash,Nitay Calderon,Eyal Ben David,Elad Hoffer,Roi Reichart
発行日 2025-03-25 14:18:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク