AweDist: Attention-aware Embedding Distillation for New Input Token Embeddings

要約

現在の言語モデルは、前脱出時間で決定された静的な語彙に依存しており、これにより、元の語彙で過小評価されているドメインのパフォーマンスの低下と計算コストの増加につながる可能性があります。
新しいトークンを追加して、新しい埋め込みの適切な初期化と組み合わせると、この問題を解決することができます。
ただし、既存の埋め込み初期化方法には、追加のモジュールの高価なさらなるトレーニングまたは事前削除が必要です。
この論文では、Awedistを提案し、元のトークン化を使用して得られた表現を蒸留することにより、新しいトークンの高品質の入力埋め込みをすばやく学ぶことができることを示します。
幅広いオープンウェイトモデルを使用した実験結果は、Awedistが強力なベースラインでも優れていることを示しています。

要約(オリジナル)

Current language models rely on static vocabularies determined at pretraining time, which can lead to decreased performance and increased computational cost for domains underrepresented in the original vocabulary. New tokens can be added to solve this problem, when coupled with a good initialization for their new embeddings. However, existing embedding initialization methods either require expensive further training or pretraining of additional modules. In this paper, we propose AweDist and show that by distilling representations obtained using the original tokenization, we can quickly learn high-quality input embeddings for new tokens. Experimental results with a wide range of open-weight models show that AweDist is able to outperform even strong baselines.

arxiv情報

著者 Konstantin Dobler,Desmond Elliott,Gerard de Melo
発行日 2025-05-26 15:35:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク