Length-Induced Embedding Collapse in Transformer-based Models

要約

テキストの埋め込みによりさまざまなアプリケーションが可能になりますが、長いテキストではパフォーマンスが低下します。
この論文では、パフォーマンスの低下は、長いテキストの埋め込みが狭いスペースに崩れる「長さの崩壊」と呼ばれる現象によるものであることを発見しました。
この崩壊により、異なるテキスト長の埋め込み間で分散の不一致が生じ、最終的には下流のタスクのパフォーマンスに悪影響を及ぼします。
理論的には、セルフ アテンション メカニズムが本質的にローパス フィルターとして機能することを考慮することで、長いシーケンスによってセルフ アテンション メカニズムのローパス フィルター効果の減衰率が増加することが証明されます。
層が深くなると、過度のローパス フィルター処理により、トークン信号が直流 (DC) 成分のみを保持するようになります。これは、特に長いテキストの場合、入力トークンの特徴マップが狭い空間に崩れることを意味します。
上記の分析に基づいて、softmax() に温度を導入することで、望ましくない長さの崩壊制限を緩和し、より高い低フィルター減衰率を達成することを提案します。
TempScale と呼ばれるチューニング不要のメソッドは、複数のトランスフォーマーベースの埋め込みモデルにプラグインできます。
TempScale が既存の埋め込みモデル、特に長いテキスト入力を改善できることを経験的に実証し、Massive Text Embedding Benchmark (MTEB) の 40 データセットで最大 0.53% のパフォーマンス向上、特に焦点を当てた LongEmbed の 4 データセットで 0.82% のパフォーマンス向上をもたらします。
長いコンテキストの取得について。

要約(オリジナル)

Text embeddings enable various applications, but their performance deteriorates on longer texts. In this paper, we find that the performance degradation is due to a phenomenon called Length Collapse, where longer text embeddings collapse into a narrow space. This collapse results in a distributional inconsistency between embeddings of different text lengths, ultimately hurting the performance of downstream tasks. Theoretically, by considering the self-attention mechanism inherently functions as a low-pass filter, we prove that long sequences increase the attenuation rate of the low-pass filter effect of the self-attention mechanism. With layers going deeper, excessive low-pass filtering causes the token signals to retain only their Direct-Current (DC) component, which means the input token feature maps will collapse into a narrow space, especially in long texts. Based on the above analysis, we propose to mitigate the undesirable length collapse limitation by introducing a temperature in softmax(), which achieves a higher low-filter attenuation rate. The tuning-free method, called TempScale, can be plugged into multiple transformer-based embedding models. Empirically, we demonstrate that TempScale can improve existing embedding models, especially on long text inputs, bringing up to 0.53% performance gains on 40 datasets from Massive Text Embedding Benchmark (MTEB) and 0.82% performance gains on 4 datasets from LongEmbed, which specifically focuses on long context retrieval.

arxiv情報

著者 Yuqi Zhou,Sunhao Dai,Zhanshuo Cao,Xiao Zhang,Jun Xu
発行日 2024-10-31 17:55:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク