要約
埋め込みモデルは、情報検索 (IR) や意味的類似性の測定のタスクにとって重要ですが、長いテキストとそれに関連する位置バイアスの処理はまだ研究されていません。
この研究では、コンテンツの位置と入力サイズがテキストの埋め込みに及ぼす影響を調査します。
私たちの実験により、埋め込みモデルは、その位置エンコーディング メカニズムに関係なく、入力の先頭を不釣り合いに優先することが明らかになりました。
アブレーション研究では、文書の先頭で無関係なテキストを挿入または削除すると、末尾でのアブレーションよりも、変更された埋め込みと元の埋め込みの間のコサイン類似性が最大 12.3\% 減少することが実証されています。
回帰分析ではこのバイアスがさらに確認され、内容に依存しない場合でも、位置が最初から遠くなるにつれて文の重要性が低下します。
この効果は、前処理戦略と選択された位置エンコーディング技術から生じると仮説を立てています。
これらの発見は、検索システムの感度を定量化し、埋め込みモデルの堅牢性に対する新しいレンズを示唆しています。
要約(オリジナル)
Embedding models are crucial for tasks in Information Retrieval (IR) and semantic similarity measurement, yet their handling of longer texts and associated positional biases remains underexplored. In this study, we investigate the impact of content position and input size on text embeddings. Our experiments reveal that embedding models, irrespective of their positional encoding mechanisms, disproportionately prioritize the beginning of an input. Ablation studies demonstrate that insertion of irrelevant text or removal at the start of a document reduces cosine similarity between altered and original embeddings by up to 12.3\% more than ablations at the end. Regression analysis further confirms this bias, with sentence importance declining as position moves further from the start, even with with content-agnosticity. We hypothesize that this effect arises from pre-processing strategies and chosen positional encoding techniques. These findings quantify the sensitivity of retrieval systems and suggest a new lens towards embedding model robustness.
arxiv情報
著者 | Reagan J. Lee,Samarth Goel,Kannan Ramchandran |
発行日 | 2024-12-23 17:59:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google