Repetition Improves Language Model Embeddings

要約

自己回帰大規模言語モデル (LLM) からのテキスト埋め込みの抽出を改善するための最近のアプローチは、データ、バックボーンの事前トレーニング済み言語モデルの改善、または命令によるタスクの差別化の改善に主に焦点を当てています。
この作業では、自己回帰モデルのアーキテクチャ上の制限に対処します。つまり、トークンの埋め込みには、入力内で後から現れるトークンからの情報を含めることはできません。
この制限に対処するために、私たちは、コンテキスト内で入力を 2 回繰り返し、2 回目に出現したものから埋め込みを抽出するという単純なアプローチを提案します。
初期のトークンのエコー埋め込みによって、後のトークンに関する情報をエンコードできるため、埋め込みに高品質の LLM を最大限に活用できることを示します。
MTEB リーダーボードでは、エコー エンベディングは従来のエンベディングよりもゼロショットで 9% 以上、微調整すると約 0.7% 向上しました。
Mistral-7B モデルを使用したエコー埋め込みは、合成微調整データを活用しない以前のオープンソース モデルと比較して、最先端の技術を実現します。

要約(オリジナル)

Recent approaches to improving the extraction of text embeddings from autoregressive large language models (LLMs) have largely focused on improvements to data, backbone pretrained language models, or improving task-differentiation via instructions. In this work, we address an architectural limitation of autoregressive models: token embeddings cannot contain information from tokens that appear later in the input. To address this limitation, we propose a simple approach, ‘echo embeddings,’ in which we repeat the input twice in context and extract embeddings from the second occurrence. We show that echo embeddings of early tokens can encode information about later tokens, allowing us to maximally leverage high-quality LLMs for embeddings. On the MTEB leaderboard, echo embeddings improve over classical embeddings by over 9% zero-shot and by around 0.7% when fine-tuned. Echo embeddings with a Mistral-7B model achieve state-of-the-art compared to prior open source models that do not leverage synthetic fine-tuning data.

arxiv情報

著者 Jacob Mitchell Springer,Suhas Kotha,Daniel Fried,Graham Neubig,Aditi Raghunathan
発行日 2024-02-23 17:25:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク