DeeLM: Dependency-enhanced Large Language Model for Sentence Embeddings

要約

最近の研究では、文の埋め込みに大規模言語モデル (LLM) を使用することが提案されています。
ただし、既存の LLM のほとんどは、主に前方依存関係を取得し、後方依存関係を無視する自己回帰アーキテクチャで構築されています。
これまでの研究では、文の埋め込みを改善する際の後方依存関係の重要性を強調してきました。
この問題に対処するために、この論文では、まず、LLM における後方依存関係の学習が限定的であることを示す定量的証拠を提示します。
次に、文の埋め込みを改善するための依存性強化大規模言語モデル (DeeLM) と呼ばれる新しいアプローチを提案します。
具体的には、特定の LLM 層を超えると、セマンティック テキスト類似性 (STS) タスクのパフォーマンスが大幅に低下するという、LLM の転換点を発見しました。
STS は、文の埋め込みを評価するための重要なタスクです。
次に、転換点以降のレイヤーを抽出して双方向にし、後方依存関係を学習できるようにします。
広範な実験により、DeeLM がベースラインを上回り、さまざまな STS タスクにわたって最先端のパフォーマンスを達成することが実証されました。

要約(オリジナル)

Recent studies have proposed using large language models (LLMs) for sentence embeddings. However, most existing LLMs are built with an autoregressive architecture that primarily captures forward dependencies while neglecting backward dependencies. Previous work has highlighted the importance of backward dependencies in improving sentence embeddings. To address this issue, in this paper, we first present quantitative evidence demonstrating the limited learning of backward dependencies in LLMs. Then, we propose a novel approach called Dependency-Enhanced Large Language Model (DeeLM) to improve sentence embeddings. Specifically, we found a turning point in LLMs, where surpassing specific LLM layers leads to a significant performance drop in the semantic textual similarity (STS) task. STS is a crucial task for evaluating sentence embeddings. We then extract the layers after the turning point to make them bidirectional, allowing for the learning of backward dependencies. Extensive experiments demonstrate that DeeLM outperforms baselines and achieves state-of-the-art performance across various STS tasks.

arxiv情報

著者 Xianming Li,Jing Li
発行日 2023-11-09 11:53:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク