Retrieval Backward Attention without Additional Training: Enhance Embeddings of Large Language Models via Repetition

要約

言語モデルは、テキストをユークリッド空間に埋め込む関数と見なすことができます。ここでは、埋め込みベクトルの品質がモデルのパフォーマンスを直接決定し、そのようなニューラルネットワークのトレーニングにはさまざまな不確実性が含まれます。
このペーパーでは、シンプルで簡単に実装可能な方法を介して、ゼロショット設定で事前に訓練された言語モデルのパフォーマンスを改善することに焦点を当てています。
コンテキスト情報エンコーディングを強化するための新しい後方注意メカニズムを提案します。
中国の大規模なテキスト埋め込みベンチマーク(C-MTEB)で評価されたこのアプローチは、複数のタスクにわたって大幅な改善を達成し、ゼロショット学習能力を進めるための貴重な洞察を提供します。

要約(オリジナル)

Language models can be viewed as functions that embed text into Euclidean space, where the quality of the embedding vectors directly determines model performance, training such neural networks involves various uncertainties. This paper focuses on improving the performance of pre-trained language models in zero-shot settings through a simple and easily implementable method. We propose a novel backward attention mechanism to enhance contextual information encoding. Evaluated on the Chinese Massive Text Embedding Benchmark (C-MTEB), our approach achieves significant improvements across multiple tasks, providing valuable insights for advancing zero-shot learning capabilities.

arxiv情報

著者 Yifei Duan,Raphael Shang,Deng Liang,Yongqiang Cai
発行日 2025-03-28 07:17:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク