JTCSE: Joint Tensor-Modulus Constraints and Cross-Attention for Unsupervised Contrastive Learning of Sentence Embeddings

要約

監視されていない対照学習は、自然言語処理のホットな研究トピックになりました。
既存の作業は通常、対照的な学習において高次元のセマンティック空間における正と負のサンプルの表現の方向分布を制約することを目的としていますが、セマンティック表現テンソルは弾性率と方向の両方の特徴を持っています。
%したがって、最初に、セマンティック表現テンソルの弾性率の制約を目的とするトレーニング目標を提案し、対照的な学習における正のサンプル間のアライメントを強化します。
したがって、最初に、セマンティック表現テンソルに弾性率の制約を課すように設計されたトレーニング目標を提案し、対照的な学習における正のサンプル間のアライメントを強化します。
次に、Bertのようなモデルは、注意を沈めるという現象に苦しんでおり、セマンティック情報を集計するCLSトークンに注意の欠如につながります。
これに応じて、Twinタワーのアンサンブルモデルの間で相互参加構造を提案して、CLSトークンへのモデルの注意を高め、CLSプーリングの品質を最適化します。
上記の2つの動機を組み合わせて、新しい\ textbf {j} oint \ textbf {t} ensor表現モジュラス制約と\ textbf {c} ross-attention conterived contrastive learning \ textbf {s} entence \ textbf {e} mdind framect jtcse jtcse in semance framectecseを提案します。
タスクと実験結果は、JTCSEのツインタワーアンサンブルモデルとシングルタワー蒸留モデルが他のベースラインを上回り、現在のソタになることを示しています。
さらに、大規模なゼロショット下流タスク評価を実施しました。これは、JTCSEが130を超えるタスクで全体的に他のベースラインよりも優れていることを示しています。

要約(オリジナル)

Unsupervised contrastive learning has become a hot research topic in natural language processing. Existing works usually aim at constraining the orientation distribution of the representations of positive and negative samples in the high-dimensional semantic space in contrastive learning, but the semantic representation tensor possesses both modulus and orientation features, and the existing works ignore the modulus feature of the representations and cause insufficient contrastive learning. % Therefore, we firstly propose a training objective that aims at modulus constraints on the semantic representation tensor, to strengthen the alignment between the positive samples in contrastive learning. Therefore, we first propose a training objective that is designed to impose modulus constraints on the semantic representation tensor, to strengthen the alignment between positive samples in contrastive learning. Then, the BERT-like model suffers from the phenomenon of sinking attention, leading to a lack of attention to CLS tokens that aggregate semantic information. In response, we propose a cross-attention structure among the twin-tower ensemble models to enhance the model’s attention to CLS token and optimize the quality of CLS Pooling. Combining the above two motivations, we propose a new \textbf{J}oint \textbf{T}ensor representation modulus constraint and \textbf{C}ross-attention unsupervised contrastive learning \textbf{S}entence \textbf{E}mbedding representation framework JTCSE, which we evaluate in seven semantic text similarity computation tasks, and the experimental results show that JTCSE’s twin-tower ensemble model and single-tower distillation model outperform the other baselines and become the current SOTA. In addition, we have conducted an extensive zero-shot downstream task evaluation, which shows that JTCSE outperforms other baselines overall on more than 130 tasks.

arxiv情報

著者 Tianyu Zong,Hongzhu Yi,Bingkang Shi,Yuanxiang Wang,Jungang Xu
発行日 2025-05-05 05:09:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク