DenoSent: A Denoising Objective for Self-Supervised Sentence Representation Learning

要約

対比学習ベースの方法が文表現学習の主流を占めています。
これらの手法は、類似した文表現を近づけたり、異なる文表現を押しのけたりすることで表現空間を正規化し、意味論的テキスト類似性 (STS) タスクなど、さまざまな NLP タスクで効果的であることが証明されています。
ただし、これらの方法では文間の観点からのみ学習するため、つまり、監視信号がデータ サンプル間の関係から得られるため、詳細なセマンティクスを学習することは困難です。
この研究では、別の視点、つまり文内視点を継承した新しいノイズ除去目標を提案します。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、それを元の形式に復元するようにモデルをトレーニングします。
私たちの経験的評価は、このアプローチが意味論的テキスト類似性 (STS) と幅広い転送タスクの両方で競合する結果をもたらし、対照学習ベースの方法と比較して優れていることを示しています。
特に、提案された文内ノイズ除去目標は、既存の文間対比手法を補完し、それらと統合してパフォーマンスをさらに向上させることができます。
私たちのコードは https://github.com/xinghaow99/DenoSent で入手できます。

要約(オリジナル)

Contrastive-learning-based methods have dominated sentence representation learning. These methods regularize the representation space by pulling similar sentence representations closer and pushing away the dissimilar ones and have been proven effective in various NLP tasks, e.g., semantic textual similarity (STS) tasks. However, it is challenging for these methods to learn fine-grained semantics as they only learn from the inter-sentence perspective, i.e., their supervision signal comes from the relationship between data samples. In this work, we propose a novel denoising objective that inherits from another perspective, i.e., the intra-sentence perspective. By introducing both discrete and continuous noise, we generate noisy sentences and then train our model to restore them to their original form. Our empirical evaluations demonstrate that this approach delivers competitive results on both semantic textual similarity (STS) and a wide range of transfer tasks, standing up well in comparison to contrastive-learning-based methods. Notably, the proposed intra-sentence denoising objective complements existing inter-sentence contrastive methodologies and can be integrated with them to further enhance performance. Our code is available at https://github.com/xinghaow99/DenoSent.

arxiv情報

著者 Xinghao Wang,Junliang He,Pengyu Wang,Yunhua Zhou,Tianxiang Sun,Xipeng Qiu
発行日 2024-01-24 17:48:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク