CSE-SFP: Enabling Unsupervised Sentence Representation Learning via a Single Forward Pass

要約

情報の検索と計算言語学の基本的なタスクとして、文の表現は、テキストクラスタリング、コンテンツ分析、質問回答システム、Web検索などの幅広い実用的なアプリケーションに大きな意味を持ちます。
事前に訓練された言語モデル(PLMS)の最近の進歩は、特にBERTのような識別PLMSを中心とした監視されていない埋め込み派生方法を通じて、この分野で顕著な進歩を促進しています。
ただし、時間と計算上の制約により、一般的にはるかに大きなパラメーターサイズを持っている生成PLMSと監視されていない文の表現を統合しようとする努力はほとんどありません。
学界と産業の両方の最先端のモデルが主に生成アーキテクチャに基づいていることを考えると、デコーダーのみのPLMに合わせた効率的な教師のテキスト表現フレームワークが差し迫った必要性があります。
この懸念に対処するために、生成モデルの構造的特性を活用する革新的な方法であるCSE-SFPを提案します。
既存の戦略と比較して、CSE-SFPは、効果的な監視されていない対照学習を実行するために単一のフォワードパスのみを必要とします。
厳密な実験は、CSE-SFPが高品質の埋め込みを生成するだけでなく、トレーニング時間とメモリの消費の両方を大幅に削減することを示しています。
さらに、アライメントと均一性を共同で評価する2つの比率メトリックを導入し、エンコードモデルのセマンティック空間特性を評価するためのより堅牢な手段を提供します。

要約(オリジナル)

As a fundamental task in Information Retrieval and Computational Linguistics, sentence representation has profound implications for a wide range of practical applications such as text clustering, content analysis, question-answering systems, and web search. Recent advances in pre-trained language models (PLMs) have driven remarkable progress in this field, particularly through unsupervised embedding derivation methods centered on discriminative PLMs like BERT. However, due to time and computational constraints, few efforts have attempted to integrate unsupervised sentence representation with generative PLMs, which typically possess much larger parameter sizes. Given that state-of-the-art models in both academia and industry are predominantly based on generative architectures, there is a pressing need for an efficient unsupervised text representation framework tailored to decoder-only PLMs. To address this concern, we propose CSE-SFP, an innovative method that exploits the structural characteristics of generative models. Compared to existing strategies, CSE-SFP requires only a single forward pass to perform effective unsupervised contrastive learning. Rigorous experimentation demonstrates that CSE-SFP not only produces higher-quality embeddings but also significantly reduces both training time and memory consumption. Furthermore, we introduce two ratio metrics that jointly assess alignment and uniformity, thereby providing a more robust means for evaluating the semantic spatial properties of encoding models.

arxiv情報

著者 Bowen Zhang,Zixin Song,Chunping Li
発行日 2025-05-01 08:27:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク