2-Tier SimCSE: Elevating BERT for Robust Sentence Embeddings

要約

セマンティックなニュアンスをキャプチャし、多様なコンテキスト全体でよく一般化する効果的な文の埋め込みは、自然言語処理タスクに不可欠です。
センチメント分析、意味テキストの類似性(STS)、および言い換えの検出のためにミンバートモデルを微調整するために対照的な学習を使用して、SIMCSE(文の埋め込みの単純な対照学習)を適用することにより、この課題に対処します。
私たちの貢献には、3つの異なるドロップアウト技術の実験、すなわち、標準のドロップアウト、カリキュラムドロップアウト、適応型ドロップアウトに取り組むための適応ドロップアウト、STSタスクに関する監視なしと監督の両方のSIMCSEを組み合わせた新しい2層SIMCSE微調整モデルを提案することが含まれます。
言い換えおよびSSTタスクの学習の可能性。
私たちの調査結果は、SIMCSEの有効性を示しており、2層モデルはSTSタスクで優れたパフォーマンスを達成し、3つの下流タスクすべてにわたって平均テストスコアが0.742です。
エラー分析の結果は、複雑な感情を処理する際の課題と、言い換えの検出のための語彙の重複への依存、将来の研究の領域を強調していることを明らかにしています。
アブレーション研究では、単一タスクの監視なしのSIMCSEモデルで適応型ドロップアウトを削除することで、STSタスクのパフォーマンスが向上し、パラメーターが追加されたために過剰に適合していることが明らかになりました。
言い換えおよびSSTタスクに関するSIMCSEモデルからの学習を転送しても、パフォーマンスは向上しませんでした。

要約(オリジナル)

Effective sentence embeddings that capture semantic nuances and generalize well across diverse contexts are crucial for natural language processing tasks. We address this challenge by applying SimCSE (Simple Contrastive Learning of Sentence Embeddings) using contrastive learning to fine-tune the minBERT model for sentiment analysis, semantic textual similarity (STS), and paraphrase detection. Our contributions include experimenting with three different dropout techniques, namely standard dropout, curriculum dropout, and adaptive dropout, to tackle overfitting, proposing a novel 2-Tier SimCSE Fine-tuning Model that combines both unsupervised and supervised SimCSE on STS task, and exploring transfer learning potential for Paraphrase and SST tasks. Our findings demonstrate the effectiveness of SimCSE, with the 2-Tier model achieving superior performance on the STS task, with an average test score of 0.742 across all three downstream tasks. The results of error analysis reveals challenges in handling complex sentiments and reliance on lexical overlap for paraphrase detection, highlighting areas for future research. The ablation study revealed that removing Adaptive Dropout in the Single-Task Unsupervised SimCSE Model led to improved performance on the STS task, indicating overfitting due to added parameters. Transfer learning from SimCSE models on Paraphrase and SST tasks did not enhance performance, suggesting limited transferability of knowledge from the STS task.

arxiv情報

著者 Yumeng Wang,Ziran Zhou,Junjin Wang
発行日 2025-01-23 15:36:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク