Are ELECTRA’s Sentence Embeddings Beyond Repair? The Case of Semantic Textual Similarity

要約

BERT は高品質の文埋め込みを生成しますが、トレーニング前の計算コストが大きな欠点です。
対照的に、ELECTRA は費用対効果の高い事前トレーニング目標と下流タスクのパフォーマンスの向上を実現しますが、文の埋め込みのパフォーマンスは向上しません。
コミュニティは、意味論的テキスト類似性 (STS) を目的とした ELECTRA の文埋め込みの利用を暗黙のうちに停止しました。
ELECTRA 弁別器の最後の層を使用すると、以前の層と比較してパフォーマンスが大幅に低下していることがわかります。
私たちはこの低下を調査し、ELECTRA の埋め込みを修復する方法を考案し、新しい切り捨てモデル微調整 (TMFT) 方法を提案します。
TMFT は、STS ベンチマーク データセットのパラメーター効率を向上させながら、スピアマン相関係数を 8 ポイント以上改善します。
私たちは分析をさまざまなモデルのサイズと言語に拡張します。
さらに、大幅に少ないパラメータと大幅に小さい埋め込みサイズを使用して、BERT と同等のパフォーマンスを発揮する ELECTRA のジェネレーター モデルの驚くべき有効性を発見しました。
最後に、TMFT と単語類似性タスクまたはドメイン適応型事前トレーニングを組み合わせることにより、さらなるブーストが観察されました。

要約(オリジナル)

While BERT produces high-quality sentence embeddings, its pre-training computational cost is a significant drawback. In contrast, ELECTRA delivers a cost-effective pre-training objective and downstream task performance improvements, but not as performant sentence embeddings. The community tacitly stopped utilizing ELECTRA’s sentence embeddings for semantic textual similarity (STS). We notice a significant drop in performance when using the ELECTRA discriminator’s last layer in comparison to earlier layers. We explore this drop and devise a way to repair ELECTRA’s embeddings, proposing a novel truncated model fine-tuning (TMFT) method. TMFT improves the Spearman correlation coefficient by over 8 points while increasing parameter efficiency on the STS benchmark dataset. We extend our analysis to various model sizes and languages. Further, we discover the surprising efficacy of ELECTRA’s generator model, which performs on par with BERT, using significantly fewer parameters and a substantially smaller embedding size. Finally, we observe further boosts by combining TMFT with a word similarity task or domain adaptive pre-training.

arxiv情報

著者 Ivan Rep,David Dukić,Jan Šnajder
発行日 2024-02-20 16:43:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク