Contrastive Learning-based Sentence Encoders Implicitly Weight Informative Words

要約

センテンス エンコーダのパフォーマンスは、コントラスト損失を使用した微調整の簡単な実践を通じて大幅に向上できます。
当然の疑問が生じます。対照学習中にモデルはどのような特性を獲得するのでしょうか?
この論文は、対比ベースの文エンコーダが情報理論量に基づいて単語を暗黙的に重み付けすることを理論的および実験的に示します。
つまり、より有益な単語の重みは大きくなり、他の単語の重みは小さくなります。
この理論では、対比学習目標の最適値の下限では、単語埋め込みのノルムが周囲の単語の分布に関連する情報利得を反映すると述べています。
また、さまざまなモデル、複数のデータセット、モデルの陰的な重み付けを測定する 2 つの方法 (統合勾配と SHAP)、および 2 つの情報理論量 (情報利得と自己情報) を使用した包括的な実験も実施します。
この結果は、対照的な微調整によって有益な単語が強調されるという経験的証拠を提供します。

要約(オリジナル)

The performance of sentence encoders can be significantly improved through the simple practice of fine-tuning using contrastive loss. A natural question arises: what characteristics do models acquire during contrastive learning? This paper theoretically and experimentally shows that contrastive-based sentence encoders implicitly weight words based on information-theoretic quantities; that is, more informative words receive greater weight, while others receive less. The theory states that, in the lower bound of the optimal value of the contrastive learning objective, the norm of word embedding reflects the information gain associated with the distribution of surrounding words. We also conduct comprehensive experiments using various models, multiple datasets, two methods to measure the implicit weighting of models (Integrated Gradients and SHAP), and two information-theoretic quantities (information gain and self-information). The results provide empirical evidence that contrastive fine-tuning emphasizes informative words.

arxiv情報

著者 Hiroto Kurita,Goro Kobayashi,Sho Yokoi,Kentaro Inui
発行日 2023-10-24 15:22:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク