GLS-CSC: A Simple but Effective Strategy to Mitigate Chinese STM Models’ Over-Reliance on Superficial Clue

要約

事前トレーニングされたモデルは、中国語の短文マッチング (STM) タスクで成功を収めていますが、表面的な手がかりに依存することが多く、堅牢な予測が不足します。
この問題に対処するには、STM モデルに対する表面的な手がかりの影響を分析して軽減することが重要です。
私たちの研究は、中国語のテキストペアの意味上の類似性を測定するために一般的に使用される編集距離機能への過度の依存を調査することを目的としていますが、これは表面的な手がかりであると考えられます。
STM モデルの表面的な手がかりへの過度の依存を軽減するために、表面的な手がかりを含む段階的に学習するサンプル (GLS-CSC) と呼ばれる新しいリサンプリング トレーニング戦略を提案します。
ドメイン内 (I.D.)、堅牢性 (Rob.)、およびドメイン外 (O.O.D.) のテスト セットの包括的な評価を通じて、GLS-CSC が中国の STM モデルの堅牢性と一般化の強化という点で既存の方法よりも優れていることを実証しました。

さらに、既存の手法を詳細に分析し、その共通性を明らかにします。

要約(オリジナル)

Pre-trained models have achieved success in Chinese Short Text Matching (STM) tasks, but they often rely on superficial clues, leading to a lack of robust predictions. To address this issue, it is crucial to analyze and mitigate the influence of superficial clues on STM models. Our study aims to investigate their over-reliance on the edit distance feature, commonly used to measure the semantic similarity of Chinese text pairs, which can be considered a superficial clue. To mitigate STM models’ over-reliance on superficial clues, we propose a novel resampling training strategy called Gradually Learn Samples Containing Superficial Clue (GLS-CSC). Through comprehensive evaluations of In-Domain (I.D.), Robustness (Rob.), and Out-Of-Domain (O.O.D.) test sets, we demonstrate that GLS-CSC outperforms existing methods in terms of enhancing the robustness and generalization of Chinese STM models. Moreover, we conduct a detailed analysis of existing methods and reveal their commonality.

arxiv情報

著者 Yanrui Du,Sendong Zhao,Yuhan Chen,Rai Bai,Jing Liu,Hua Wu,Haifeng Wang,Bing Qin
発行日 2023-09-08 07:10:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク