要約
事前トレーニング済み言語モデル (PLM) の場合、ノイズの影響を受けやすいことが最近、サブワード セグメンテーションに関連付けられています。
ただし、セグメンテーションのどの側面が彼らの理解に影響を与えるかは不明です。
この研究では、ノイズによって引き起こされるさまざまな中断されたセグメンテーションに対する PLM の堅牢性を評価します。
Contrastive Lexical Semantic (CoLeS) プローブと呼ばれるサブワード セグメンテーションの評価フレームワークが提案されています。
これは、標準語とノイズのある単語のペアを含む対照的なデータセットを生成することにより、ノイズおよび評価プロトコルの下でのセグメンテーション破損の体系的な分類を提供します。
実験結果によると、ノイズによって完全に異なるサブワード、小さなサブワードの断片、または多数の追加のサブワードが導入された場合、特にサブワードが他のサブワード内に挿入されている場合、PLM は単語の意味を正確に計算できないことが示されています。
要約(オリジナル)
For Pretrained Language Models (PLMs), their susceptibility to noise has recently been linked to subword segmentation. However, it is unclear which aspects of segmentation affect their understanding. This study assesses the robustness of PLMs against various disrupted segmentation caused by noise. An evaluation framework for subword segmentation, named Contrastive Lexical Semantic (CoLeS) probe, is proposed. It provides a systematic categorization of segmentation corruption under noise and evaluation protocols by generating contrastive datasets with canonical-noisy word pairs. Experimental results indicate that PLMs are unable to accurately compute word meanings if the noise introduces completely different subwords, small subword fragments, or a large number of additional subwords, particularly when they are inserted within other subwords.
arxiv情報
著者 | Xinzhe Li,Ming Liu,Shang Gao |
発行日 | 2023-06-27 07:51:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google