Evaluating the Robustness of Machine Reading Comprehension Models to Low Resource Entity Renaming

要約

タイトル:低リソースにおけるエンティティ名変更に対するマシン読解モデルの堅牢性の評価
要約:

– マシン読解モデルは、質問応答(QA)タスクにおいて優れた結果を示している。
– 最近では、これらのシステムが、SQuADなどのデータセットの保持テストセットで、人間よりも優れた結果を示すことが証明されている。
– しかし、これらのモデルの堅牢性は保証されていない。敵対的な生成例に対して評価された際に、性能が低下することがある。
– この研究では、アフリカなどの低リソース地域のエンティティに対するマシン読解モデルの堅牢性を探求している。
– 我々は、テストタイムの摂動を作成するための方法としてEntSwapを提案し、エンティティが名前変更されたテストセットを作成しました。特に、国、人物、国籍、場所、組織、都市のタイプのエンティティを名前変更してAfriSQuAD2を作成しました。
– 摂動したテストセットを使用して、3つの人気のあるMRCモデルの堅牢性を評価しました。
– 大規模モデルは、ベースモデルと比較して、新しいエンティティに対して優れたパフォーマンスを発揮することがわかりました。
– さらに、エンティティタイプである人物は、MRCモデルのパフォーマンスに高い挑戦を与えることが分析により示唆されました。

要約(オリジナル)

Question answering (QA) models have shown compelling results in the task of Machine Reading Comprehension (MRC). Recently these systems have proved to perform better than humans on held-out test sets of datasets e.g. SQuAD, but their robustness is not guaranteed. The QA model’s brittleness is exposed when evaluated on adversarial generated examples by a performance drop. In this study, we explore the robustness of MRC models to entity renaming, with entities from low-resource regions such as Africa. We propose EntSwap, a method for test-time perturbations, to create a test set whose entities have been renamed. In particular, we rename entities of type: country, person, nationality, location, organization, and city, to create AfriSQuAD2. Using the perturbed test set, we evaluate the robustness of three popular MRC models. We find that compared to base models, large models perform well comparatively on novel entities. Furthermore, our analysis indicates that entity type person highly challenges the MRC models’ performance.

arxiv情報

著者 Clemencia Siro,Tunde Oluwaseyi Ajayi
発行日 2023-04-06 15:29:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク