要約
ショートカット学習の問題は NLP で広く知られており、近年重要な研究の焦点となっています。
データ内の意図しない相関により、モデルは高度な言語理解と推論能力を発揮するはずだったタスクを簡単に解決できるようになります。
この調査論文では、機械読解 (MRC) の分野に焦点を当てます。MRC は、高度な言語の理解を示すための重要なタスクですが、さまざまな近道も伴います。
ショートカットの測定と軽減に利用可能な手法を要約し、ショートカットの研究をさらに進めるための提案で締めくくります。
重要なのは、MRC におけるショートカット緩和に関する 2 つの懸念事項を強調することです。(1) 効果的かつ再利用可能な評価に必要なコンポーネントであるパブリック チャレンジ セットが欠如していること、および (2) 他の分野で顕著な特定の緩和手法が欠如していることです。
要約(オリジナル)
The issue of shortcut learning is widely known in NLP and has been an important research focus in recent years. Unintended correlations in the data enable models to easily solve tasks that were meant to exhibit advanced language understanding and reasoning capabilities. In this survey paper, we focus on the field of machine reading comprehension (MRC), an important task for showcasing high-level language understanding that also suffers from a range of shortcuts. We summarize the available techniques for measuring and mitigating shortcuts and conclude with suggestions for further progress in shortcut research. Importantly, we highlight two concerns for shortcut mitigation in MRC: (1) the lack of public challenge sets, a necessary component for effective and reusable evaluation, and (2) the lack of certain mitigation techniques that are prominent in other areas.
arxiv情報
著者 | Xanh Ho,Johannes Mario Meissner,Saku Sugawara,Akiko Aizawa |
発行日 | 2023-09-06 04:08:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google