要約
より大規模で高性能なモデルは、自然言語処理における長年の頑健性の問題を解決するのだろうか?私たちは、異なるアーキテクチャの選択と事前学習の目的にまたがる、サイズの異なる20以上のモデルを用いて、この疑問を調査する。(a)アウトオブドメインテストセットとチャレンジテストセット、(b)チェックリストによるビヘイビアテスト、(c)コントラストセット、(d)敵対的入力を用いて評価を行った。我々の分析により、すべてのアウトオブドメインテストが頑健性の洞察を提供するわけではないことが明らかになった。チェックリストとコントラストセットで評価すると、モデルの性能に大きなギャップがあることがわかる。最後に、モデルの敵対的評価のための現在のアプローチは、それ自体に問題があることを指摘する。簡単に妨害される可能性があり、現在の形では、モデルの頑健性を十分に深く調査していない。我々は、自然言語処理における頑健性の問題はまだ解決されていないだけでなく、頑健性を測定するアプローチの一部さえも見直す必要があると結論づける。
要約(オリジナル)
Do larger and more performant models resolve NLP’s longstanding robustness issues? We investigate this question using over 20 models of different sizes spanning different architectural choices and pretraining objectives. We conduct evaluations using (a) out-of-domain and challenge test sets, (b) behavioral testing with CheckLists, (c) contrast sets, and (d) adversarial inputs. Our analysis reveals that not all out-of-domain tests provide insight into robustness. Evaluating with CheckLists and contrast sets shows significant gaps in model performance; merely scaling models does not make them adequately robust. Finally, we point out that current approaches for adversarial evaluations of models are themselves problematic: they can be easily thwarted, and in their current forms, do not represent a sufficiently deep probe of model robustness. We conclude that not only is the question of robustness in NLP as yet unresolved, but even some of the approaches to measure robustness need to be reassessed.
arxiv情報
| 著者 | Ashim Gupta,Rishanth Rajendhran,Nathan Stringham,Vivek Srikumar,Ana Marasović |
| 発行日 | 2024-04-03 15:07:45+00:00 |
| arxivサイト | arxiv_id(pdf) |