要約
大規模言語モデル(LLM)は言語理解タスクの大部分を支配しているが、過去の研究により、これらの結果の一部は訓練データセットのスプリアス相関をモデル化することによってサポートされていることが示されている。著者らは一般的に、同じタスクの分布外(OOD)データセットでモデルを評価することでモデルの頑健性を評価しているが、これらのデータセットは訓練データセットのバイアスを共有している可能性がある。 我々は、特定されたスプリアス特徴へのモデルの依存度を測定する簡単な方法を提案し、質問応答(QA)における様々な事前訓練されたモデルやデビアス方法について、既知および新たに見つかった予測バイアスに対する頑健さを評価する。我々は、偏った特徴への依存を軽減することによって、報告されているデビアス法のOOD向上が説明できないことを発見し、偏りがQAデータセット間で共有されていることを示唆した。さらに、OODモデルの性能がIDモデルと同様にバイアス特徴に依存することを測定することでこれを証明し、既知のスプリアス特徴のレベルに対するLLMの頑健性の報告を改良する今後の研究の動機付けとした。
要約(オリジナル)
While the Large Language Models (LLMs) dominate a majority of language understanding tasks, previous work shows that some of these results are supported by modelling spurious correlations of training datasets. Authors commonly assess model robustness by evaluating their models on out-of-distribution (OOD) datasets of the same task, but these datasets might share the bias of the training dataset. We propose a simple method for measuring a scale of models’ reliance on any identified spurious feature and assess the robustness towards a large set of known and newly found prediction biases for various pre-trained models and debiasing methods in Question Answering (QA). We find that the reported OOD gains of debiasing methods can not be explained by mitigated reliance on biased features, suggesting that biases are shared among QA datasets. We further evidence this by measuring that performance of OOD models depends on bias features comparably to the ID model, motivating future work to refine the reports of LLMs’ robustness to a level of known spurious features.
arxiv情報
| 著者 | Lukáš Mikula,Michal Štefánik,Marek Petrovič,Petr Sojka | 
| 発行日 | 2023-05-11 14:35:00+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
