要約
大規模言語モデル (LLM) が言語理解タスクの大部分を占めていますが、以前の研究では、これらの結果の一部がトレーニング データセットの偽の相関をモデル化することによってサポートされていることを示しています。
通常、作成者は同じタスクの分布外 (OOD) データセットでモデルを評価することによってモデルの堅牢性を評価しますが、これらのデータセットはトレーニング データセットのバイアスを共有する可能性があります。
私たちは、特定されたスプリアス特徴に対するモデルの依存度のスケールを測定するための簡単な方法を提案し、さまざまな事前トレーニング済みモデルおよび質問応答 (QA) におけるバイアス除去手法の既知および新たに見つかった予測バイアスの大規模なセットに対するロバスト性を評価します。
既存のバイアス除去手法は、選択されたスプリアス特徴への依存を軽減できる一方で、これらの手法による OOD パフォーマンスの向上は、バイアスのある特徴への依存を軽減することで説明できないことがわかり、バイアスが異なる QA データセット間で共有されることが示唆されています。
最後に、異なる QA データセットでトレーニングされたモデルのパフォーマンスが同じバイアス特徴にほぼ依存していることを測定することで、これが事実であることを証明します。
これらの結果が、特定の偽の機能に対処する敵対的サンプルのレベルまで LM の堅牢性に関するレポートを改良するための今後の研究の動機となることを願っています。
要約(オリジナル)
While the Large Language Models (LLMs) dominate a majority of language understanding tasks, previous work shows that some of these results are supported by modelling spurious correlations of training datasets. Authors commonly assess model robustness by evaluating their models on out-of-distribution (OOD) datasets of the same task, but these datasets might share the bias of the training dataset. We propose a simple method for measuring a scale of models’ reliance on any identified spurious feature and assess the robustness towards a large set of known and newly found prediction biases for various pre-trained models and debiasing methods in Question Answering (QA). We find that while existing debiasing methods can mitigate reliance on a chosen spurious feature, the OOD performance gains of these methods can not be explained by mitigated reliance on biased features, suggesting that biases are shared among different QA datasets. Finally, we evidence this to be the case by measuring that the performance of models trained on different QA datasets relies comparably on the same bias features. We hope these results will motivate future work to refine the reports of LMs’ robustness to a level of adversarial samples addressing specific spurious features.
arxiv情報
著者 | Lukáš Mikula,Michal Štefánik,Marek Petrovič,Petr Sojka |
発行日 | 2024-02-06 11:30:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google