要約
最近のモデルは、F1 スコアを使用して読解タスクを評価する場合、スタンフォード質問応答データセットで人間レベルのパフォーマンスを達成しました。
しかし、機械に文章を理解させることは、一般的なケースではまだ解決されていません。
過去の研究では、文脈段落に敵対的な文を 1 つ追加すると、読解モデルの F1 スコアがほぼ半分に低下することが示されています。
この論文では、新しいモデル ELECTRA-Small を使用して過去の敵対的研究を再現し、新しいモデルの F1 スコアが 83.9% から 29.2% に低下することを実証します。
この攻撃に対する ELECTRA-Small の耐性を向上させるために、コンテキストの段落に 1 ~ 5 つの敵対的な文を追加して、SQuAD v1.1 のトレーニング例に基づいてモデルを微調整しました。
過去の研究と同様に、1 つの敵対的な文に関する微調整されたモデルは、評価データセット全体でうまく一般化できないことがわかりました。
ただし、4 つまたは 5 つの敵対的文で微調整すると、モデルは、複数の追加または先頭に敵対的文を含むほとんどの評価データセットで 70% を超える F1 スコアを達成します。
この結果は、十分な例があれば、敵対的攻撃に対して堅牢なモデルを作成できることを示唆しています。
要約(オリジナル)
Recent models have achieved human level performance on the Stanford Question Answering Dataset when using F1 scores to evaluate the reading comprehension task. Yet, teaching machines to comprehend text has not been solved in the general case. By appending one adversarial sentence to the context paragraph, past research has shown that the F1 scores from reading comprehension models drop almost in half. In this paper, I replicate past adversarial research with a new model, ELECTRA-Small, and demonstrate that the new model’s F1 score drops from 83.9% to 29.2%. To improve ELECTRA-Small’s resistance to this attack, I finetune the model on SQuAD v1.1 training examples with one to five adversarial sentences appended to the context paragraph. Like past research, I find that the finetuned model on one adversarial sentence does not generalize well across evaluation datasets. However, when finetuned on four or five adversarial sentences the model attains an F1 score of more than 70% on most evaluation datasets with multiple appended and prepended adversarial sentences. The results suggest that with enough examples we can make models robust to adversarial attacks.
arxiv情報
著者 | Ariel Marcus |
発行日 | 2024-01-18 15:59:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google