要約
敵対的ロバスト性とは、機械学習モデルの安全性と信頼性を確保するために、最悪の場合の性能シナリオを評価することである。本研究は、視覚に基づく対話モデルのテキスト攻撃に対する頑健性を調査した最初の研究である。これらの攻撃は、入力された質問に同義語が含まれており、以前は正しかったモデルが間違った答えを返してしまうという最悪のケースを表している。このシナリオを用いて、我々はまず、マルチモーダルな入力コンポーネントがモデルの頑健性にどのように寄与するかを理解することを目的とする。その結果、対話の履歴を符号化したモデルはより頑健であり、履歴に対する攻撃を開始すると、モデル予測がより不確かになることが示された。これは、対話履歴がこのタスクのモデル性能にとって無視できることを発見した先行研究とは対照的である。また、我々は、ユーザやソフトウェア設計者によって検出されないが、モデルをうまく欺く敵対的なテスト例を生成する方法を評価する。我々は、もっともらしい最悪のシナリオを生成するためには、視覚的な文脈だけでなく、テキスト的な文脈も重要であることを発見した。
要約(オリジナル)
Adversarial robustness evaluates the worst-case performance scenario of a machine learning model to ensure its safety and reliability. This study is the first to investigate the robustness of visually grounded dialog models towards textual attacks. These attacks represent a worst-case scenario where the input question contains a synonym which causes the previously correct model to return a wrong answer. Using this scenario, we first aim to understand how multimodal input components contribute to model robustness. Our results show that models which encode dialog history are more robust, and when launching an attack on history, model prediction becomes more uncertain. This is in contrast to prior work which finds that dialog history is negligible for model performance on this task. We also evaluate how to generate adversarial test examples which successfully fool the model but remain undetected by the user/software designer. We find that the textual, as well as the visual context are important to generate plausible worst-case scenarios.
arxiv情報
| 著者 | Lu Yu,Verena Rieser |
| 発行日 | 2022-07-06 13:01:44+00:00 |
| arxivサイト | arxiv_id(pdf) |