要約
過去の多くの作品は、重要な画像領域のハイライトなどの人間の注釈を使用して特徴の重要性(モデルの説明手法によって推定)を監視することにより、モデルの視覚的推論を改善することを目的としています。
ただし、最近の作業では、視覚的質問応答(VQA)タスクの特徴重要度(FI)監視によるパフォーマンスの向上は、ランダムな監視でも持続することが示されています。これは、これらの方法がモデルFIを人間のFIと有意義に整合させないことを示唆しています。
このホワイトペーパーでは、モデルFIの監視により、VQAモデルの精度と、いくつかのRight-for-the-Right-Reason(RRR)メトリックのパフォーマンスを、次の4つの主要なモデル目標に最適化することで有意義に改善できることを示します。
しかし、十分な情報(十分性);
(2)重要な情報が与えられていない場合の最大エントロピー予測(不確実性)。
(3)重要でない特徴の変化に対する予測の不変性(不変性)。
(4)モデルFIの説明と人間のFIの説明の整合性(妥当性)。
最高のパフォーマンスを発揮する方法である視覚的特徴重要性監視(VisFIS)は、分布内と分布外の両方の精度の点で、ベンチマークVQAデータセットの強力なベースラインを上回っています。
過去の研究では、精度の向上のメカニズムは説明の妥当性の向上によるものであることが示唆されていますが、この関係は説明の忠実度に大きく依存することを示しています(説明がモデルの内部推論を本当に表しているかどうか)。
説明がもっともらしく忠実である場合、予測はより正確であり、もっともらしくても忠実ではない場合ではありません。
最後に、驚くべきことに、モデルの分布精度を制御する場合、RRRメトリックは分布外モデルの精度を予測しないことを示します。これは、モデルの推論を評価するためのこれらのメトリックの値に疑問を投げかけます。
すべてのサポートコードはhttps://github.com/zfying/visfisで入手できます。
要約(オリジナル)
Many past works aim to improve visual reasoning in models by supervising feature importance (estimated by model explanation techniques) with human annotations such as highlights of important image regions. However, recent work has shown that performance gains from feature importance (FI) supervision for Visual Question Answering (VQA) tasks persist even with random supervision, suggesting that these methods do not meaningfully align model FI with human FI. In this paper, we show that model FI supervision can meaningfully improve VQA model accuracy as well as performance on several Right-for-the-Right-Reason (RRR) metrics by optimizing for four key model objectives: (1) accurate predictions given limited but sufficient information (Sufficiency); (2) max-entropy predictions given no important information (Uncertainty); (3) invariance of predictions to changes in unimportant features (Invariance); and (4) alignment between model FI explanations and human FI explanations (Plausibility). Our best performing method, Visual Feature Importance Supervision (VisFIS), outperforms strong baselines on benchmark VQA datasets in terms of both in-distribution and out-of-distribution accuracy. While past work suggests that the mechanism for improved accuracy is through improved explanation plausibility, we show that this relationship depends crucially on explanation faithfulness (whether explanations truly represent the model’s internal reasoning). Predictions are more accurate when explanations are plausible and faithful, and not when they are plausible but not faithful. Lastly, we show that, surprisingly, RRR metrics are not predictive of out-of-distribution model accuracy when controlling for a model’s in-distribution accuracy, which calls into question the value of these metrics for evaluating model reasoning. All supporting code is available at https://github.com/zfying/visfis
arxiv情報
著者 | Zhuofan Ying,Peter Hase,Mohit Bansal |
発行日 | 2022-06-22 17:02:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google