要約
広く使用されている Fact-based Visual Question Answering (FVQA) データセットには、視覚に基づいた質問が含まれており、回答には常識的なナレッジ グラフを使用した情報検索が必要です。
元のデータセットは非常に不均衡であり、関連するナレッジ グラフのごく一部に集中していることが観察されています。
この不均衡に対処するために、テスト問題の敵対的バリアントを含む FVQA 2.0 を導入します。
元の FVQA トレイン セットでトレーニングされたシステムが敵対的なサンプルに対して脆弱である可能性があることを示し、人間による注釈なしでこの脆弱性を軽減する拡張スキームを示します。
要約(オリジナル)
The widely used Fact-based Visual Question Answering (FVQA) dataset contains visually-grounded questions that require information retrieval using common sense knowledge graphs to answer. It has been observed that the original dataset is highly imbalanced and concentrated on a small portion of its associated knowledge graph. We introduce FVQA 2.0 which contains adversarial variants of test questions to address this imbalance. We show that systems trained with the original FVQA train sets can be vulnerable to adversarial samples and we demonstrate an augmentation scheme to reduce this vulnerability without human annotations.
arxiv情報
著者 | Weizhe Lin,Zhilin Wang,Bill Byrne |
発行日 | 2023-03-19 16:07:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google