An Entropy Clustering Approach for Assessing Visual Question Difficulty

要約

我々はVisual Question Answering (VQA)のために、難易度に対する直接的な監督や注釈なしに、視覚的な質問の難易度を特定する新しいアプローチを提案する。先行研究では、人間のアノテーターの基底真理解の多様性を考慮している。これに対し、我々は複数の異なるVQAモデルの振る舞いを基に視覚的質問の難易度を分析する。画像と質問を入力とするベースライン手法と、画像のみと質問のみを入力とする2種類のモデルによって得られた予測回答分布のエントロピー値をクラスタリングすることを提案する。VQA v2検証セットの視覚的質問をクラスタリングするために、単純なk-meansを使用する。そして、各クラスタの精度と回答分布のエントロピーを決定するために、最新の手法を用いる。提案手法の利点は、各クラスタの精度がそれに属する視覚的問題の難易度を反映するため、難易度のアノテーションが不要であることである。本手法は、最先端の手法では正解できないような難易度の高い視覚問題のクラスタを特定することができる。VQA v2データセットを用いた詳細な分析により、1)どの手法も最も難しいクラスタでは性能が低い(精度10%程度)、2)クラスタの難易度が高くなると、各手法の予測値に差が生じ始める、3)クラスタのエントロピー値と精度は高い相関があることが明らかとなった。本手法は、VQA v2のテストセットであるGround-Truthがなくても、視覚問題の難易度をクラスタのいずれかに割り当てることで評価できる利点があることを示しました。これにより、新たな研究の方向性や新しいアルゴリズムの開発を促すことができると期待しています。

要約(オリジナル)

We propose a novel approach to identify the difficulty of visual questions for Visual Question Answering (VQA) without direct supervision or annotations to the difficulty. Prior works have considered the diversity of ground-truth answers of human annotators. In contrast, we analyze the difficulty of visual questions based on the behavior of multiple different VQA models. We propose to cluster the entropy values of the predicted answer distributions obtained by three different models: a baseline method that takes as input images and questions, and two variants that take as input images only and questions only. We use a simple k-means to cluster the visual questions of the VQA v2 validation set. Then we use state-of-the-art methods to determine the accuracy and the entropy of the answer distributions for each cluster. A benefit of the proposed method is that no annotation of the difficulty is required, because the accuracy of each cluster reflects the difficulty of visual questions that belong to it. Our approach can identify clusters of difficult visual questions that are not answered correctly by state-of-the-art methods. Detailed analysis on the VQA v2 dataset reveals that 1) all methods show poor performances on the most difficult cluster (about 10\% accuracy), 2) as the cluster difficulty increases, the answers predicted by the different methods begin to differ, and 3) the values of cluster entropy are highly correlated with the cluster accuracy. We show that our approach has the advantage of being able to assess the difficulty of visual questions without ground-truth (\ie, the test set of VQA v2) by assigning them to one of the clusters. We expect that this can stimulate the development of novel directions of research and new algorithms.

arxiv情報

著者 Kento Terao,Toru Tamaki,Bisser Raytchev,Kazufumi Kaneda,Shun’ichi Satoh
発行日 2022-09-02 07:01:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク