Attribute Diversity Determines the Systematicity Gap in VQA

要約

ニューラル ネットワークが、よく知られた概念の新しい組み合わせにどの程度一般化できるか、またそれが可能な条件は、長い間未解決の問題でした。
この研究では、視覚的な質問応答における体系性のギャップ、つまりオブジェクト属性の以前に見たものと見たことのない組み合わせに基づいた推論のパフォーマンスの違いを研究します。
テストするために、新しい診断データセット CLEVR-HOPE を導入します。
トレーニング データの量を増やしても系統性ギャップは減少しませんが、目に見えない組み合わせにおけるトレーニング データの属性の多様性が増加すると、系統性ギャップが減少することがわかりました。
全体として、私たちの実験は、トレーニング中により明確な属性タイプの組み合わせが見られるほど、結果として得られるモデルがより体系的になることが期待できることを示唆しています。

要約(オリジナル)

The degree to which neural networks can generalize to new combinations of familiar concepts, and the conditions under which they are able to do so, has long been an open question. In this work, we study the systematicity gap in visual question answering: the performance difference between reasoning on previously seen and unseen combinations of object attributes. To test, we introduce a novel diagnostic dataset, CLEVR-HOPE. We find that while increased quantity of training data does not reduce the systematicity gap, increased training data diversity of the attributes in the unseen combination does. In all, our experiments suggest that the more distinct attribute type combinations are seen during training, the more systematic we can expect the resulting model to be.

arxiv情報

著者 Ian Berlot-Attwell,Kumar Krishna Agrawal,A. Michael Carrell,Yash Sharma,Naomi Saphra
発行日 2024-06-24 15:51:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク