CoSIm: Commonsense Reasoning for Counterfactual Scene Imagination

要約

人間として、私たちは心の中で代替のオブジェクトや概念を想像することによって、シーンについての仮定を変更することができます。
たとえば、太陽が雨雲に覆われることの影響(たとえば、通りが濡れる)を簡単に予測し、それに応じて準備することができます。
この論文では、AIシステムがシーンの変化の想像力について推論する能力を評価するように設計された、反事実的シーンの想像力のための常識推論(CoSIm)と呼ばれる新しいタスク/データセットを紹介します。
このタスク/データセットでは、モデルに画像とその画像に関する最初の質問と回答のペアが与えられます。
次に、反事実的に想像されたシーンの変化(テキスト形式)が適用され、モデルはこのシーンの変化に基づいて最初の質問に対する新しい応答を予測する必要があります。
3.5Kの高品質でやりがいのあるデータインスタンスを収集します。各インスタンスは、画像、応答付きの常識的な質問、反事実的変化の説明、質問に対する新しい応答、および3つの気を散らす応答で構成されます。
私たちのデータセットには、さまざまな複雑なシーン変更タイプ(オブジェクトの追加/削除/状態の変更、イベントの説明、環境の変更など)が含まれており、モデルはさまざまなシナリオと変更されたシーンに関する理由を想像する必要があります。
視覚言語トランスフォーマー(つまり、LXMERT)とアブレーション研究に基づくベースラインモデルを提示します。
人間の評価を通じて、人間とモデルのパフォーマンスの大きなギャップを示し、この挑戦​​的な反事実的なシーンの想像力のタスクに関する将来の作業を約束する余地を示唆しています。
私たちのコードとデータセットは、https://github.com/hyounghk/CoSImで公開されています。

要約(オリジナル)

As humans, we can modify our assumptions about a scene by imagining alternative objects or concepts in our minds. For example, we can easily anticipate the implications of the sun being overcast by rain clouds (e.g., the street will get wet) and accordingly prepare for that. In this paper, we introduce a new task/dataset called Commonsense Reasoning for Counterfactual Scene Imagination (CoSIm) which is designed to evaluate the ability of AI systems to reason about scene change imagination. In this task/dataset, models are given an image and an initial question-response pair about the image. Next, a counterfactual imagined scene change (in textual form) is applied, and the model has to predict the new response to the initial question based on this scene change. We collect 3.5K high-quality and challenging data instances, with each instance consisting of an image, a commonsense question with a response, a description of a counterfactual change, a new response to the question, and three distractor responses. Our dataset contains various complex scene change types (such as object addition/removal/state change, event description, environment change, etc.) that require models to imagine many different scenarios and reason about the changed scenes. We present a baseline model based on a vision-language Transformer (i.e., LXMERT) and ablation studies. Through human evaluation, we demonstrate a large human-model performance gap, suggesting room for promising future work on this challenging counterfactual, scene imagination task. Our code and dataset are publicly available at: https://github.com/hyounghk/CoSIm

arxiv情報

著者 Hyounghun Kim,Abhay Zala,Mohit Bansal
発行日 2022-07-08 15:28:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク