CLEVR-Math: A Dataset for Compositional Language, Visual and Mathematical Reasoning

要約

CLEVR-Mathは、足し算・引き算を含む簡単な数学の単語問題からなるマルチモーダルなデータセットで、一部はテキストの記述で、一部はシナリオを示す画像で表現されています。テキストは画像に描かれたシーンで行われた動作を記述している。問題は、画像の情景ではなく、動作の前後での情景の状態を問うものであるため、解答者は動作による状態の変化を想定し、想像する。このような言葉の問題を解くには、言語的推論、視覚的推論、数学的推論の組み合わせが必要です。我々はCLEVR-Mathに視覚的質問応答のための最先端のニューラルモデルとニューロシンボリックモデルを適用し、その性能を経験的に評価する。その結果、どちらの手法も演算の連鎖に一般化しないことが分かった。また、マルチモーダルな単語問題解決というタスクに対応する上での両者の限界について議論する。

要約(オリジナル)

We introduce CLEVR-Math, a multi-modal math word problems dataset consisting of simple math word problems involving addition/subtraction, represented partly by a textual description and partly by an image illustrating the scenario. The text describes actions performed on the scene that is depicted in the image. Since the question posed may not be about the scene in the image, but about the state of the scene before or after the actions are applied, the solver envision or imagine the state changes due to these actions. Solving these word problems requires a combination of language, visual and mathematical reasoning. We apply state-of-the-art neural and neuro-symbolic models for visual question answering on CLEVR-Math and empirically evaluate their performances. Our results show how neither method generalise to chains of operations. We discuss the limitations of the two in addressing the task of multi-modal word problem solving.

arxiv情報

著者 Adam Dahlgren Lindström,Savitha Sam Abraham
発行日 2022-08-10 14:08:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.LG, I.2.10 パーマリンク