要約
物理的なイベントとその因果関係を推論できるマシンを構築することは、物理世界と柔軟に対話するために重要です。
ただし、既存の物理的および因果的推論ベンチマークのほとんどは、合成的に生成されたイベントと因果関係の合成自然言語記述のみに基づいています。
この設計では 2 つの問題が生じます。
まず、イベントの種類と自然言語の説明の両方に多様性がありません。
第二に、手動で定義されたヒューリスティックに基づく因果関係は人間の判断とは異なります。
両方の欠点に対処するために、人間のラベルが付いた物理的イベントの因果関係を判断するためのビデオ推論データセットである CLEVRER-Humans ベンチマークを紹介します。
データ収集効率を向上させるために 2 つの手法を採用しています。1 つは、ビデオ内のイベントの新しい表現を引き出す新しい反復イベント クローズ タスクです。これを因果イベント グラフ (CEG) と呼んでいます。
2 つ目は、ニューラル言語生成モデルに基づくデータ拡張技術です。
以前の作業と一貫性を保つために、収集した CEG を質問と回答に変換します。
最後に、CLEVRER-Humans の質問応答のベースライン アプローチのコレクションを研究し、ベンチマークによって示された大きな課題を強調します。
要約(オリジナル)
Building machines that can reason about physical events and their causal relationships is crucial for flexible interaction with the physical world. However, most existing physical and causal reasoning benchmarks are exclusively based on synthetically generated events and synthetic natural language descriptions of causal relationships. This design brings up two issues. First, there is a lack of diversity in both event types and natural language descriptions; second, causal relationships based on manually-defined heuristics are different from human judgments. To address both shortcomings, we present the CLEVRER-Humans benchmark, a video reasoning dataset for causal judgment of physical events with human labels. We employ two techniques to improve data collection efficiency: first, a novel iterative event cloze task to elicit a new representation of events in videos, which we term Causal Event Graphs (CEGs); second, a data augmentation technique based on neural language generative models. We convert the collected CEGs into questions and answers to be consistent with prior work. Finally, we study a collection of baseline approaches for CLEVRER-Humans question-answering, highlighting the great challenges set forth by our benchmark.
arxiv情報
著者 | Jiayuan Mao,Xuelin Yang,Xikun Zhang,Noah D. Goodman,Jiajun Wu |
発行日 | 2023-10-05 16:09:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google