要約
既存の請求検証データセットでは、多くの場合、システムが複雑な推論を実行したり、マルチモーダルな証拠を効果的に解釈したりする必要はありません。
これに対処するために、マルチホップ マルチモーダル クレーム検証という新しいタスクを導入します。
このタスクでは、テキスト、画像、表など、さまざまなソースからの複数の証拠を推論し、複合的な証拠の組み合わせが特定の主張を裏付けるか反駁するかを判断するようモデルに課題を与えます。
このタスクを研究するために、人間のフィードバックからの追加入力を使用して、大規模な言語モデルを使用して生成および洗練された、マルチモーダル証拠と対になった 16,000 個のマルチホップ クレームで構成される大規模なデータセットである MMCV を構築します。
MMCV は、最新の最先端のマルチモーダル大規模言語モデルであっても、特に推論ホップの数が増加するにつれて困難になることを示します。
さらに、MMCV のサブセットに関する人間のパフォーマンス ベンチマークを確立します。
このデータセットとその評価タスクが、マルチモーダル マルチホップ クレーム検証における将来の研究を促進することを願っています。
要約(オリジナル)
Existing claim verification datasets often do not require systems to perform complex reasoning or effectively interpret multimodal evidence. To address this, we introduce a new task: multi-hop multimodal claim verification. This task challenges models to reason over multiple pieces of evidence from diverse sources, including text, images, and tables, and determine whether the combined multimodal evidence supports or refutes a given claim. To study this task, we construct MMCV, a large-scale dataset comprising 16k multi-hop claims paired with multimodal evidence, generated and refined using large language models, with additional input from human feedback. We show that MMCV is challenging even for the latest state-of-the-art multimodal large language models, especially as the number of reasoning hops increases. Additionally, we establish a human performance benchmark on a subset of MMCV. We hope this dataset and its evaluation task will encourage future research in multimodal multi-hop claim verification.
arxiv情報
著者 | Haoran Wang,Aman Rangapur,Xiongxiao Xu,Yueqing Liang,Haroon Gharwi,Carl Yang,Kai Shu |
発行日 | 2024-11-14 16:01:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google