TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning

要約

テレビクリップのような複雑なマルチモーダルコンテンツに対して質問応答を行うことは困難である。これは、現在のビデオ言語モデルが単一モダリティ推論に依存していること、長い入力に対する性能が低いこと、そして相互互換性に欠けることが一因である。我々はTV-TREESを提案する。TV-TREESは、ビデオによって直接的に含意される単純な前提条件と、より高いレベルの結論との間の含意関係の木を生成することによって、解釈可能な共同モダリティ推論を促進するビデオ理解へのアプローチとして機能する。次に、このような手法の推論品質を評価するために、マルチモーダルな含意関係木生成のタスクを紹介する。難易度の高いTVQAデータセットに対する我々の手法の実験結果は、完全なビデオクリップに対するゼロショットのパフォーマンスで、ブラックボックス手法とは対照的な最善であることを示す。

要約(オリジナル)

It is challenging to perform question-answering over complex, multimodal content such as television clips. This is in part because current video-language models rely on single-modality reasoning, have lowered performance on long inputs, and lack interpetability. We propose TV-TREES, the first multimodal entailment tree generator. TV-TREES serves as an approach to video understanding that promotes interpretable joint-modality reasoning by producing trees of entailment relationships between simple premises directly entailed by the videos and higher-level conclusions. We then introduce the task of multimodal entailment tree generation to evaluate the reasoning quality of such methods. Our method’s experimental results on the challenging TVQA dataset demonstrate intepretable, state-of-the-art zero-shot performance on full video clips, illustrating a best of both worlds contrast to black-box methods.

arxiv情報

著者 Kate Sanders,Nathaniel Weir,Benjamin Van Durme
発行日 2024-03-01 03:06:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, I.2.10 パーマリンク