TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning

要約

モデルがテレビ クリップなどの複雑でマルチモーダルなコンテンツを理解することは困難です。これは、ビデオ言語モデルが単一モーダリティ推論に依存することが多く、解釈可能性に欠けていることが 1 つ理由です。
これらの問題に対処するために、私たちは最初のマルチモーダル含意ツリー生成装置である TV-TREES を提案します。
TV-TREES は、単純なテキストとビデオの証拠と、質問と回答のペアを証明するより高いレベルの結論との間の含意関係のツリーを検索することにより、解釈可能な共同モダリティ推論を促進するビデオ理解へのアプローチとして機能します。
また、推論の品質を評価するためのマルチモーダル含意ツリー生成のタスクも紹介します。
困難な TVQA ベンチマークでの私たちの手法のパフォーマンスは、完全なクリップで解釈可能な最先端のゼロショット パフォーマンスを示しており、マルチモーダル含意ツリー生成がブラック ボックス システムの両方の長所を備えた代替手段となり得ることを示しています。

要約(オリジナル)

It is challenging for models to understand complex, multimodal content such as television clips, and this is in part because video-language models often rely on single-modality reasoning and lack interpretability. To combat these issues we propose TV-TREES, the first multimodal entailment tree generator. TV-TREES serves as an approach to video understanding that promotes interpretable joint-modality reasoning by searching for trees of entailment relationships between simple text-video evidence and higher-level conclusions that prove question-answer pairs. We also introduce the task of multimodal entailment tree generation to evaluate reasoning quality. Our method’s performance on the challenging TVQA benchmark demonstrates interpretable, state-of-the-art zero-shot performance on full clips, illustrating that multimodal entailment tree generation can be a best-of-both-worlds alternative to black-box systems.

arxiv情報

著者 Kate Sanders,Nathaniel Weir,Benjamin Van Durme
発行日 2024-10-10 15:25:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, I.2.10 パーマリンク