Leveraging multimodal explanatory annotations for video interpretation with Modality Specific Dataset

要約

人間が注目した説明概念を含むデータセットであるMobygazeを使用して、マルチモーダルビデオ解釈モデルに対する概念に基づいた監督の影響を調べます。
注釈付き概念のモダリティ(視覚、テキスト、またはオーディオ)によって分類されたデータサブセットで構成されるコンセプトモダリティ固有のデータセット(CMSD)を紹介します。
CMSDでトレーニングされたモデルは、早期および後期の融合アプローチの両方で従来のレガシートレーニングを使用しているモデルよりも優れています。
特に、このアプローチにより、遅い融合モデルは、早期融合モデルのパフォーマンスに近いパフォーマンスを実現できます。
これらの調査結果は、堅牢で自己説明可能なビデオモデルの開発におけるモダリティ固有の注釈の重要性を強調し、複雑なビデオ分析における解釈可能なマルチモーダル学習の進歩に貢献しています。

要約(オリジナル)

We examine the impact of concept-informed supervision on multimodal video interpretation models using MOByGaze, a dataset containing human-annotated explanatory concepts. We introduce Concept Modality Specific Datasets (CMSDs), which consist of data subsets categorized by the modality (visual, textual, or audio) of annotated concepts. Models trained on CMSDs outperform those using traditional legacy training in both early and late fusion approaches. Notably, this approach enables late fusion models to achieve performance close to that of early fusion models. These findings underscore the importance of modality-specific annotations in developing robust, self-explainable video models and contribute to advancing interpretable multimodal learning in complex video analysis.

arxiv情報

著者 Elisa Ancarani,Julie Tores,Lucile Sassatelli,Rémy Sun,Hui-Yin Wu,Frédéric Precioso
発行日 2025-04-15 14:33:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク