HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model

要約

現在のビデオ言語モデル(VLM)は、ビデオと言語モダリティ間のインスタンスレベルのアライメントに広く依存しているが、これには2つの大きな限界がある:(1)視覚的推論は、人間が一人称視点で行う自然な知覚に従わないため、推論解釈の欠如につながる、(2)学習は、2つのモダリティ間の固有のきめ細かい関係を捉えることに限界がある。 本論文では、人間の知覚からヒントを得て、自己中心的な映像表現のための構成的アプローチを探求する。HENASY (Hierarchical ENtities ASsemblY)を導入する。HENASYは時空間トークンのグルーピングメカニズムを含み、時間を通して動的に進化するシーンエンティティを明示的に組み立て、ビデオ表現のためにそれらの関係をモデル化する。HENASYは、構文構造理解を活用することで、自由形式のテキストクエリによる視覚的グラウンディングによる強力な解釈可能性を持つ。我々はさらに、エンティティ中心の理解を促進するために、多階調の対照的な損失を探索する。これは、ビデオ-ナレーション、名詞-固有名詞、動詞-固有名詞の3種類のアライメントから構成される。 本手法は、定量的、定性的実験において、強い解釈可能性を示す。同時に、ゼロショット転送、あるいはビデオ/テキスト表現として、ビデオ/テキスト検索、行動認識、多肢選択クエリ、自然言語クエリ、モーメントクエリを含む5つの下流タスクにおいて、競争力のある性能を維持する。

要約(オリジナル)

Current video-language models (VLMs) rely extensively on instance-level alignment between video and language modalities, which presents two major limitations: (1) visual reasoning disobeys the natural perception that humans do in first-person perspective, leading to a lack of reasoning interpretation; and (2) learning is limited in capturing inherent fine-grained relationships between two modalities. In this paper, we take an inspiration from human perception and explore a compositional approach for egocentric video representation. We introduce HENASY (Hierarchical ENtities ASsemblY), which includes a spatiotemporal token grouping mechanism to explicitly assemble dynamically evolving scene entities through time and model their relationship for video representation. By leveraging compositional structure understanding, HENASY possesses strong interpretability via visual grounding with free-form text queries. We further explore a suite of multi-grained contrastive losses to facilitate entity-centric understandings. This comprises three alignment types: video-narration, noun-entity, verb-entities alignments. Our method demonstrates strong interpretability in both quantitative and qualitative experiments; while maintaining competitive performances on five downstream tasks via zero-shot transfer or as video/text representation, including video/text retrieval, action recognition, multi-choice query, natural language query, and moments query.

arxiv情報

著者 Khoa Vo,Thinh Phan,Kashu Yamazaki,Minh Tran,Ngan Le
発行日 2024-11-01 16:26:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク