要約
ビデオやソーシャルメディアコンテンツの急増は、マルチメディアデータをより深く理解する必要性を浮き彫りにしています。
既存の成熟したビデオ理解技術のほとんどは、浅い理解だけを必要とする短い形式やコンテンツではうまく機能しますが、深い理解と推論が必要な長い形式のビデオではうまく機能しません。
Deep Video Understanding (DVU) チャレンジは、マルチモーダルな抽出、融合、分析の限界を押し広げ、長いビデオを総合的に分析し、さまざまな種類のクエリを解決するために役立つ知識を抽出するという問題に対処することを目的としています。
この論文では、画像言語の事前トレーニング済みモデルを活用した、長いビデオのローカリゼーションと関係識別のためのクエリ認識手法を紹介します。
このモデルは、クエリに関連するフレームを適切に選択し、完全な映画レベルのナレッジ グラフの必要性を排除します。
私たちのアプローチは、映画レベルのクエリの 2 つのグループで 1 位と 4 位を達成しました。
十分な実験と最終的なランキングにより、その有効性と堅牢性が実証されています。
要約(オリジナル)
The surge in video and social media content underscores the need for a deeper understanding of multimedia data. Most of the existing mature video understanding techniques perform well with short formats and content that requires only shallow understanding, but do not perform well with long format videos that require deep understanding and reasoning. Deep Video Understanding (DVU) Challenge aims to push the boundaries of multimodal extraction, fusion, and analytics to address the problem of holistically analyzing long videos and extract useful knowledge to solve different types of queries. This paper introduces a query-aware method for long video localization and relation discrimination, leveraging an imagelanguage pretrained model. This model adeptly selects frames pertinent to queries, obviating the need for a complete movie-level knowledge graph. Our approach achieved first and fourth positions for two groups of movie-level queries. Sufficient experiments and final rankings demonstrate its effectiveness and robustness.
arxiv情報
著者 | Yuanxing Xu,Yuting Wei,Bin Wu |
発行日 | 2023-10-19 13:26:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google