SimBase: A Simple Baseline for Temporal Video Grounding

要約

このペーパーでは、時間的ビデオ グラウンディングのためのシンプルかつ効果的なベースラインである SimBase について説明します。
最近の時間的グラウンディングの進歩は目覚ましいパフォーマンスをもたらしましたが、同時に、(1) 時間的関係を捕捉し、(2) 効果的なマルチモーダル融合を達成するためのさまざまな方法により、ネットワーク アーキテクチャがより複雑になる傾向にあります。
対照的に、このホワイト ペーパーでは、「簡素化されたアプローチはどの程度効果的か?」という質問を検討します。
調査するために、複雑な時間構造の代わりに軽量の 1 次元時間畳み込み層を活用するネットワークである SimBase を設計します。
クロスモーダル相互作用の場合、SimBase は複雑なマルチモーダル融合ではなく、要素ごとの積のみを採用します。
注目すべきことに、SimBase は 2 つの大規模なデータセットで最先端の結果を達成します。
シンプルかつ強力なベースラインとして、SimBase が新しいアイデアを生み出し、時間的なビデオ基礎における将来の評価を合理化することを期待しています。

要約(オリジナル)

This paper presents SimBase, a simple yet effective baseline for temporal video grounding. While recent advances in temporal grounding have led to impressive performance, they have also driven network architectures toward greater complexity, with a range of methods to (1) capture temporal relationships and (2) achieve effective multimodal fusion. In contrast, this paper explores the question: How effective can a simplified approach be? To investigate, we design SimBase, a network that leverages lightweight, one-dimensional temporal convolutional layers instead of complex temporal structures. For cross-modal interaction, SimBase only employs an element-wise product instead of intricate multimodal fusion. Remarkably, SimBase achieves state-of-the-art results on two large-scale datasets. As a simple yet powerful baseline, we hope SimBase will spark new ideas and streamline future evaluations in temporal video grounding.

arxiv情報

著者 Peijun Bao,Alex C. Kot
発行日 2024-11-12 17:17:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク