Video-adverb retrieval with compositional adverb-action embeddings

要約

ビデオ内のアクションを説明する副詞を取得することは、ビデオを詳細に理解するための重要なステップとなります。
我々は、ビデオから副詞への検索(およびその逆)のためのフレームワークを提案します。このフレームワークは、ビデオ埋め込みを、結合埋め込み空間内で対応する合成副詞アクションテキスト埋め込みと位置合わせします。
構成的な副詞アクションのテキストの埋め込みは、トリプレットの損失と回帰ターゲットから構成される新しいトレーニング目標とともに、残差ゲート メカニズムを使用して学習されます。
私たちの方法は、ビデオ副詞検索の最近の 5 つのベンチマークで最先端のパフォーマンスを達成しました。
さらに、MSR-VTT 副詞および ActivityNet 副詞データセットのサブセット上で、目に見えない副詞アクション構成のビデオ副詞検索をベンチマークするためにデータセット分割を導入します。
私たちが提案したフレームワークは、目に見えない副詞と動作の組み合わせについてビデオから副詞を検索するという一般化タスクに関して、以前のすべての研究よりも優れています。
コードとデータセットの分割は https://hummelth.github.io/ReGaDa/ で入手できます。

要約(オリジナル)

Retrieving adverbs that describe an action in a video poses a crucial step towards fine-grained video understanding. We propose a framework for video-to-adverb retrieval (and vice versa) that aligns video embeddings with their matching compositional adverb-action text embedding in a joint embedding space. The compositional adverb-action text embedding is learned using a residual gating mechanism, along with a novel training objective consisting of triplet losses and a regression target. Our method achieves state-of-the-art performance on five recent benchmarks for video-adverb retrieval. Furthermore, we introduce dataset splits to benchmark video-adverb retrieval for unseen adverb-action compositions on subsets of the MSR-VTT Adverbs and ActivityNet Adverbs datasets. Our proposed framework outperforms all prior works for the generalisation task of retrieving adverbs from videos for unseen adverb-action compositions. Code and dataset splits are available at https://hummelth.github.io/ReGaDa/.

arxiv情報

著者 Thomas Hummel,Otniel-Bogdan Mercea,A. Sophia Koepke,Zeynep Akata
発行日 2023-09-26 17:31:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク