Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature Alignment

要約

テキストからビデオへの検索システムは、大規模な画像とテキストのペアでトレーニングされた事前トレーニング済みモデルを利用することにより、最近大幅な進歩を遂げました。
ただし、最新の方法のほとんどは主にビデオ モダリティに焦点を当てており、このタスクのオーディオ信号は無視されています。
それにもかかわらず、ECLIPSE による最近の進歩により、オーディオビジュアルビデオ表現の開発により、長距離のテキストからビデオへの検索が改善されました。
それにもかかわらず、テキストからビデオへの取得タスクの目的は、単にオーディオとビデオの位置合わせを改善することではなく、テキスト クエリに関連する補足的なオーディオとビデオ情報をキャプチャすることです。
この問題に対処するために、テキスト クエリに基づいてオーディオ表現とビデオ表現の両方を生成する TExt 条件付きフィーチャ ALignment メソッドである TEFAL を導入します。
テキストクエリに関連する音声情報を抑制する可能性がある視聴覚アテンションブロックのみを使用する代わりに、私たちのアプローチでは、テキストがオーディオとビデオの表現に個別に注意を向けることを可能にする2つの独立したクロスモーダルアテンションブロックを採用しています。
私たちが提案した手法の有効性は、音声を含む 4 つのベンチマーク データセット (MSR-VTT、LSMDC、VATEX、Charade) で実証されており、4 つのデータセット全体で一貫して最先端のパフォーマンスを上回るパフォーマンスを達成しています。
これは、追加のテキストクエリ条件付きオーディオ表現と、テキストクエリ条件付きビデオ表現に追加される補足情報に起因します。

要約(オリジナル)

Text-to-video retrieval systems have recently made significant progress by utilizing pre-trained models trained on large-scale image-text pairs. However, most of the latest methods primarily focus on the video modality while disregarding the audio signal for this task. Nevertheless, a recent advancement by ECLIPSE has improved long-range text-to-video retrieval by developing an audiovisual video representation. Nonetheless, the objective of the text-to-video retrieval task is to capture the complementary audio and video information that is pertinent to the text query rather than simply achieving better audio and video alignment. To address this issue, we introduce TEFAL, a TExt-conditioned Feature ALignment method that produces both audio and video representations conditioned on the text query. Instead of using only an audiovisual attention block, which could suppress the audio information relevant to the text query, our approach employs two independent cross-modal attention blocks that enable the text to attend to the audio and video representations separately. Our proposed method’s efficacy is demonstrated on four benchmark datasets that include audio: MSR-VTT, LSMDC, VATEX, and Charades, and achieves better than state-of-the-art performance consistently across the four datasets. This is attributed to the additional text-query-conditioned audio representation and the complementary information it adds to the text-query-conditioned video representation.

arxiv情報

著者 Sarah Ibrahimi,Xiaohang Sun,Pichao Wang,Amanmeet Garg,Ashutosh Sanan,Mohamed Omar
発行日 2023-07-24 17:43:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク