ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound

要約

テキストからビデオへの長距離検索のためのオーディオビジュアル手法を紹介します。
短いビデオ検索 (たとえば、5 ~ 15 秒の長さ) 用に設計された以前のアプローチとは異なり、私たちのアプローチは、複雑な人間の行動をキャプチャする 1 分間のビデオを検索することを目的としています。
標準的なビデオのみのアプローチの課題の 1 つは、このような長いビデオから密集して抽出された何百ものフレームを処理することに関連する膨大な計算コストです。
この問題に対処するために、ビデオの一部を、動的なオーディオ イベントを簡潔に要約し、処理が安価なコンパクトなオーディオ キューに置き換えることを提案します。
ECLIPSE (Efficient CLIP with Sound Encoding) と名付けられた私たちの方法は、ビデオとオーディオ ストリームから補完的なキューをキャプチャする統一されたオーディオビジュアル トランスフォーマー ブロックを追加することにより、人気のある CLIP モデルをオーディオビジュアル ビデオ設定に適応させます。
長距離ビデオのみのアプローチよりも 2.92 倍速く、2.34 倍のメモリ効率であることに加えて、この方法は、ActivityNet、QVHighlights、YouCook2、
ディデモとシャレード。

要約(オリジナル)

We introduce an audiovisual method for long-range text-to-video retrieval. Unlike previous approaches designed for short video retrieval (e.g., 5-15 seconds in duration), our approach aims to retrieve minute-long videos that capture complex human actions. One challenge of standard video-only approaches is the large computational cost associated with processing hundreds of densely extracted frames from such long videos. To address this issue, we propose to replace parts of the video with compact audio cues that succinctly summarize dynamic audio events and are cheap to process. Our method, named ECLIPSE (Efficient CLIP with Sound Encoding), adapts the popular CLIP model to an audiovisual video setting, by adding a unified audiovisual transformer block that captures complementary cues from the video and audio streams. In addition to being 2.92x faster and 2.34x memory-efficient than long-range video-only approaches, our method also achieves better text-to-video retrieval accuracy on several diverse long-range video datasets such as ActivityNet, QVHighlights, YouCook2, DiDeMo and Charades.

arxiv情報

著者 Yan-Bo Lin,Jie Lei,Mohit Bansal,Gedas Bertasius
発行日 2022-08-02 05:57:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.SD, eess.AS パーマリンク