Open-Vocabulary Action Localization with Iterative Visual Prompting

要約

ビデオ アクションのローカリゼーションは、長いビデオから特定のアクションのタイミングを見つけることを目的としています。
既存の学習ベースのアプローチは成功していますが、ビデオに注釈を付ける必要があり、それにはかなりの人件費がかかります。
この論文では、新たに登場した既製のビジョン言語モデル (VLM) に基づいた、学習不要でオープンな語彙アプローチを提案します。
この課題は、VLM が長いビデオを処理するように設計されておらず、アクションを見つけるように調整されていないという事実に起因しています。
私たちは、反復的な視覚的プロンプト手法を拡張することで、これらの問題を解決します。
具体的には、ビデオ フレームをサンプリングし、フレーム インデックス ラベルを含む連結画像を作成し、VLM にアクションの開始と終了に最も近いと考えられるフレームを推測させます。
サンプリング時間ウィンドウを狭めてこのプロセスを繰り返すと、アクションの開始と終了に対応する特定のフレームが見つかります。
この手法が合理的なパフォーマンスをもたらし、最先端のゼロショット アクション ローカリゼーションに匹敵する結果が得られることを実証します。
これらの結果は、ビデオを理解するための VLM の実用的な拡張を示しています。
サンプル コードは https://microsoft.github.io/VLM-Video-Action-Localization/ で入手できます。

要約(オリジナル)

Video action localization aims to find the timings of specific actions from a long video. Although existing learning-based approaches have been successful, they require annotating videos, which comes with a considerable labor cost. This paper proposes a learning-free, open-vocabulary approach based on emerging off-the-shelf vision-language models (VLMs). The challenge stems from the fact that VLMs are neither designed to process long videos nor tailored for finding actions. We overcome these problems by extending an iterative visual prompting technique. Specifically, we sample video frames and create a concatenated image with frame index labels, making a VLM guess a frame that is considered to be closest to the start and end of the action. Iterating this process by narrowing a sampling time window results in finding the specific frames corresponding to the start and end of an action. We demonstrate that this technique yields reasonable performance, achieving results comparable to state-of-the-art zero-shot action localization. These results illustrate a practical extension of VLMs for understanding videos. A sample code is available at https://microsoft.github.io/VLM-Video-Action-Localization/.

arxiv情報

著者 Naoki Wake,Atsushi Kanehira,Kazuhiro Sasabuchi,Jun Takamatsu,Katsushi Ikeuchi
発行日 2024-10-10 07:22:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク