Open-vocabulary Temporal Action Localization using VLMs

要約

ビデオアクションのローカライゼーションは、長いビデオから特定のアクションのタイミングを見つけることを目的としている。既存の学習ベースのアプローチは成功しているが、これらのアプローチでは動画に注釈を付ける必要があり、多大な人件費がかかる。本論文では、学習不要のオープン語彙アプローチを、市販の視覚言語モデル(VLM)に基づいて提案する。課題は、VLMが長時間の動画を処理するように設計されておらず、また行動を発見するように調整されていないという事実に起因する。我々は、反復的視覚プロンプト技術を拡張することにより、これらの問題を克服する。具体的には、ビデオフレームをフレームインデックスラベルで連結した画像にサンプリングし、アクションの開始/終了に最も近いと考えられるフレームをVLMに推測させる。サンプリング時間ウィンドウを狭めてこのプロセスを繰り返すことで、アクションの開始と終了の特定のフレームを見つける。このサンプリング手法が妥当な結果をもたらすことを実証し、動画理解のためのVLMの実用的な拡張を示す。サンプルコードはhttps://microsoft.github.io/VLM-Video-Action-Localization/。

要約(オリジナル)

Video action localization aims to find timings of a specific action from a long video. Although existing learning-based approaches have been successful, those require annotating videos that come with a considerable labor cost. This paper proposes a learning-free, open-vocabulary approach based on emerging off-the-shelf vision-language models (VLM). The challenge stems from the fact that VLMs are neither designed to process long videos nor tailored for finding actions. We overcome these problems by extending an iterative visual prompting technique. Specifically, we sample video frames into a concatenated image with frame index labels, making a VLM guess a frame that is considered to be closest to the start/end of the action. Iterating this process by narrowing a sampling time window results in finding a specific frame of start and end of an action. We demonstrate that this sampling technique yields reasonable results, illustrating a practical extension of VLMs for understanding videos. A sample code is available at https://microsoft.github.io/VLM-Video-Action-Localization/.

arxiv情報

著者 Naoki Wake,Atsushi Kanehira,Kazuhiro Sasabuchi,Jun Takamatsu,Katsushi Ikeuchi
発行日 2024-09-03 16:00:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク