要約
ビデオ アクションのローカリゼーションは、長いビデオから特定のアクションのタイミングを見つけることを目的としています。
既存の学習ベースのアプローチは成功していますが、それにはビデオに注釈を付ける必要があり、それにはかなりの人件費がかかります。
この論文では、新たなビジョン言語モデル (VLM) に基づいた、学習不要でオープンな語彙アプローチを提案します。
この課題は、VLM が長いビデオを処理するように設計されておらず、アクションを見つけるように調整されていないという事実に起因しています。
私たちは、反復的な視覚的プロンプト手法を拡張することで、これらの問題を解決します。
具体的には、ビデオ フレームをフレーム インデックス ラベル付きの連結画像にサンプリングし、VLM にアクションの開始/終了に最も近いと考えられるフレームを推測させます。
サンプリング時間ウィンドウを狭めてこのプロセスを繰り返すと、アクションの開始と終了の特定のフレームが見つかります。
我々は、このサンプリング手法が妥当な結果を生み出すことを実証し、ビデオを理解するための VLM の実用的な拡張を示しています。
要約(オリジナル)
Video action localization aims to find timings of a specific action from a long video. Although existing learning-based approaches have been successful, those require annotating videos that come with a considerable labor cost. This paper proposes a learning-free, open-vocabulary approach based on emerging vision-language models (VLM). The challenge stems from the fact that VLMs are neither designed to process long videos nor tailored for finding actions. We overcome these problems by extending an iterative visual prompting technique. Specifically, we sample video frames into a concatenated image with frame index labels, making a VLM guess a frame that is considered to be closest to the start/end of the action. Iterating this process by narrowing a sampling time window results in finding a specific frame of start and end of an action. We demonstrate that this sampling technique yields reasonable results, illustrating a practical extension of VLMs for understanding videos.
arxiv情報
著者 | Naoki Wake,Atsushi Kanehira,Kazuhiro Sasabuchi,Jun Takamatsu,Katsushi Ikeuchi |
発行日 | 2024-08-30 17:12:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google