Diving Deep into the Motion Representation of Video-Text Models

要約

動画はシーンのダイナミクスを捉えるため、画像よりも有益です。
動きをビデオで表現することで、ダイナミックなアクティビティを捉えることができます。
この研究では、アクティビティの詳細な動作記述を取得し、それらを 3 つのアクション データセットに適用する GPT-4 で生成された動作記述を導入します。
動作記述の検索タスクに関していくつかのビデオテキストモデルを評価しました。
これらは 2 つのアクション データセットに対する人間の専門家のパフォーマンスに大きく及ばないことがわかり、ビデオ テキスト モデルがビデオ内の動きを理解しているかどうかという疑問が生じました。
これに対処するために、モーション記述を利用してビデオテキストモデルのモーション理解を改善する方法を紹介します。
この方法は、動作記述検索タスクの 2 つの動作データセットに対して効果的であることが証明されています。
この結果は、既存のデータセットのきめの細かい動き情報を含む高品質のキャプションの必要性に注意を喚起し、ビデオテキスト検索中のきめの細かい動きを理解する上で提案されたパイプラインの有効性を示しています。

要約(オリジナル)

Videos are more informative than images because they capture the dynamics of the scene. By representing motion in videos, we can capture dynamic activities. In this work, we introduce GPT-4 generated motion descriptions that capture fine-grained motion descriptions of activities and apply them to three action datasets. We evaluated several video-text models on the task of retrieval of motion descriptions. We found that they fall far behind human expert performance on two action datasets, raising the question of whether video-text models understand motion in videos. To address it, we introduce a method of improving motion understanding in video-text models by utilizing motion descriptions. This method proves to be effective on two action datasets for the motion description retrieval task. The results draw attention to the need for quality captions involving fine-grained motion information in existing datasets and demonstrate the effectiveness of the proposed pipeline in understanding fine-grained motion during video-text retrieval.

arxiv情報

著者 Chinmaya Devaraj,Cornelia Fermuller,Yiannis Aloimonos
発行日 2024-06-07 16:46:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク