要約
この論文は、動きに焦点を当てたビデオ言語表現を目指しています。
ビデオ言語表現を学習する既存の方法では、空間に焦点を当てたデータが使用されており、多くの場合、オブジェクトとシーンを識別するだけで関連するキャプションを区別できます。
代わりに、ローカル オブジェクトの動きと時間的進行を説明するモーションに焦点を当てたキャプションから学習する LocoMotion を提案します。
これは、ビデオに合成モーションを追加し、これらのモーションのパラメーターを使用して対応するキャプションを生成することで実現します。
さらに、キャプションの多様性を高め、原始的な動きと高レベルの動詞の間のつながりを学習するために、動詞変化の言い換えを提案します。
これにより、動きに焦点を当てたビデオ言語表現を学習できるようになります。
実験では、特に微調整に使用できるデータが限られている場合に、私たちのアプローチがさまざまな下流タスクに効果的であることが実証されています。
コードは利用可能です: https://hazeldoughty.github.io/Papers/LocoMotion/
要約(オリジナル)
This paper strives for motion-focused video-language representations. Existing methods to learn video-language representations use spatial-focused data, where identifying the objects and scene is often enough to distinguish the relevant caption. We instead propose LocoMotion to learn from motion-focused captions that describe the movement and temporal progression of local object motions. We achieve this by adding synthetic motions to videos and using the parameters of these motions to generate corresponding captions. Furthermore, we propose verb-variation paraphrasing to increase the caption variety and learn the link between primitive motions and high-level verbs. With this, we are able to learn a motion-focused video-language representation. Experiments demonstrate our approach is effective for a variety of downstream tasks, particularly when limited data is available for fine-tuning. Code is available: https://hazeldoughty.github.io/Papers/LocoMotion/
arxiv情報
著者 | Hazel Doughty,Fida Mohammad Thoker,Cees G. M. Snoek |
発行日 | 2024-10-23 15:21:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google