要約
Clipのようなビジョン言語モデルの導入により、目に見えないビデオや人間の行動に一般化できる基礎ビデオモデルの開発が可能になりました。
ただし、これらのモデルは通常、Webビデオでトレーニングされています。これは、日常生活(ADL)ビデオの活動に存在する課題を把握できないことがよくあります。
既存の作品は、3DスケルトンとRGBビデオを組み合わせることにより、同様の外観、微妙なモーションパターン、複数の視点などのADL固有の課題に対処します。
ただし、これらのアプローチは言語と統合されておらず、目に見えないアクションクラスに一般化する能力を制限します。
この論文では、3Dスケルトンをビジョン言語埋め込みスペースに統合するスキーモデルを紹介します。
スキーモデルは、スケルトン言語モデルのスケルトンクリップを活用して、コラボレーショントレーニングを通じてスケルトン情報をビジョン言語モデル(VLM)と大型ビジョン言語モデル(LVLM)に注入します。
特に、スキーモデルでは、推論中にスケルトンデータを必要とせず、実際のアプリケーションに対する堅牢性を高めます。
スキーモデルの有効性は、ゼロショットアクション認識とビデオキャプション生成タスクのために、3つの一般的なADLデータセットで検証されています。
要約(オリジナル)
The introduction of vision-language models like CLIP has enabled the development of foundational video models capable of generalizing to unseen videos and human actions. However, these models are typically trained on web videos, which often fail to capture the challenges present in Activities of Daily Living (ADL) videos. Existing works address ADL-specific challenges, such as similar appearances, subtle motion patterns, and multiple viewpoints, by combining 3D skeletons and RGB videos. However, these approaches are not integrated with language, limiting their ability to generalize to unseen action classes. In this paper, we introduce SKI models, which integrate 3D skeletons into the vision-language embedding space. SKI models leverage a skeleton-language model, SkeletonCLIP, to infuse skeleton information into Vision Language Models (VLMs) and Large Vision Language Models (LVLMs) through collaborative training. Notably, SKI models do not require skeleton data during inference, enhancing their robustness for real-world applications. The effectiveness of SKI models is validated on three popular ADL datasets for zero-shot action recognition and video caption generation tasks.
arxiv情報
著者 | Arkaprava Sinha,Dominick Reilly,Francois Bremond,Pu Wang,Srijan Das |
発行日 | 2025-02-05 18:57:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google