Leveraging Vision-Language Pre-training for Human Activity Recognition in Still Images

要約

単一の写真で人間の活動を認識することにより、インデックス、安全性、および支援アプリケーションが可能になりますが、モーションの手がかりがありません。
ウォーキング、ランニング、座って、立っているとラベル付けされた285のMSCOCO画像を使用して、CNNSは41%の精度を獲得しました。
微調整マルチモーダルクリップはこれを76%に引き上げ、対照的なビジョン言語のトレーニングが現実世界の展開におけるまだイメージのアクション認識を決定的に改善することを示しています。

要約(オリジナル)

Recognising human activity in a single photo enables indexing, safety and assistive applications, yet lacks motion cues. Using 285 MSCOCO images labelled as walking, running, sitting, and standing, scratch CNNs scored 41% accuracy. Fine-tuning multimodal CLIP raised this to 76%, demonstrating that contrastive vision-language pre-training decisively improves still-image action recognition in real-world deployments.

arxiv情報

著者 Cristina Mahanta,Gagan Bhatia
発行日 2025-06-16 13:15:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク