要約
単一の写真で人間の活動を認識することにより、インデックス、安全性、および支援アプリケーションが可能になりますが、モーションの手がかりがありません。
ウォーキング、ランニング、座って、立っているとラベル付けされた285のMSCOCO画像を使用して、CNNSは41%の精度を獲得しました。
微調整マルチモーダルクリップはこれを76%に引き上げ、対照的なビジョン言語のトレーニングが現実世界の展開におけるまだイメージのアクション認識を決定的に改善することを示しています。
要約(オリジナル)
Recognising human activity in a single photo enables indexing, safety and assistive applications, yet lacks motion cues. Using 285 MSCOCO images labelled as walking, running, sitting, and standing, scratch CNNs scored 41% accuracy. Fine-tuning multimodal CLIP raised this to 76%, demonstrating that contrastive vision-language pre-training decisively improves still-image action recognition in real-world deployments.
arxiv情報
著者 | Cristina Mahanta,Gagan Bhatia |
発行日 | 2025-06-16 13:15:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google