Are Visual-Language Models Effective in Action Recognition? A Comparative Study

要約

CLIP などの現在のビジョン言語基盤モデルは、最近、さまざまな下流タスクにわたってパフォーマンスが大幅に向上していることが示されています。
ただし、そのような基礎モデルが、より複雑で詳細な動作認識タスクを大幅に改善するかどうかは、まだ未解決の問題です。
この質問に答え、野外での人間の行動分析に関する将来の研究の方向性をより良く知るために、この論文は、現在の最先端の視覚基盤モデルの大規模な研究と洞察を提供します。
ゼロショットおよびフレームごとのアクション認識タスク。
アクションの分類とセグメンテーションを含む、最新のきめ細かい人間中心のアクション認識データセット (Toyota Smarthome、Penn Action、UAV-Human、TSU、Charade など) に対して広範な実験が行われています。

要約(オリジナル)

Current vision-language foundation models, such as CLIP, have recently shown significant improvement in performance across various downstream tasks. However, whether such foundation models significantly improve more complex fine-grained action recognition tasks is still an open question. To answer this question and better find out the future research direction on human behavior analysis in-the-wild, this paper provides a large-scale study and insight on current state-of-the-art vision foundation models by comparing their transfer ability onto zero-shot and frame-wise action recognition tasks. Extensive experiments are conducted on recent fine-grained, human-centric action recognition datasets (e.g., Toyota Smarthome, Penn Action, UAV-Human, TSU, Charades) including action classification and segmentation.

arxiv情報

著者 Mahmoud Ali,Di Yang,François Brémond
発行日 2024-10-22 16:28:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク