要約
大規模なデータセットで事前トレーニングされた視覚言語モデル (VLM) は、さまざまな視覚認識タスクで優れたパフォーマンスを示しています。
この進歩により、Zero-Shot Egocentric Action Recognition (ZS-EAR) における顕著なパフォーマンスへの道が開かれます。
通常、VLM は ZS-EAR をグローバルなビデオとテキストのマッチング タスクとして処理しますが、これにより視覚と言語知識が最適に調整されないことがよくあります。
私たちは、VLM を使用した ZS-EAR の洗練されたアプローチを提案し、自己中心的なビデオの豊かな意味論的および文脈上の詳細を活用する、きめ細かい概念と説明の調整を強調します。
このペーパーでは、視覚と言語の間の概念と記述のきめ細かい調整を強化するように設計された、ZS-EAR 用の簡単でありながら非常に強力な VLM フレームワークである GPT4Ego を紹介します。
広範な実験により、EPIC-KITCHENS-100 (33.2%、+9.4%)、EGTEA (39.6%、+5.5%)、CharadesEgo (31.5%、+) という 3 つの大規模な自己中心的なビデオ ベンチマークで、GPT4Ego が既存の VLM よりも大幅に優れていることが実証されました。
2.6%)。
要約(オリジナル)
Vision-Language Models (VLMs), pre-trained on large-scale datasets, have shown impressive performance in various visual recognition tasks. This advancement paves the way for notable performance in Zero-Shot Egocentric Action Recognition (ZS-EAR). Typically, VLMs handle ZS-EAR as a global video-text matching task, which often leads to suboptimal alignment of vision and linguistic knowledge. We propose a refined approach for ZS-EAR using VLMs, emphasizing fine-grained concept-description alignment that capitalizes on the rich semantic and contextual details in egocentric videos. In this paper, we introduce GPT4Ego, a straightforward yet remarkably potent VLM framework for ZS-EAR, designed to enhance the fine-grained alignment of concept and description between vision and language. Extensive experiments demonstrate GPT4Ego significantly outperforms existing VLMs on three large-scale egocentric video benchmarks, i.e., EPIC-KITCHENS-100 (33.2%, +9.4%), EGTEA (39.6%, +5.5%), and CharadesEgo (31.5%, +2.6%).
arxiv情報
著者 | Guangzhao Dai,Xiangbo Shu,Wenhao Wu |
発行日 | 2024-01-18 15:04:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google