EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation

要約

このレポートでは、Ego4D チャレンジの 5 トラックと EPIC-Kitchens チャレンジの 3 トラックを含む、CVPR 2024 の EgoVis チャレンジに対するソリューションを紹介します。
ビデオ言語の 2 タワー モデルを基礎として、細心の注意を払って整理された自己中心的なビデオ データを活用して、EgoVideo と呼ばれる新しい基盤モデルを導入します。
このモデルは、自己中心的なビデオの独自の特性に対応するように特別に設計されており、コンテストへの提出を強力にサポートします。
Ego4D チャレンジでは、自然言語クエリ、ステップ グラウンディング、モーメント クエリ、短期的なオブジェクト インタラクションの予測、長期的なアクションの予測など、さまざまなタスクに取り組みます。
さらに、EPIC-Kitchens チャレンジにも参加し、アクション認識、複数インスタンスの取得、およびアクション認識のドメイン適応トラックに取り組みます。
EgoVideo をこれらの多様なタスクに適応させることで、さまざまな自己中心的なビデオ分析シナリオにおけるその多用途性と有効性を示し、自己中心的な基盤モデルとしての EgoVideo の強力な表現能力を実証します。
コードベースと事前トレーニングされたモデルは、https://github.com/OpenGVLab/EgoVideo で公開されています。

要約(オリジナル)

In this report, we present our solutions to the EgoVis Challenges in CVPR 2024, including five tracks in the Ego4D challenge and three tracks in the EPIC-Kitchens challenge. Building upon the video-language two-tower model and leveraging our meticulously organized egocentric video data, we introduce a novel foundation model called EgoVideo. This model is specifically designed to cater to the unique characteristics of egocentric videos and provides strong support for our competition submissions. In the Ego4D challenges, we tackle various tasks including Natural Language Queries, Step Grounding, Moment Queries, Short-term Object Interaction Anticipation, and Long-term Action Anticipation. In addition, we also participate in the EPIC-Kitchens challenge, where we engage in the Action Recognition, Multiple Instance Retrieval, and Domain Adaptation for Action Recognition tracks. By adapting EgoVideo to these diverse tasks, we showcase its versatility and effectiveness in different egocentric video analysis scenarios, demonstrating the powerful representation ability of EgoVideo as an egocentric foundation model. Our codebase and pretrained models are publicly available at https://github.com/OpenGVLab/EgoVideo.

arxiv情報

著者 Baoqi Pei,Guo Chen,Jilan Xu,Yuping He,Yicheng Liu,Kanghua Pan,Yifei Huang,Yali Wang,Tong Lu,Limin Wang,Yu Qiao
発行日 2024-07-01 02:44:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク