要約
このレポートでは、Ego4D チャレンジで 5 つのトラックにチャンピオン ソリューションを紹介します。
モーメント クエリ、自然言語クエリ、未来の手の予測、状態変化オブジェクトの検出、および短期的なオブジェクトの相互作用の予測を含む 5 つの Ego4D タスクに、開発したビデオ基盤モデルである InternVideo を活用します。
InternVideo-Ego4D は、強力な基盤モデルを下流のエゴ中心のビデオ理解タスクにシンプルなヘッド デザインで適応させるための効果的なパラダイムです。
これら 5 つのタスクにおいて、InternVideo-Ego4D のパフォーマンスはベースライン メソッドと CVPR2022 のチャンピオンを総合的に上回り、ビデオ基盤モデルとしての InternVideo の強力な表現能力を示しています。
コードは https://github.com/OpenGVLab/ego4d-eccv2022-solutions でリリースされます
要約(オリジナル)
In this report, we present our champion solutions to five tracks at Ego4D challenge. We leverage our developed InternVideo, a video foundation model, for five Ego4D tasks, including Moment Queries, Natural Language Queries, Future Hand Prediction, State Change Object Detection, and Short-term Object Interaction Anticipation. InternVideo-Ego4D is an effective paradigm to adapt the strong foundation model to the downstream ego-centric video understanding tasks with simple head designs. In these five tasks, the performance of InternVideo-Ego4D comprehensively surpasses the baseline methods and the champions of CVPR2022, demonstrating the powerful representation ability of InternVideo as a video foundation model. Our code will be released at https://github.com/OpenGVLab/ego4d-eccv2022-solutions
arxiv情報
著者 | Guo Chen,Sen Xing,Zhe Chen,Yi Wang,Kunchang Li,Yizhuo Li,Yi Liu,Jiahao Wang,Yin-Dong Zheng,Bingkun Huang,Zhiyu Zhao,Junting Pan,Yifei Huang,Zun Wang,Jiashuo Yu,Yinan He,Hongjie Zhang,Tong Lu,Yali Wang,Limin Wang,Yu Qiao |
発行日 | 2022-11-17 13:45:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google