EgoDistill: Egocentric Head Motion Distillation for Efficient Video Understanding

要約

近年の自己中心的な映像理解モデルの進歩は有望であるが、その計算量の多さが多くの実世界アプリケーションの障害となっている。この課題を解決するために、我々はEgoDistillを提案する。これは、疎なビデオフレーム集合からのセマンティクスと、軽量のIMU読み取りからの頭部運動を組み合わせることによって、重い自心ビデオクリップ特徴を再構成するために学習する蒸留ベースのアプローチである。さらに、IMUの特徴学習のための新しい自己教師付き学習戦略を考案する。本手法は、同等のビデオモデルと比べて200倍のGFLOPを必要とし、効率の大幅な向上につながる。我々は、Ego4DとEPICKitchenのデータセットでその有効性を実証し、我々の方法は、最新の効率的な映像理解方法を凌駕するものである。

要約(オリジナル)

Recent advances in egocentric video understanding models are promising, but their heavy computational expense is a barrier for many real-world applications. To address this challenge, we propose EgoDistill, a distillation-based approach that learns to reconstruct heavy egocentric video clip features by combining the semantics from a sparse set of video frames with the head motion from lightweight IMU readings. We further devise a novel self-supervised training strategy for IMU feature learning. Our method leads to significant improvements in efficiency, requiring 200x fewer GFLOPs than equivalent video models. We demonstrate its effectiveness on the Ego4D and EPICKitchens datasets, where our method outperforms state-of-the-art efficient video understanding methods.

arxiv情報

著者 Shuhan Tan,Tushar Nagarajan,Kristen Grauman
発行日 2023-01-05 18:39:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク