Egocentric Video Task Translation

要約

タイトル:Egocentric Video Task Translation(自己中心的ビデオタスクの翻訳)

要約:
– 異なるビデオ理解タスクは通常分離して扱われ、別の種類のカリキュレートされたデータでも区別されている。
– しかしながら、着用型カメラでは、周りの世界と関わる人の没入型自己中心的視点が、手先の操作、空間内の移動、人間同士の相互作用など、繋がりのあるビデオ理解タスクのウェブを提示している。
– 私たちは、これがより統一的なアプローチを必要とすると主張する。
– 私たちは、独立したタスクに最適化されたモデルのコレクションを取り、それらの出力を翻訳して、いずれかまたはすべてのタスクのパフォーマンスを改善するEgoTask Translation(EgoT2)を提案する。
– 伝統的な転移またはマルチタスク学習とは異なり、EgoT2の反転設計は、個別のタスク専用のバックボーンと、すべてのタスクで共有されるタスクトランスレーターから構成され、異なるタスク間の相乗効果を捉え、タスク競争を和らげる。
– Ego4Dからの広範なビデオタスクでモデルを実証し、既存の転移パラダイムよりも優れた結果を示し、Ego4D 2022ベンチマークチャレンジの4つでトップランクの結果を実現している。

要約(オリジナル)

Different video understanding tasks are typically treated in isolation, and even with distinct types of curated data (e.g., classifying sports in one dataset, tracking animals in another). However, in wearable cameras, the immersive egocentric perspective of a person engaging with the world around them presents an interconnected web of video understanding tasks — hand-object manipulations, navigation in the space, or human-human interactions — that unfold continuously, driven by the person’s goals. We argue that this calls for a much more unified approach. We propose EgoTask Translation (EgoT2), which takes a collection of models optimized on separate tasks and learns to translate their outputs for improved performance on any or all of them at once. Unlike traditional transfer or multi-task learning, EgoT2’s flipped design entails separate task-specific backbones and a task translator shared across all tasks, which captures synergies between even heterogeneous tasks and mitigates task competition. Demonstrating our model on a wide array of video tasks from Ego4D, we show its advantages over existing transfer paradigms and achieve top-ranked results on four of the Ego4D 2022 benchmark challenges.

arxiv情報

著者 Zihui Xue,Yale Song,Kristen Grauman,Lorenzo Torresani
発行日 2023-04-06 21:39:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク