A Backpack Full of Skills: Egocentric Video Understanding with Diverse Task Perspectives

要約

ビデオ ストリームに対する人間の理解力は当然幅広く、瞬時に何が起こっているのか、オブジェクトの関連性や関係性を理解し、近い将来に何が起こるかをすべて一度に予測することができます。
私たちは、そのような全体的な認識をインテリジェントなマシンに効果的に伝達するには、概念を相互に関連付け、さまざまなタスクから得られる知識を抽象化し、新しいスキルを学習する際にそれらを相乗的に活用することを学ぶことが重要な役割を果たすと信じています。
これを達成するために、私たちは最小限のオーバーヘッドで人間の行動の共有時間モデリングを組み合わせ、複数の下流タスクをサポートし、新しいスキルを学習する際の協力を可能にする、ビデオ理解への統一されたアプローチを模索しています。
次に、下流のタスク間で実行でき、追加の洞察の潜在的なソースとして使用できるタスクの視点のコレクションを作成するソリューションである EgoPack を、ロボットが持ち歩いて必要なときに使用できるスキルのバックパックとして提案します。
私たちは、4 つの Ego4D ベンチマークで当社のアプローチの有効性と効率性を実証し、現在の最先端の手法を上回るパフォーマンスを示します。

要約(オリジナル)

Human comprehension of a video stream is naturally broad: in a few instants, we are able to understand what is happening, the relevance and relationship of objects, and forecast what will follow in the near future, everything all at once. We believe that – to effectively transfer such an holistic perception to intelligent machines – an important role is played by learning to correlate concepts and to abstract knowledge coming from different tasks, to synergistically exploit them when learning novel skills. To accomplish this, we seek for a unified approach to video understanding which combines shared temporal modelling of human actions with minimal overhead, to support multiple downstream tasks and enable cooperation when learning novel skills. We then propose EgoPack, a solution that creates a collection of task perspectives that can be carried across downstream tasks and used as a potential source of additional insights, as a backpack of skills that a robot can carry around and use when needed. We demonstrate the effectiveness and efficiency of our approach on four Ego4D benchmarks, outperforming current state-of-the-art methods.

arxiv情報

著者 Simone Alberto Peirone,Francesca Pistilli,Antonio Alliegro,Giuseppe Averta
発行日 2024-03-05 15:18:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク