Learning to Visually Connect Actions and their Effects

要約

ビデオ理解におけるアクションとその効果の視覚的接続 (CATE) という新しい概念を導入します。
CATE は、タスク計画やデモンストレーションからの学習などの分野に応用できます。
私たちは、CATE の概念の 2 つの異なる側面、アクション選択 (AS) と効果親和性評価 (EAA) を特定し、調査します。これらの側面では、ビデオ理解モデルがアクションと効果をそれぞれ意味論的レベルと詳細なレベルで結び付けます。
AS および EAA のさまざまなベースライン モデルを設計します。
このタスクの直感的な性質にもかかわらず、モデルは苦戦しており、人間がモデルを大幅に上回っていることが観察されています。
私たちの実験によると、AS と EAA を解決する際に、モデルは明示的な監視なしでオブジェクト追跡やポーズ エンコーディングなどの直感的なプロパティを学習します。
我々は、CATE がラベルのないビデオからビデオ表現を学習するための効果的な自己教師ありタスクとなり得ることを実証します。
この研究は、CATE の基本的な性質と多用途性を示すことを目的としており、高度な定式化とモデルを生み出すことを期待しています。

要約(オリジナル)

We introduce the novel concept of visually Connecting Actions and Their Effects (CATE) in video understanding. CATE can have applications in areas like task planning and learning from demonstration. We identify and explore two different aspects of the concept of CATE: Action Selection (AS) and Effect-Affinity Assessment (EAA), where video understanding models connect actions and effects at semantic and fine-grained levels, respectively. We design various baseline models for AS and EAA. Despite the intuitive nature of the task, we observe that models struggle, and humans outperform them by a large margin. Our experiments show that in solving AS and EAA, models learn intuitive properties like object tracking and pose encoding without explicit supervision. We demonstrate that CATE can be an effective self-supervised task for learning video representations from unlabeled videos. The study aims to showcase the fundamental nature and versatility of CATE, with the hope of inspiring advanced formulations and models.

arxiv情報

著者 Paritosh Parmar,Eric Peh,Basura Fernando
発行日 2024-07-26 16:00:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク