要約
この研究では、ビデオ理解におけるアクションとその効果を視覚的に接続する (CATE) という新しい概念を導入します。
CATE は、タスク計画やデモンストレーションからの学習などの分野に応用できます。
私たちは、CATE の概念の 2 つの異なる側面、つまりアクションの選択と効果との親和性の評価を特定し、調査します。ビデオ理解モデルは、アクションと効果をそれぞれ意味論的レベルと詳細なレベルで結び付けます。
さまざまな定式化によって、直感的なアクションの特性を捉えた表現が生成されることが観察されます。
また、アクションの選択と効果との親和性の評価のためのさまざまなベースライン モデルも設計します。
このタスクの直感的な性質にもかかわらず、モデルは苦戦しており、人間がモデルを大幅に上回っていることが観察されています。
この研究は、将来の取り組みのための基盤を確立することを目的としており、ビデオ理解におけるアクションと効果を結び付ける柔軟性と多用途性を示し、高度な定式化とモデルを生み出すことを期待しています。
要約(オリジナル)
In this work, we introduce the novel concept of visually Connecting Actions and Their Effects (CATE) in video understanding. CATE can have applications in areas like task planning and learning from demonstration. We identify and explore two different aspects of the concept of CATE: Action Selection and Effect-Affinity Assessment, where video understanding models connect actions and effects at semantic and fine-grained levels, respectively. We observe that different formulations produce representations capturing intuitive action properties. We also design various baseline models for Action Selection and Effect-Affinity Assessment. Despite the intuitive nature of the task, we observe that models struggle, and humans outperform them by a large margin. The study aims to establish a foundation for future efforts, showcasing the flexibility and versatility of connecting actions and effects in video understanding, with the hope of inspiring advanced formulations and models.
arxiv情報
著者 | Eric Peh,Paritosh Parmar,Basura Fernando |
発行日 | 2024-04-26 17:59:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google