Opening the Vocabulary of Egocentric Actions

要約

自己中心的なビデオにおける人間の動作は、多くの場合、オブジェクトに適用される動詞 (手で実行される) から構成される手とオブジェクトの相互作用です。
大規模なスケールアップにもかかわらず、自己中心的なデータセットは依然として 2 つの制限に直面しています。それは、アクション構成の希薄さと、相互作用するオブジェクトの閉じたセットです。
この論文は、新しいオープンボキャブラリーのアクション認識タスクを提案します。
トレーニング中に観察された動詞とオブジェクトのセットが与えられた場合、目標は、動詞を、見たものや新しいオブジェクトを使用したアクションのオープンな語彙に一般化することです。
この目的を達成するために、オブジェクトに依存しない動詞エンコーダーとプロンプトベースのオブジェクト エンコーダーを介して、動詞とオブジェクトの予測を分離します。
プロンプトは CLIP 表現を利用して、対話するオブジェクトのオープンボキャブラリーを予測します。
EPIC-KITCHENS-100 および Assembly101 データセットでオープンボキャブラリーのベンチマークを作成します。
クローズドアクション法は一般化できませんが、提案した方法は効果的です。
さらに、私たちのオブジェクト エンコーダは、新しい相互作用するオブジェクトの認識において、既存のオープンボキャブラリー視覚認識方法よりも大幅に優れています。

要約(オリジナル)

Human actions in egocentric videos are often hand-object interactions composed from a verb (performed by the hand) applied to an object. Despite their extensive scaling up, egocentric datasets still face two limitations – sparsity of action compositions and a closed set of interacting objects. This paper proposes a novel open vocabulary action recognition task. Given a set of verbs and objects observed during training, the goal is to generalize the verbs to an open vocabulary of actions with seen and novel objects. To this end, we decouple the verb and object predictions via an object-agnostic verb encoder and a prompt-based object encoder. The prompting leverages CLIP representations to predict an open vocabulary of interacting objects. We create open vocabulary benchmarks on the EPIC-KITCHENS-100 and Assembly101 datasets; whereas closed-action methods fail to generalize, our proposed method is effective. In addition, our object encoder significantly outperforms existing open-vocabulary visual recognition methods in recognizing novel interacting objects.

arxiv情報

著者 Dibyadip Chatterjee,Fadime Sener,Shugao Ma,Angela Yao
発行日 2023-08-22 15:08:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク