Is an Object-Centric Video Representation Beneficial for Transfer?

要約

この作業の目的は、オブジェクト中心のビデオ表現を学習することであり、新しいタスク、つまり、アクション分類のトレーニング前のタスクとは異なるタスクへの転送可能性を向上させることを目的としています。
この目的のために、トランスアーキテクチャに基づく新しいオブジェクト中心のビデオ認識モデルを紹介します。
モデルは、ビデオのオブジェクト中心の要約ベクトルのセットを学習し、これらのベクトルを使用して、ビデオクリップの視覚的および時空間的な軌跡の「モダリティ」を融合します。
また、これらの要約ベクトルの客観性をさらに高めるために、新しい軌道コントラスト損失を紹介します。
4つのデータセット(SomethingSomething-V2、SomethingElse、Action Genome、EpicKitchens)での実験により、次の場合に、オブジェクト中心のモデルが以前のビデオ表現(オブジェクトにとらわれないものとオブジェクトに対応するものの両方)よりも優れていることを示します。
目に見えないオブジェクトと目に見えない環境。
(2)新しいクラスへのローショット学習。
(3)他のダウンストリームタスクへの線形プローブ。
(4)標準アクション分類用。

要約(オリジナル)

The objective of this work is to learn an object-centric video representation, with the aim of improving transferability to novel tasks, i.e., tasks different from the pre-training task of action classification. To this end, we introduce a new object-centric video recognition model based on a transformer architecture. The model learns a set of object-centric summary vectors for the video, and uses these vectors to fuse the visual and spatio-temporal trajectory `modalities’ of the video clip. We also introduce a novel trajectory contrast loss to further enhance objectness in these summary vectors. With experiments on four datasets — SomethingSomething-V2, SomethingElse, Action Genome and EpicKitchens — we show that the object-centric model outperforms prior video representations (both object-agnostic and object-aware), when: (1) classifying actions on unseen objects and unseen environments; (2) low-shot learning to novel classes; (3) linear probe to other downstream tasks; as well as (4) for standard action classification.

arxiv情報

著者 Chuhan Zhang,Ankush Gupta,Andrew Zisserman
発行日 2022-07-20 17:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク