要約
私たちは、エゴ中心のビデオにおける時空間表現のパフォーマンスを向上させるためのオブジェクト認識デコーダーを導入します。
重要なアイデアは、利用可能な場合はペアになったキャプションを使用して、手の位置、オブジェクトの位置、オブジェクトの意味ラベルを予測するようにモデルにタスクを課すことで、トレーニング中のオブジェクト認識を強化することです。
推論時には、モデルは入力として RGB フレームのみを必要とし、オブジェクトを追跡および接地することができます (ただし、このために明示的にトレーニングされていません)。
私たちは、モデルによって学習されたオブジェクト認識表現のパフォーマンスを次の方法で実証します。(i) 多数のダウンストリームのビデオテキスト検索および分類ベンチマークで、ゼロショットテストなどを通じて強力な転送を評価します。
(ii) 学習した表現を長期ビデオ理解タスクの入力として使用することによって (例: Ego4D のエピソード記憶)。
すべてのケースにおいて、はるかに大きなバッチ サイズでトレーニングされたネットワークと比較しても、パフォーマンスは最先端のものよりも向上しています。
また、ノイズの多い画像レベルの検出をトレーニングの擬似ラベルとして使用することにより、モデルはビデオの一貫性を使用してより適切な境界ボックスを提供することを学習し、関連するテキストの説明内の単語を根拠付けることも示します。
全体として、このモデルが自己中心的なビデオ モデルのドロップイン代替品として機能し、ビジュアル テキストの基礎を通じてパフォーマンスを向上させることができることを示します。
要約(オリジナル)
We introduce an object-aware decoder for improving the performance of spatio-temporal representations on ego-centric videos. The key idea is to enhance object-awareness during training by tasking the model to predict hand positions, object positions, and the semantic label of the objects using paired captions when available. At inference time the model only requires RGB frames as inputs, and is able to track and ground objects (although it has not been trained explicitly for this). We demonstrate the performance of the object-aware representations learnt by our model, by: (i) evaluating it for strong transfer, i.e. through zero-shot testing, on a number of downstream video-text retrieval and classification benchmarks; and (ii) by using the representations learned as input for long-term video understanding tasks (e.g. Episodic Memory in Ego4D). In all cases the performance improves over the state of the art — even compared to networks trained with far larger batch sizes. We also show that by using noisy image-level detection as pseudo-labels in training, the model learns to provide better bounding boxes using video consistency, as well as grounding the words in the associated text descriptions. Overall, we show that the model can act as a drop-in replacement for an ego-centric video model to improve performance through visual-text grounding.
arxiv情報
著者 | Chuhan Zhang,Ankush Gupta,Andrew Zisserman |
発行日 | 2023-08-15 17:58:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google