要約
この論文では、ビデオ アクション検出におけるオクルージョンの影響について調査します。
私たちは、合成的に制御された静的/動的オクルージョンで構成される O-UCF と O-JHMDB、現実的な動きを持つオクルージョンで構成される OVIS-UCF と OVIS-JHMDB、そして現実世界のオクルージョン用の Real-OUCF という 5 つの新しいベンチマーク データセットを導入することでこの研究を促進します。
シナリオ。
私たちは直観的な予想を正式に確認します。既存のモデルは、オクルージョンの深刻度が増すにつれて大きな影響を受け、オクルーダーが静止しているときと動いているときでは異なる動作を示します。
私たちは、ニューラル ネットワークに現れているいくつかの興味深い現象を発見しました。 1) トランスフォーマーは、トレーニング中にデータ拡張の形式としてオクルージョンを使用した可能性さえある CNN モデルを自然に上回ることができます。 2) カプセルのようなシンボリック コンポーネントをそのようなバックボーンに組み込むことで、オクルーダーに決して結合できなくなります。
3) 合意の島は、インスタンスレベルの監督、蒸留、または対照ベースの目標 2 (ビデオとテキストのトレーニングなど) なしで、現実的な画像/ビデオに現れる可能性があります。
このような創発的な特性により、バインディング メカニズムの最初の 2 段階 (グループ化/分離) を帰納的に満たす堅牢なオクルージョン モデルにつながる、シンプルかつ効果的なトレーニング レシピを導き出すことができます。
これらのレシピを活用したモデルは、vMAP メトリックに関して、オクルージョン下の既存のビデオ アクション検出器よりも O-UCF で 32.3%、O-JHMDB で 32.7%、Real-OUCF で 2.6% 優れています。
この作業のコードは https://github.com/rajatmodi62/OccludedActionBenchmark で公開されています。
要約(オリジナル)
This paper explores the impact of occlusions in video action detection. We facilitate this study by introducing five new benchmark datasets namely O-UCF and O-JHMDB consisting of synthetically controlled static/dynamic occlusions, OVIS-UCF and OVIS-JHMDB consisting of occlusions with realistic motions and Real-OUCF for occlusions in realistic-world scenarios. We formally confirm an intuitive expectation: existing models suffer a lot as occlusion severity is increased and exhibit different behaviours when occluders are static vs when they are moving. We discover several intriguing phenomenon emerging in neural nets: 1) transformers can naturally outperform CNN models which might have even used occlusion as a form of data augmentation during training 2) incorporating symbolic-components like capsules to such backbones allows them to bind to occluders never even seen during training and 3) Islands of agreement can emerge in realistic images/videos without instance-level supervision, distillation or contrastive-based objectives2(eg. video-textual training). Such emergent properties allow us to derive simple yet effective training recipes which lead to robust occlusion models inductively satisfying the first two stages of the binding mechanism (grouping/segregation). Models leveraging these recipes outperform existing video action-detectors under occlusion by 32.3% on O-UCF, 32.7% on O-JHMDB & 2.6% on Real-OUCF in terms of the vMAP metric. The code for this work has been released at https://github.com/rajatmodi62/OccludedActionBenchmark.
arxiv情報
著者 | Rajat Modi,Vibhav Vineet,Yogesh Singh Rawat |
発行日 | 2024-10-25 13:27:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google