Mitigating and Evaluating Static Bias of Action Representations in the Background and the Foreground




– 動画のアクション認識において、ショートカット静的特徴は動きの特徴の学習を妨げ、分布外一般化が悪化する可能性がある。
– 動画の背景は静的バイアスの原因として明確であるが、俳優の衣服などの動画の前景も静的バイアスを提供する可能性があることが、この論文で実証された。
– この問題に対処するために、StillMixと呼ばれるシンプルかつ効果的なテクニックを提案し、堅牢なアクション表現を学習することを提案している。
– 具体的には、StillMixは2Dリファレンスネットワークを用いてバイアスの原因となるビデオフレームを特定し、トレーニング用のビデオと混合することによって有効なバイアス抑制を実現する。
– そして、静的バイアスを正確に評価するために、この論文では静止画の背景における静的手掛かりのためのSCUBA、前景における静的手掛かりのためのSCUFOの2つのベンチマークを合成した。
– 豊富な実験により、StillMixが両方のタイプの静的バイアスを軽減し、下流のアプリケーションのためのビデオ表現を改善することが示された。


In video action recognition, shortcut static features can interfere with the learning of motion features, resulting in poor out-of-distribution (OOD) generalization. The video background is clearly a source of static bias, but the video foreground, such as the clothing of the actor, can also provide static bias. In this paper, we empirically verify the existence of foreground static bias by creating test videos with conflicting signals from the static and moving portions of the video. To tackle this issue, we propose a simple yet effective technique, StillMix, to learn robust action representations. Specifically, StillMix identifies bias-inducing video frames using a 2D reference network and mixes them with videos for training, serving as effective bias suppression even when we cannot explicitly extract the source of bias within each video frame or enumerate types of bias. Finally, to precisely evaluate static bias, we synthesize two new benchmarks, SCUBA for static cues in the background, and SCUFO for static cues in the foreground. With extensive experiments, we demonstrate that StillMix mitigates both types of static bias and improves video representations for downstream applications.


著者 Haoxin Li,Yuan Liu,Hanwang Zhang,Boyang Li
発行日 2023-04-07 09:16:43+00:00
arxiv_id(pdf)

