要約
ビデオ分析では、背景モデルには、背景/前景の分離、変化検出、異常検出、追跡など、多くの用途があります。
ただし、静的カメラでキャプチャされたビデオでそのようなモデルを学習することはかなり解決されたタスクですが、移動カメラ背景モデル (MCBM) の場合、アルゴリズムとスケーラビリティの課題により、成功ははるかに控えめです。
カメラの動きによって発生します。
したがって、既存の MCBM は、その範囲とサポートされるカメラ モーション タイプが制限されています。
これらのハードルは、この教師なしタスクでのディープ ラーニング (DL) に基づくエンド ツー エンド ソリューションの採用も妨げていました。
さらに、既存の MCBM は通常、通常は大規模なパノラマ画像のドメインまたはオンラインで背景をモデル化します。
残念ながら、前者はスケーラビリティの低下など、いくつかの問題を引き起こしますが、後者は、カメラがシーンの以前に見た部分を再訪する場合の認識と活用を妨げます.
このホワイト ペーパーでは、DeepMCBM と呼ばれる新しい方法を提案します。この方法は、前述の問題をすべて解消し、最先端の結果を達成します。
具体的には、まず、一般的なビデオ フレームのジョイント アラインメント、特に DL 設定に関連する問題を特定します。
次に、正則化も特殊な (微分不可能な) 初期化も行わない空間トランスフォーマー ネットを使用できるようにする、ジョイント アラインメントの新しい戦略を提案します。
歪みのないロバストな中心モーメント (関節の位置合わせから取得) を条件とするオートエンコーダーと組み合わせることで、広範囲のカメラの動きと適切なスケーリングをサポートするエンドツーエンドの正則化のない MCBM が得られます。
他の方法の範囲を超えたものを含む、さまざまなビデオで DeepMCBM のユーティリティを示します。
コードは https://github.com/BGU-CS-VIL/DeepMCBM で入手できます。
要約(オリジナル)
In video analysis, background models have many applications such as background/foreground separation, change detection, anomaly detection, tracking, and more. However, while learning such a model in a video captured by a static camera is a fairly-solved task, in the case of a Moving-camera Background Model (MCBM), the success has been far more modest due to algorithmic and scalability challenges that arise due to the camera motion. Thus, existing MCBMs are limited in their scope and their supported camera-motion types. These hurdles also impeded the employment, in this unsupervised task, of end-to-end solutions based on deep learning (DL). Moreover, existing MCBMs usually model the background either on the domain of a typically-large panoramic image or in an online fashion. Unfortunately, the former creates several problems, including poor scalability, while the latter prevents the recognition and leveraging of cases where the camera revisits previously-seen parts of the scene. This paper proposes a new method, called DeepMCBM, that eliminates all the aforementioned issues and achieves state-of-the-art results. Concretely, first we identify the difficulties associated with joint alignment of video frames in general and in a DL setting in particular. Next, we propose a new strategy for joint alignment that lets us use a spatial transformer net with neither a regularization nor any form of specialized (and non-differentiable) initialization. Coupled with an autoencoder conditioned on unwarped robust central moments (obtained from the joint alignment), this yields an end-to-end regularization-free MCBM that supports a broad range of camera motions and scales gracefully. We demonstrate DeepMCBM’s utility on a variety of videos, including ones beyond the scope of other methods. Our code is available at https://github.com/BGU-CS-VIL/DeepMCBM .
arxiv情報
著者 | Guy Erez,Ron Shapira Weber,Oren Freifeld |
発行日 | 2022-09-16 13:36:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google