From a Bird’s Eye View to See: Joint Camera and Subject Registration without the Camera Calibration

要約

事前に与えられたカメラのキャリブレーションなしで、多視点カメラと鳥瞰図 (BEV) での被写体登録の新しい問題に取り組みます。
これは非常に困難な問題です。その唯一の入力は、BEV 画像と FPV のキャリブレーションなしで、複数の人物のシーンのさまざまな一人称ビュー (FPV) からの複数の RGB 画像であり、出力は
BEV 内の被写体とカメラの両方のローカリゼーションと向き。
この問題を解決するエンド ツー エンドのフレームワークを提案します。その主なアイデアは次の部分に分けることができます。
) カメラのローカリゼーションとビューの方向、つまり、統一された BEV でのカメラの登録を推定するための幾何学的変換ベースの方法を導き出すこと、iii) 空間情報と外観情報を利用して対象を統一された BEV に集約すること。
評価のための豊富な注釈を含む新しい大規模な合成データセットを収集します。
実験結果は、提案した方法の顕著な有効性を示している。

要約(オリジナル)

We tackle a new problem of multi-view camera and subject registration in the bird’s eye view (BEV) without pre-given camera calibration. This is a very challenging problem since its only input is several RGB images from different first-person views (FPVs) for a multi-person scene, without the BEV image and the calibration of the FPVs, while the output is a unified plane with the localization and orientation of both the subjects and cameras in a BEV. We propose an end-to-end framework solving this problem, whose main idea can be divided into following parts: i) creating a view-transform subject detection module to transform the FPV to a virtual BEV including localization and orientation of each pedestrian, ii) deriving a geometric transformation based method to estimate camera localization and view direction, i.e., the camera registration in a unified BEV, iii) making use of spatial and appearance information to aggregate the subjects into the unified BEV. We collect a new large-scale synthetic dataset with rich annotations for evaluation. The experimental results show the remarkable effectiveness of our proposed method.

arxiv情報

著者 Zekun Qian,Ruize Han,Wei Feng,Feifan Wang,Song Wang
発行日 2022-12-19 08:31:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク