MonoMAE: Enhancing Monocular 3D Detection through Depth-Aware Masked Autoencoders

要約

単眼 3D 物体検出は、単一ビュー画像からの物体の正確な 3D 位置特定と識別を目的としています。
最近の進歩にもかかわらず、オブジェクトの寸法、深さ、方向の予測が複雑になり、精度が低下する傾向がある広範なオブジェクト オクルージョンを処理する際に苦労することがよくあります。
私たちは、Masked Autoencoders からインスピレーションを得た単眼 3D 検出器である MonoMAE を設計します。これは、特徴空間内のオブジェクトをマスクして再構成することでオブジェクト オクルージョンの問題に対処します。
MonoMAE は 2 つの斬新なデザインで構成されています。
1 つ目は、ネットワーク トレーニング用のオクルージョンされたオブジェクト クエリをシミュレートするために、特徴空間内のオクルージョンされていないオブジェクト クエリの特定の部分を選択的にマスクする深度認識マスキングです。
深度情報に従って、マスクされ保存されたクエリ部分のバランスを適応的に調整することにより、オクルージョンされていないオブジェクト クエリをマスクします。
2 つ目は軽量のクエリ補完で、深さを認識したマスキングと連携して、マスクされたオブジェクト クエリを再構築して完了する方法を学習します。
提案されたオブジェクトのオクルージョンと補完により、MonoMAE は、オクルージョンされたオブジェクトとオクルージョンされていないオブジェクトの両方について、定性的および定量的に優れた単眼 3D 検出パフォーマンスを達成する強化された 3D 表現を学習します。
さらに、MonoMAE は、新しいドメインでうまく機能する一般化可能な表現を学習します。

要約(オリジナル)

Monocular 3D object detection aims for precise 3D localization and identification of objects from a single-view image. Despite its recent progress, it often struggles while handling pervasive object occlusions that tend to complicate and degrade the prediction of object dimensions, depths, and orientations. We design MonoMAE, a monocular 3D detector inspired by Masked Autoencoders that addresses the object occlusion issue by masking and reconstructing objects in the feature space. MonoMAE consists of two novel designs. The first is depth-aware masking that selectively masks certain parts of non-occluded object queries in the feature space for simulating occluded object queries for network training. It masks non-occluded object queries by balancing the masked and preserved query portions adaptively according to the depth information. The second is lightweight query completion that works with the depth-aware masking to learn to reconstruct and complete the masked object queries. With the proposed object occlusion and completion, MonoMAE learns enriched 3D representations that achieve superior monocular 3D detection performance qualitatively and quantitatively for both occluded and non-occluded objects. Additionally, MonoMAE learns generalizable representations that can work well in new domains.

arxiv情報

著者 Xueying Jiang,Sheng Jin,Xiaoqin Zhang,Ling Shao,Shijian Lu
発行日 2024-05-13 12:32:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク