要約
物体ごとの距離推定は、安全性が極めて重要な監視や自律走行において重要である。既存の手法は幾何学的特徴や深い教師あり特徴に依存しているが、自己教師あり学習を活用する試みはわずかである。この点に関して、我々の論文はマスク画像モデリング(MiM)からインスピレーションを得て、それを多オブジェクトタスクに拡張する。MiMは大域的な画像レベルの表現を抽出することに重点を置いているが、画像内の個々のオブジェクトについては苦戦している。これは距離推定には不利であり、遠くにある物体は画像の無視できる部分に対応するからである。逆に、マスクドオブジェクトモデリング(MoM)と呼ばれる我々の戦略は、マスキング技術の新しい応用を可能にする。簡単に言えば、シーン内で検出された物体に関連する画像部分を再構成する補助目的を考案する。学習段階は、マスキング目的と下流損失(すなわち距離推定)を同時に最適化する、単一の統合された段階で実行される。 標準的なKITTI、NuScenes、MOTSynthデータセットを用いて、新しい参照アーキテクチャ(DistFormer)上でのMoMの有効性を評価する。この評価により、我々のフレームワークがSoTAを凌駕し、そのロバストな正則化特性を強調することが明らかになった。MoM戦略は、合成領域から実領域まで、ゼロショットと少数ショットの両方の能力を向上させる。最後に、オクルージョンや検出不良の物体が存在する場合のモデルのロバスト性をさらに向上させる。コードはhttps://github.com/apanariello4/DistFormer。
要約(オリジナル)
Per-object distance estimation is critical in surveillance and autonomous driving, where safety is crucial. While existing methods rely on geometric or deep supervised features, only a few attempts have been made to leverage self-supervised learning. In this respect, our paper draws inspiration from Masked Image Modeling (MiM) and extends it to multi-object tasks. While MiM focuses on extracting global image-level representations, it struggles with individual objects within the image. This is detrimental for distance estimation, as objects far away correspond to negligible portions of the image. Conversely, our strategy, termed Masked Object Modeling (MoM), enables a novel application of masking techniques. In a few words, we devise an auxiliary objective that reconstructs the portions of the image pertaining to the objects detected in the scene. The training phase is performed in a single unified stage, simultaneously optimizing the masking objective and the downstream loss (i.e., distance estimation). We evaluate the effectiveness of MoM on a novel reference architecture (DistFormer) on the standard KITTI, NuScenes, and MOTSynth datasets. Our evaluation reveals that our framework surpasses the SoTA and highlights its robust regularization properties. The MoM strategy enhances both zero-shot and few-shot capabilities, from synthetic to real domain. Finally, it furthers the robustness of the model in the presence of occluded or poorly detected objects. Code is available at https://github.com/apanariello4/DistFormer
arxiv情報
著者 | Aniello Panariello,Gianluca Mancusi,Fedy Haj Ali,Angelo Porrello,Simone Calderara,Rita Cucchiara |
発行日 | 2025-02-04 16:50:19+00:00 |
arxivサイト | arxiv_id(pdf) |