MonoCoP: Chain-of-Prediction for Monocular 3D Object Detection

要約

3D属性を正確に予測することは、単眼3Dオブジェクト検出(Mono3D)にとって重要であり、2D画像を3Dスペースにマッピングすることに固有のあいまいさのために深さ推定が最大の課題となります。
既存の方法は、深さの精度を向上させるために複数の深度キュー(深さの不確実性、モデリングの深さエラーの推定、モデリングの推定など)を活用していますが、これらの属性は3Dから2Dプロジェクションを通じて本質的に相互に相関するため、他の3D属性の条件付けが必要であり、最終的には全体的な精度と安定性を制限しているため
大規模な言語モデル(LLMS)のチェーンオブ思考(COT)に触発されたこのペーパーでは、3つの重要なデザインを介して属性を順次および条件付きで予測する予測チェーン(COP)を活用するMonocopを提案します。
まず、各3D属性に対して軽量の属性(AN)を使用して、属性固有の機能を学習します。
次に、Monocopは、これらの学習された機能を次の属性から次の属性に伝播するための明示的なチェーンを構築します。
最後に、Monocopは、チェーンに沿った各属性の集約機能への残留接続を使用して、以前の属性の機能を忘れずに、以前に処理されたすべての属性に対して後の属性予測が条件付けられるようにします。
実験結果は、モノコップが追加のデータを必要とせずにキッティリーダーボードで最先端の(SOTA)パフォーマンスを達成し、WAYMOおよびNuscenesの前頭データセットの既存の方法をさらに上回ることを示しています。

要約(オリジナル)

Accurately predicting 3D attributes is crucial for monocular 3D object detection (Mono3D), with depth estimation posing the greatest challenge due to the inherent ambiguity in mapping 2D images to 3D space. While existing methods leverage multiple depth cues (e.g., estimating depth uncertainty, modeling depth error) to improve depth accuracy, they overlook that accurate depth prediction requires conditioning on other 3D attributes, as these attributes are intrinsically inter-correlated through the 3D to 2D projection, which ultimately limits overall accuracy and stability. Inspired by Chain-of-Thought (CoT) in large language models (LLMs), this paper proposes MonoCoP, which leverages a Chain-of-Prediction (CoP) to predict attributes sequentially and conditionally via three key designs. First, it employs a lightweight AttributeNet (AN) for each 3D attribute to learn attribute-specific features. Next, MonoCoP constructs an explicit chain to propagate these learned features from one attribute to the next. Finally, MonoCoP uses a residual connection to aggregate features for each attribute along the chain, ensuring that later attribute predictions are conditioned on all previously processed attributes without forgetting the features of earlier ones. Experimental results show that our MonoCoP achieves state-of-the-art (SoTA) performance on the KITTI leaderboard without requiring additional data and further surpasses existing methods on the Waymo and nuScenes frontal datasets.

arxiv情報

著者 Zhihao Zhang,Abhinav Kumar,Girish Chandar Ganesan,Xiaoming Liu
発行日 2025-05-08 06:18:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク