Inverse Neural Rendering for Explainable Multi-Object Tracking

要約

現在、画像理解タスクのほとんどの方法はフィードフォワード ニューラル ネットワークに依存しています。
このアプローチでは、微調整による経験的な精度、効率、およびタスクの適応が可能ですが、根本的な欠点もあります。
既存のネットワークは、同じタスクであっても、異なるデータセット間で一般化するのに苦労することがよくあります。
設計上、これらのネットワークは最終的に、分析が困難な高次元のシーンの特徴を推論します。
これは、2D 画像に基づいて 3D 情報を予測しようとする場合に特に当てはまります。
私たちは、RGB カメラからの 3D マルチオブジェクト追跡を \emph{逆レンダリング (IR)} 問題として再構築することを提案します。これは、事前にトレーニングされた 3D オブジェクト表現の潜在空間に対して微分可能なレンダリング パイプラインを介して最適化し、最もよく表現される潜在空間を取得することによって行われます。
指定された入力イメージ内のオブジェクト インスタンス。
この目的を達成するために、形状と外観の特性を本質的に解きほぐす生成潜在空間上の画像損失を最適化します。
私たちは追跡の別の解釈を調査するだけでなく、私たちの方法により、生成されたオブジェクトを調査し、障害状況について推論し、あいまいなケースを解決することも可能になります。
合成データのみから生成事前分布を学習し、nuScenes および Waymo データセットでのカメラベースの 3D トラッキングを評価することで、手法の一般化とスケーリング機能を検証します。
これらのデータセットはどちらも私たちの方法ではまったく認識されないため、微調整する必要はありません。
ビデオとコードは https://light.princeton.edu/inverse-rendering-tracking/ で入手できます。

要約(オリジナル)

Today, most methods for image understanding tasks rely on feed-forward neural networks. While this approach has allowed for empirical accuracy, efficiency, and task adaptation via fine-tuning, it also comes with fundamental disadvantages. Existing networks often struggle to generalize across different datasets, even on the same task. By design, these networks ultimately reason about high-dimensional scene features, which are challenging to analyze. This is true especially when attempting to predict 3D information based on 2D images. We propose to recast 3D multi-object tracking from RGB cameras as an \emph{Inverse Rendering (IR)} problem, by optimizing via a differentiable rendering pipeline over the latent space of pre-trained 3D object representations and retrieve the latents that best represent object instances in a given input image. To this end, we optimize an image loss over generative latent spaces that inherently disentangle shape and appearance properties. We investigate not only an alternate take on tracking but our method also enables examining the generated objects, reasoning about failure situations, and resolving ambiguous cases. We validate the generalization and scaling capabilities of our method by learning the generative prior exclusively from synthetic data and assessing camera-based 3D tracking on the nuScenes and Waymo datasets. Both these datasets are completely unseen to our method and do not require fine-tuning. Videos and code are available at https://light.princeton.edu/inverse-rendering-tracking/.

arxiv情報

著者 Julian Ost,Tanushree Banerjee,Mario Bijelic,Felix Heide
発行日 2024-04-18 17:37:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.RO パーマリンク