3D Object Positioning Using Differentiable Multimodal Learning

要約

この記事では、レイ トレーシングおよび微分可能レンダリングによる画像ピクセル損失によるシミュレートされた Lidar データを使用して、コンピューター グラフィックス シーン内の観察者またはいくつかの参照オブジェクトに対するオブジェクトの位置を最適化するマルチモーダルな方法について説明します。
オブジェクト位置の最適化は、両方のモダリティの影響を受ける損失関数を使用した勾配降下法を使用して完了します。
一般的なオブジェクト配置の最適化は、微分可能なレンダリングのみで画像ピクセルの損失を使用して行われますが、この研究では、2 番目のモダリティ (Lidar) の使用がより高速な収束につながることを示しています。
センサー入力を融合するこの方法は、シーン内の複数のアクターの位置を確立するために使用できるため、自動運転車にとって潜在的な有用性を示しています。
この記事では、自動運転車のトレーニングに使用される複数の種類のデータをシミュレーションする方法も紹介します。

要約(オリジナル)

This article describes a multi-modal method using simulated Lidar data via ray tracing and image pixel loss with differentiable rendering to optimize an object’s position with respect to an observer or some referential objects in a computer graphics scene. Object position optimization is completed using gradient descent with the loss function being influenced by both modalities. Typical object placement optimization is done using image pixel loss with differentiable rendering only, this work shows the use of a second modality (Lidar) leads to faster convergence. This method of fusing sensor input presents a potential usefulness for autonomous vehicles, as these methods can be used to establish the locations of multiple actors in a scene. This article also presents a method for the simulation of multiple types of data to be used in the training of autonomous vehicles.

arxiv情報

著者 Sean Zanyk-McLean,Krishna Kumar,Paul Navratil
発行日 2023-09-06 17:30:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO, cs.SY, eess.SY パーマリンク