PAg-NeRF: Towards fast and efficient end-to-end panoptic 3D representations for agricultural robotics

要約

農業におけるほとんどのロボットの監視および介入タスクでは、正確なシーンの理解が鍵となります。
この研究では、3D パノプティック シーンの理解を可能にする新しい NeRF ベースのシステムである PAg-NeRF を紹介します。
私たちの表現は、ノイズの多いロボットのオドメトリ ポーズと、フレーム間で一貫性のない ID を使用した自動パノプティック予測を含む画像シーケンスを使用してトレーニングされています。
このノイズの多い入力にもかかわらず、私たちのシステムは、一貫したインスタンス ID を使用して、シーン ジオメトリ、フォトリアリスティックなレンダリング、および 3D 一貫したパノラマ表現を出力できます。
私たちはこの新しいシステムを非常に困難な園芸シナリオで評価し、その際、事前に計算する必要がある正確なポーズではなく、騒々しいロボットのポーズを利用できる、エンドツーエンドの訓練可能なシステムを実証します。
ベースライン アプローチと比較して、ピーク S/N 比は 21.34dB から 23.37dB に改善され、パノラマ品質は 56.65% から 70.08% に改善されます。
さらに、私たちのアプローチはより高速であり、パラメータを約 12 分の 1 に減らしてメモリ効率を高めながら、推論時間を 2 倍以上改善するように調整できます。

要約(オリジナル)

Precise scene understanding is key for most robot monitoring and intervention tasks in agriculture. In this work we present PAg-NeRF which is a novel NeRF-based system that enables 3D panoptic scene understanding. Our representation is trained using an image sequence with noisy robot odometry poses and automatic panoptic predictions with inconsistent IDs between frames. Despite this noisy input, our system is able to output scene geometry, photo-realistic renders and 3D consistent panoptic representations with consistent instance IDs. We evaluate this novel system in a very challenging horticultural scenario and in doing so demonstrate an end-to-end trainable system that can make use of noisy robot poses rather than precise poses that have to be pre-calculated. Compared to a baseline approach the peak signal to noise ratio is improved from 21.34dB to 23.37dB while the panoptic quality improves from 56.65% to 70.08%. Furthermore, our approach is faster and can be tuned to improve inference time by more than a factor of 2 while being memory efficient with approximately 12 times fewer parameters.

arxiv情報

著者 Claus Smitt,Michael Halstead,Patrick Zimmer,Thomas Läbe,Esra Guclu,Cyrill Stachniss,Chris McCool
発行日 2023-09-11 09:35:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク