Semantic Segmentation and Scene Reconstruction of RGB-D Image Frames: An End-to-End Modular Pipeline for Robotic Applications

要約

構造化されていない環境で動作するロボットには、周囲の包括的な理解が必要であり、センサーデータからの幾何学的および意味情報が必要です。
従来のRGB-D処理パイプラインは、主に幾何学的再構築に焦点を当て、高度なロボット認識、計画、および相互作用をサポートする能力を制限します。
重要な課題は、正確な幾何学的表現を維持しながら、RGB-Dデータを意味的に意味のあるコンポーネントにセグメント化するための一般化された方法がないことです。
最先端のセマンティックセグメンテーション、人間の追跡、ポイントクラウド融合、シーンの再建を統合する新しいエンドツーエンドモジュラーパイプラインを紹介します。
私たちのアプローチは、基礎セグメンテーションモデルのSAM2をマスク生成とセマンティック分類モデルを組み合わせたハイブリッドメソッドで活用することにより、セマンティックセグメンテーションの精度を向上させ、よりシャープなマスクと高分類の精度をもたらします。
SegformerおよびOneFormerと比較して、私たちの方法は、同様のセマンティックセグメンテーション精度(ADE20Kデータセットで47.0%対45.9%のMIOU)を達成しますが、より正確なオブジェクト境界を提供します。
さらに、当社の人間の追跡アルゴリズムは、オブジェクトがオブジェクトの再識別によってフレームに再入力した場合でも連続追跡を可能にするセグメンテーションと相互作用します。
ポイントクラウドフュージョンアプローチは、セマンティック情報を活用することにより、25.3 mmの小さな平均再構成誤差を維持しながら、計算時間を1.81倍短縮します。
ベンチマークデータセットと実世界のKinect RGB-Dデータに関するアプローチを検証し、効率、精度、使いやすさの向上を示します。
ユニバーサルシーンの説明(USD)形式に保存されている構造化された表現は、効率的なクエリ、視覚化、ロボットシミュレーションをサポートし、実際の展開に実用的にします。

要約(オリジナル)

Robots operating in unstructured environments require a comprehensive understanding of their surroundings, necessitating geometric and semantic information from sensor data. Traditional RGB-D processing pipelines focus primarily on geometric reconstruction, limiting their ability to support advanced robotic perception, planning, and interaction. A key challenge is the lack of generalized methods for segmenting RGB-D data into semantically meaningful components while maintaining accurate geometric representations. We introduce a novel end-to-end modular pipeline that integrates state-of-the-art semantic segmentation, human tracking, point-cloud fusion, and scene reconstruction. Our approach improves semantic segmentation accuracy by leveraging the foundational segmentation model SAM2 with a hybrid method that combines its mask generation with a semantic classification model, resulting in sharper masks and high classification accuracy. Compared to SegFormer and OneFormer, our method achieves a similar semantic segmentation accuracy (mIoU of 47.0% vs 45.9% in the ADE20K dataset) but provides much more precise object boundaries. Additionally, our human tracking algorithm interacts with the segmentation enabling continuous tracking even when objects leave and re-enter the frame by object re-identification. Our point cloud fusion approach reduces computation time by 1.81x while maintaining a small mean reconstruction error of 25.3 mm by leveraging the semantic information. We validate our approach on benchmark datasets and real-world Kinect RGB-D data, demonstrating improved efficiency, accuracy, and usability. Our structured representation, stored in the Universal Scene Description (USD) format, supports efficient querying, visualization, and robotic simulation, making it practical for real-world deployment.

arxiv情報

著者 Zhiwu Zheng,Lauren Mentzer,Berk Iskender,Michael Price,Colm Prendergast,Audren Cloitre
発行日 2025-04-22 19:28:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク