要約
現在のオープンボキャブラリーのシーングラフ生成アルゴリズムは、3D シーン点群データとポーズ設定された RGB-D 画像の両方に大きく依存しているため、RGB-D 画像やカメラのポーズがすぐに利用できないシナリオでは用途が限られています。
この問題を解決するために、我々は、ポーズされた RGB-D 画像シリーズの要件を排除した、新しいエンドツーエンドの点群ベースの 3D オープン語彙シーン グラフ生成フレームワークである Point2Graph を提案します。
この階層フレームワークには、部屋とオブジェクトの検出/セグメンテーション、およびオープンな語彙分類が含まれています。
部屋レイヤーでは、ジオメトリベースの境界検出アルゴリズムと学習ベースの領域検出を組み合わせた利点を活用して部屋をセグメント化し、オープンボキャブラリーの部屋分類のための「スナップルックアップ」フレームワークを作成します。
さらに、オブジェクト レイヤーが 3D 点群データのみに基づいて 3D オブジェクトを検出および分類するためのエンドツーエンドのパイプラインを作成します。
私たちの評価結果は、私たちのフレームワークが、広く使用されている現実のシーンのデータセット上で、現在の最先端 (SOTA) オープンボキャブラリーオブジェクトおよび部屋のセグメンテーションおよび分類アルゴリズムを上回るパフォーマンスを発揮できることを示しています。
要約(オリジナル)
Current open-vocabulary scene graph generation algorithms highly rely on both 3D scene point cloud data and posed RGB-D images and thus have limited applications in scenarios where RGB-D images or camera poses are not readily available. To solve this problem, we propose Point2Graph, a novel end-to-end point cloud-based 3D open-vocabulary scene graph generation framework in which the requirement of posed RGB-D image series is eliminated. This hierarchical framework contains room and object detection/segmentation and open-vocabulary classification. For the room layer, we leverage the advantage of merging the geometry-based border detection algorithm with the learning-based region detection to segment rooms and create a ‘Snap-Lookup’ framework for open-vocabulary room classification. In addition, we create an end-to-end pipeline for the object layer to detect and classify 3D objects based solely on 3D point cloud data. Our evaluation results show that our framework can outperform the current state-of-the-art (SOTA) open-vocabulary object and room segmentation and classification algorithm on widely used real-scene datasets.
arxiv情報
著者 | Yifan Xu,Ziming Luo,Qianwei Wang,Vineet Kamat,Carol Menassa |
発行日 | 2024-09-16 15:01:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google