要約
非構造化環境で動作するロボットは、多くの場合、正確で一貫性のあるオブジェクトレベルの表現を必要とする。これには通常、ロボットの周囲から個々のオブジェクトをセグメンテーションする必要がある。Segment Anything (SAM)のような最近の大規模モデルは、2D画像セグメンテーションにおいて強力な性能を発揮する。これらの進歩は、物理的な3次元世界での性能には直接反映されず、オブジェクトを過剰にセグメンテーションしたり、ビュー間で一貫したマスク対応を生成できないことが多い。本論文では、奥行き情報のない環境の疎な2D画像から、一貫性のある3Dオブジェクトセグメンテーションを生成するフレームワーク、GraphSegを紹介する。GraphSegはグラフにエッジを追加し、2つの対応グラフを構築する。1つは2Dピクセルレベルの類似性から、もう1つは推定された3D構造からである。セグメンテーションを、エッジの追加と、それに続くグラフの収縮の問題として定式化し、複数の2Dマスクを統一されたオブジェクトレベルのセグメンテーションにマージする。そして、セグメンテーションされた3D表現を生成するために、 ∮3D基礎モデル∮を活用することができます。GraphSegは、従来の手法よりも大幅に少ない画像枚数と高い精度で、ロバストなセグメンテーションを実現する。我々は、卓上シーンで最先端の性能を実証し、GraphSegが下流のロボット操作タスクで性能向上を可能にすることを示す。コードはhttps://github.com/tomtang502/graphseg.git。
要約(オリジナル)
Robots operating in unstructured environments often require accurate and consistent object-level representations. This typically requires segmenting individual objects from the robot’s surroundings. While recent large models such as Segment Anything (SAM) offer strong performance in 2D image segmentation. These advances do not translate directly to performance in the physical 3D world, where they often over-segment objects and fail to produce consistent mask correspondences across views. In this paper, we present GraphSeg, a framework for generating consistent 3D object segmentations from a sparse set of 2D images of the environment without any depth information. GraphSeg adds edges to graphs and constructs dual correspondence graphs: one from 2D pixel-level similarities and one from inferred 3D structure. We formulate segmentation as a problem of edge addition, then subsequent graph contraction, which merges multiple 2D masks into unified object-level segmentations. We can then leverage \emph{3D foundation models} to produce segmented 3D representations. GraphSeg achieves robust segmentation with significantly fewer images and greater accuracy than prior methods. We demonstrate state-of-the-art performance on tabletop scenes and show that GraphSeg enables improved performance on downstream robotic manipulation tasks. Code available at https://github.com/tomtang502/graphseg.git.
arxiv情報
著者 | Haozhan Tang,Tianyi Zhang,Oliver Kroemer,Matthew Johnson-Roberson,Weiming Zhi |
発行日 | 2025-04-04 02:42:45+00:00 |
arxivサイト | arxiv_id(pdf) |