要約
私たちは、3D でのオープンワールド パーツ セグメンテーション、つまりテキスト クエリに基づいてあらゆるオブジェクトのあらゆるパーツをセグメント化する研究を行っています。
従来の方法では、オブジェクトのカテゴリと部品の語彙が制限されていました。
AI の最近の進歩により、2D における効果的なオープンワールド認識機能が実証されました。
この進歩に触発されて、私たちはあらゆるオブジェクトにゼロショットで適用できる 3D パーツ セグメンテーション用のオープンワールドの直接予測モデルを提案します。
Find3D と呼ばれる私たちのアプローチは、人間による注釈なしで、インターネットからの大規模な 3D アセット上で一般カテゴリのポイント埋め込みモデルをトレーニングします。
データに注釈を付けるための基礎モデルを利用したデータ エンジンと、対照的なトレーニング方法を組み合わせます。
複数のデータセットにわたって強力なパフォーマンスと一般化を達成し、次に最適な方法と比較して mIoU が最大 3 倍向上しました。
私たちのモデルは、既存のベースラインよりも 6 倍から 300 倍以上高速です。
一般カテゴリのオープンワールド 3D パーツ セグメンテーションの研究を促進するために、一般的なオブジェクトとパーツのベンチマークもリリースします。
プロジェクト Web サイト: https://ziqi-ma.github.io/find3dsite/
要約(オリジナル)
We study open-world part segmentation in 3D: segmenting any part in any object based on any text query. Prior methods are limited in object categories and part vocabularies. Recent advances in AI have demonstrated effective open-world recognition capabilities in 2D. Inspired by this progress, we propose an open-world, direct-prediction model for 3D part segmentation that can be applied zero-shot to any object. Our approach, called Find3D, trains a general-category point embedding model on large-scale 3D assets from the internet without any human annotation. It combines a data engine, powered by foundation models for annotating data, with a contrastive training method. We achieve strong performance and generalization across multiple datasets, with up to a 3x improvement in mIoU over the next best method. Our model is 6x to over 300x faster than existing baselines. To encourage research in general-category open-world 3D part segmentation, we also release a benchmark for general objects and parts. Project website: https://ziqi-ma.github.io/find3dsite/
arxiv情報
著者 | Ziqi Ma,Yisong Yue,Georgia Gkioxari |
発行日 | 2024-11-20 18:59:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google