要約
2D から 3D へのセグメンテーション リフティングのタスク適応のために設計された手法である PartSTAD を紹介します。
最近の研究では、2D セグメンテーション モデルを利用して、数ショットの適応を通じて高品質の 3D セグメンテーションを実現する利点が強調されています。
ただし、これまでのアプローチは、3D セグメンテーション専用にモデルを最適化するのではなく、ドメイン シフト用の 2D セグメンテーション モデルをレンダリングされたイメージと合成テキストの説明に適応させることに焦点を当てていました。
私たちが提案するタスク適応方法は、3D セグメンテーションの目的関数を使用して 2D バウンディング ボックス予測モデルを微調整します。
適応マージのために 2D バウンディング ボックスの重みを導入し、小さな追加のニューラル ネットワークを使用して重みを学習します。
さらに、バウンディング ボックスの前景セグメンテーション モデルである SAM を組み込んで、2D セグメントの境界を改善し、結果として 3D セグメンテーションの境界を改善します。
PartNet-Mobility データセットでの実験では、タスク適応アプローチによる大幅な改善が示され、SotA 少数ショット 3D セグメンテーション モデルと比較して、セマンティックおよびインスタンス セグメンテーションの mIoU で 7.0%p 増加、mAP_50 で 5.2%p 改善を達成しました。
要約(オリジナル)
We introduce PartSTAD, a method designed for the task adaptation of 2D-to-3D segmentation lifting. Recent studies have highlighted the advantages of utilizing 2D segmentation models to achieve high-quality 3D segmentation through few-shot adaptation. However, previous approaches have focused on adapting 2D segmentation models for domain shift to rendered images and synthetic text descriptions, rather than optimizing the model specifically for 3D segmentation. Our proposed task adaptation method finetunes a 2D bounding box prediction model with an objective function for 3D segmentation. We introduce weights for 2D bounding boxes for adaptive merging and learn the weights using a small additional neural network. Additionally, we incorporate SAM, a foreground segmentation model on a bounding box, to improve the boundaries of 2D segments and consequently those of 3D segmentation. Our experiments on the PartNet-Mobility dataset show significant improvements with our task adaptation approach, achieving a 7.0%p increase in mIoU and a 5.2%p improvement in mAP_50 for semantic and instance segmentation compared to the SotA few-shot 3D segmentation model.
arxiv情報
著者 | Hyunjin Kim,Minhyuk Sung |
発行日 | 2024-01-11 13:31:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google