要約
大規模な言語モデルの開発に伴い、ChatGPT のような多くの注目すべき言語システムが繁栄し、多くのタスクで驚くべき成功を収め、基礎モデルの信じられないほどの力を示しています。
視覚タスクで基礎モデルの機能を解放するという精神で、画像セグメンテーション用の視覚基礎モデルであるセグメント エニシング モデル (SAM) が最近提案され、多くの下流 2D タスクで強力なゼロショット能力を示します。
ただし、SAM を 3D 視覚タスク、特に 3D オブジェクト検出に適用できるかどうかはまだ調査されていません。
このインスピレーションをもとに、この論文では SAM のゼロショット機能を 3D オブジェクト検出に適応させることを検討します。
私たちは、大規模な Waymo オープン データセット上で物体を検出し、有望な結果を得るために、SAM を利用した BEV 処理パイプラインを提案します。
初期の試みとして、私たちの方法は視覚基盤モデルを使用した 3D オブジェクト検出に向けて一歩を踏み出し、3D 視覚タスクでその力を解き放つ機会を提供します。
コードは https://github.com/DYZhang09/SAM3D で公開されています。
要約(オリジナル)
With the development of large language models, many remarkable linguistic systems like ChatGPT have thrived and achieved astonishing success on many tasks, showing the incredible power of foundation models. In the spirit of unleashing the capability of foundation models on vision tasks, the Segment Anything Model (SAM), a vision foundation model for image segmentation, has been proposed recently and presents strong zero-shot ability on many downstream 2D tasks. However, whether SAM can be adapted to 3D vision tasks has yet to be explored, especially 3D object detection. With this inspiration, we explore adapting the zero-shot ability of SAM to 3D object detection in this paper. We propose a SAM-powered BEV processing pipeline to detect objects and get promising results on the large-scale Waymo open dataset. As an early attempt, our method takes a step toward 3D object detection with vision foundation models and presents the opportunity to unleash their power on 3D vision tasks. The code is released at https://github.com/DYZhang09/SAM3D.
arxiv情報
著者 | Dingyuan Zhang,Dingkang Liang,Hongcheng Yang,Zhikang Zou,Xiaoqing Ye,Zhe Liu,Xiang Bai |
発行日 | 2024-01-29 12:14:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google