Foundational Models for 3D Point Clouds: A Survey and Outlook

要約

3Dポイントクラウド表現は、物理的な世界の幾何学的忠実度を維持する上で重要な役割を果たし、より正確な複雑な3D環境を可能にします。
人間は多感覚システムを介してオブジェクトとバリエーションの複雑な関係を自然に理解していますが、人工知能(AI)システムはまだこの能力を完全に再現していません。
このギャップを埋めるには、複数のモダリティを組み込むことが不可欠になります。
これらのモダリティ全体でシームレスに統合し、推論できるモデルは、基礎モデル(FMS)として知られています。
画像やテキストなどの2DモダリティのFMSの開発は、大規模なデータセットの豊富な入手可能性によって促進され、大きな進歩を遂げています。
ただし、ラベル付きデータと高い計算オーバーヘッドが不足しているため、3Dドメインは遅れています。
これに応じて、最近の研究は、FMSを3Dタスクに適用する可能性を調査し始め、既存の2D知識を活用することによりこれらの課題を克服しました。
さらに、抽象的な推論と環境の説明の能力を備えた言語は、大規模な訓練を受けた言語モデル(LLM)を通じて3Dの理解を深めるための有望な手段を提供します。
近年の3Dビジョンタスクに対するFMSの急速な発展と採用にもかかわらず、包括的かつ詳細な文献レビューにはギャップが残っています。
この記事の目的は、3D視覚的理解にFMを利用する最先端の方法の包括的な概要を提示することにより、このギャップに対処することを目的としています。
さまざまな3D FMの建設で採用されているさまざまな戦略をレビューすることから始めます。
次に、知覚タスクなどのタスクにさまざまなFMSの使用を分類して要約します。
最後に、この記事では、この分野での研究開発に関する将来の方向性に関する洞察を提供しています。
読者を支援するために、このトピックに関する関連する論文のリストをキュレーションしました:https://github.com/vgthengane/awesome-fms-in-3d。

要約(オリジナル)

The 3D point cloud representation plays a crucial role in preserving the geometric fidelity of the physical world, enabling more accurate complex 3D environments. While humans naturally comprehend the intricate relationships between objects and variations through a multisensory system, artificial intelligence (AI) systems have yet to fully replicate this capacity. To bridge this gap, it becomes essential to incorporate multiple modalities. Models that can seamlessly integrate and reason across these modalities are known as foundation models (FMs). The development of FMs for 2D modalities, such as images and text, has seen significant progress, driven by the abundant availability of large-scale datasets. However, the 3D domain has lagged due to the scarcity of labelled data and high computational overheads. In response, recent research has begun to explore the potential of applying FMs to 3D tasks, overcoming these challenges by leveraging existing 2D knowledge. Additionally, language, with its capacity for abstract reasoning and description of the environment, offers a promising avenue for enhancing 3D understanding through large pre-trained language models (LLMs). Despite the rapid development and adoption of FMs for 3D vision tasks in recent years, there remains a gap in comprehensive and in-depth literature reviews. This article aims to address this gap by presenting a comprehensive overview of the state-of-the-art methods that utilize FMs for 3D visual understanding. We start by reviewing various strategies employed in the building of various 3D FMs. Then we categorize and summarize use of different FMs for tasks such as perception tasks. Finally, the article offers insights into future directions for research and development in this field. To help reader, we have curated list of relevant papers on the topic: https://github.com/vgthengane/Awesome-FMs-in-3D.

arxiv情報

著者 Vishal Thengane,Xiatian Zhu,Salim Bouzerdoum,Son Lam Phung,Yunpeng Li
発行日 2025-01-30 18:59:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク