Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding

要約

最近、大規模な基礎モデルが注目を集めており、広範なシナリオで優れたパフォーマンスを実現します。
3D データが不足しているため、事前にトレーニングされたトランスフォーマーを視覚領域から 3D 領域に適応させるために多くの努力が払われてきました。
ただし、このような 2D から 3D へのアプローチは、空間ジオメトリが失われる可能性と高い計算コストのため、依然として制限されています。
さらに重要なのは、それらのフレームワークは主に 2D モデル用に設計されており、一般的な Any-to-3D パラダイムが欠如していることです。
このペーパーでは、3D 理解を可能にするあらゆるモダリティの大規模モデル (視覚、言語、音声) を強化するパラメーター効率の高い手法である Any2Point を紹介します。
任意のソース モダリティからのフリーズされたトランスフォーマーを考慮して、入力 3D ポイントをソース モダリティ内の元の 1D または 2D 位置に相関させる 3D から任意の (1D または 2D) への仮想投影戦略を提案します。
このメカニズムにより、事前トレーニングされたモデルと組み合わせた位置エンコーディングを各 3D トークンに割り当てることができます。これにより、真の投影によって引き起こされる 3D ジオメトリの損失が回避され、1D/2D 位置事前分布を使用した 3D 学習に対するトランスフォーマーの動機が向上します。
次に、各トランスフォーマー ブロック内に、パラメーター効率の高い微調整を行うために、any-to-3D ガイド付きアダプター モジュールを挿入します。
アダプターには、ソース モダリティからの事前の空間知識が組み込まれ、3D トークンのローカル フィーチャの集約をガイドし、任意のモダリティ トランスフォーマーのセマンティック適応を強制します。
私たちは、私たちの方法の有効性と効率性を示すために広範な実験を行っています。
コードとモデルは https://github.com/Ivan-Tang-3D/Any2Point でリリースされています。

要約(オリジナル)

Large foundation models have recently emerged as a prominent focus of interest, attaining superior performance in widespread scenarios. Due to the scarcity of 3D data, many efforts have been made to adapt pre-trained transformers from vision to 3D domains. However, such 2D-to-3D approaches are still limited, due to the potential loss of spatial geometries and high computation cost. More importantly, their frameworks are mainly designed for 2D models, lacking a general any-to-3D paradigm. In this paper, we introduce Any2Point, a parameter-efficient method to empower any-modality large models (vision, language, audio) for 3D understanding. Given a frozen transformer from any source modality, we propose a 3D-to-any (1D or 2D) virtual projection strategy that correlates the input 3D points to the original 1D or 2D positions within the source modality. This mechanism enables us to assign each 3D token with a positional encoding paired with the pre-trained model, which avoids 3D geometry loss caused by the true projection and better motivates the transformer for 3D learning with 1D/2D positional priors. Then, within each transformer block, we insert an any-to-3D guided adapter module for parameter-efficient fine-tuning. The adapter incorporates prior spatial knowledge from the source modality to guide the local feature aggregation of 3D tokens, compelling the semantic adaption of any-modality transformers. We conduct extensive experiments to showcase the effectiveness and efficiency of our method. Code and models are released at https://github.com/Ivan-Tang-3D/Any2Point.

arxiv情報

著者 Yiwen Tang,Jiaming Liu,Dong Wang,Zhigang Wang,Shanghang Zhang,Bin Zhao,Xuelong Li
発行日 2024-04-11 17:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.SD, eess.AS パーマリンク