要約
マルチモーダル大手言語モデル(MLLMS)の急速な進歩は、さまざまなマルチモーダルタスクに大きな影響を与えています。
ただし、これらのモデルは、3D環境内で空間的理解を必要とするタスクの課題に直面しています。
ポイントクラウド機能を組み込むなど、MLLMを強化する努力が行われましたが、モデルの学習表現と3Dシーンの固有の複雑さの間にかなりのギャップが残っています。
この矛盾は、主に2Dデータに対するMLLMのトレーニングに大きく掲載されており、3Dスペースの理解における有効性を制限しています。
この問題に対処するために、この論文では、3Dシーンの理解のために、新しいジェネラリストモデル、つまりVideo-3D LLMを提案します。
3Dシーンをダイナミックなビデオとして扱い、これらの表現にエンコードする3Dポジションを組み込むことにより、ビデオ3D LLMはビデオ表現を実際の空間コンテキストとより正確に調整します。
さらに、計算コストとパフォーマンスのトレードオフを最適化するために、最大のカバレッジサンプリング手法を実装しました。
広範な実験は、我々のモデルが、ScanRefer、Multi3Drefer、Scan2Cap、ScanqA、SQA3Dなど、いくつかの3Dシーン理解ベンチマークで最先端のパフォーマンスを達成することを示しています。
要約(オリジナル)
The rapid advancement of Multimodal Large Language Models (MLLMs) has significantly impacted various multimodal tasks. However, these models face challenges in tasks that require spatial understanding within 3D environments. Efforts to enhance MLLMs, such as incorporating point cloud features, have been made, yet a considerable gap remains between the models’ learned representations and the inherent complexity of 3D scenes. This discrepancy largely stems from the training of MLLMs on predominantly 2D data, which restricts their effectiveness in comprehending 3D spaces. To address this issue, in this paper, we propose a novel generalist model, i.e., Video-3D LLM, for 3D scene understanding. By treating 3D scenes as dynamic videos and incorporating 3D position encoding into these representations, our Video-3D LLM aligns video representations with real-world spatial contexts more accurately. In addition, we have implemented a maximum coverage sampling technique to optimize the trade-off between computational cost and performance. Extensive experiments demonstrate that our model achieves state-of-the-art performance on several 3D scene understanding benchmarks, including ScanRefer, Multi3DRefer, Scan2Cap, ScanQA, and SQA3D.
arxiv情報
著者 | Duo Zheng,Shijia Huang,Liwei Wang |
発行日 | 2025-03-27 10:30:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google