要約
マルチモーダル大規模言語モデル (MLLM) は、画像と 3D データの優れた理解を実証しています。
ただし、両方のモダリティには、オブジェクトの外観と形状を総合的に捉えるという点で欠点があります。
一方、単純な多層パーセプトロン (MLP) の重み内で情報をエンコードするニューラル ラディアンス フィールド (NeRF) は、オブジェクトの幾何学形状とフォトリアリスティックな外観を同時にエンコードする、ますます普及しているモダリティとして浮上しています。
この論文では、NeRF を MLLM に取り込むことの実現可能性と有効性を調査します。
私たちは、NeRF キャプションや Q&A などの新しいタスクを実行できる初の汎用 NeRF 言語アシスタントである LLaNA を作成します。
特に、私たちの方法は、NeRF の MLP の重みを直接処理して、画像をレンダリングしたり 3D データ構造を実体化したりすることなく、表現されたオブジェクトに関する情報を抽出します。
さらに、人間の介入なしに、さまざまな NeRF 言語タスク用のテキスト アノテーションを備えた NeRF のデータセットを構築します。
このデータセットに基づいて、私たちの手法の NeRF 理解能力を評価するベンチマークを開発します。
結果は、NeRF 重みの処理が、NeRF からの 2D または 3D 表現の抽出に対して有利に機能することを示しています。
要約(オリジナル)
Multimodal Large Language Models (MLLMs) have demonstrated an excellent understanding of images and 3D data. However, both modalities have shortcomings in holistically capturing the appearance and geometry of objects. Meanwhile, Neural Radiance Fields (NeRFs), which encode information within the weights of a simple Multi-Layer Perceptron (MLP), have emerged as an increasingly widespread modality that simultaneously encodes the geometry and photorealistic appearance of objects. This paper investigates the feasibility and effectiveness of ingesting NeRF into MLLM. We create LLaNA, the first general-purpose NeRF-language assistant capable of performing new tasks such as NeRF captioning and Q\&A. Notably, our method directly processes the weights of the NeRF’s MLP to extract information about the represented objects without the need to render images or materialize 3D data structures. Moreover, we build a dataset of NeRFs with text annotations for various NeRF-language tasks with no human intervention. Based on this dataset, we develop a benchmark to evaluate the NeRF understanding capability of our method. Results show that processing NeRF weights performs favourably against extracting 2D or 3D representations from NeRFs.
arxiv情報
著者 | Andrea Amaduzzi,Pierluigi Zama Ramirez,Giuseppe Lisanti,Samuele Salti,Luigi Di Stefano |
発行日 | 2024-06-17 17:59:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google