Connecting NeRFs, Images, and Text

要約

Neural Radiance Fields (NeRF) は、3D シーンとオブジェクトを表現するための標準フレームワークとして登場し、情報交換と保存のための新しいデータ タイプを導入しました。
同時に、テキストと画像データのマルチモーダル表現学習においても大きな進歩が見られました。
この論文では、画像やテキストの確立された方法論と同様に、NeRF モダリティを他のモダリティと接続することを目的とした新しい研究の方向性を探ります。
この目的を達成するために、テキストおよび画像処理用のマルチモーダル モデルと並行して、NeRF 表現用の事前トレーニング済みモデルを活用するシンプルなフレームワークを提案します。
私たちのフレームワークは、NeRF 埋め込みと、対応する画像やテキストから取得された埋め込みとの間の双方向マッピングを学習します。
このマッピングにより、NeRF ゼロショット分類や画像またはテキストからの NeRF 検索など、いくつかの斬新で便利なアプリケーションが可能になります。

要約(オリジナル)

Neural Radiance Fields (NeRFs) have emerged as a standard framework for representing 3D scenes and objects, introducing a novel data type for information exchange and storage. Concurrently, significant progress has been made in multimodal representation learning for text and image data. This paper explores a novel research direction that aims to connect the NeRF modality with other modalities, similar to established methodologies for images and text. To this end, we propose a simple framework that exploits pre-trained models for NeRF representations alongside multimodal models for text and image processing. Our framework learns a bidirectional mapping between NeRF embeddings and those obtained from corresponding images and text. This mapping unlocks several novel and useful applications, including NeRF zero-shot classification and NeRF retrieval from images or text.

arxiv情報

著者 Francesco Ballerini,Pierluigi Zama Ramirez,Roberto Mirabella,Samuele Salti,Luigi Di Stefano
発行日 2024-04-11 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク