ViT-Lens-2: Gateway to Omni-modal Intelligence

要約

AI エージェントの進歩を目指して、大規模な基盤モデルは推論と命令の実行を大幅に改善しますが、現在視覚と言語に焦点を当てているため、オープンワールド環境で多様なモダリティを認識する可能性が無視されています。
ただし、データ駆動型の視覚および言語モデルの成功にはコストがかかるか、まれなモダリティでは再現が不可能ですらあります。
この論文では、事前学習された ViT で新しいモダリティを認識し、それらを事前定義された空間に位置合わせすることで、効率的なオムニモーダル表現学習を促進する ViT-Lens-2 を紹介します。
具体的には、モダリティ固有のレンズは、任意のモーダル信号を中間の埋め込み空間に投影するように調整され、その後、事前にトレーニングされた視覚知識を備えた強力な ViT によって処理されます。
エンコードされた表現は、既製の基礎モデルによって事前定義されたモーダルに依存しない空間と一致するように最適化されます。
ViT-Lens-2 は、増加するモダリティの表現学習のための統合ソリューションを提供し、次の 2 つの魅力的な利点を備えています。(i) 効率的なデータ体制により、新しいモダリティに対する事前学習済み ViT の大きな可能性を効果的に解き放ちます。
(ii) モダリティの調整と共有 ViT パラメータを通じて、緊急の下流機能を有効にする。
ViT-Lens-2 を調整して、3D 点群、深度、音声、触覚、EEG の表現を学習し、ゼロショット分類などのさまざまな理解タスクにわたって新しい最先端の結果を設定します。
ViT-Lens-2 をマルチモーダル基盤モデルにシームレスに統合することで、あらゆるモダリティからテキストと画像をゼロショットで生成できるようになります。
コードとモデルは https://github.com/TencentARC/ViT-Lens で入手できます。

要約(オリジナル)

Aiming to advance AI agents, large foundation models significantly improve reasoning and instruction execution, yet the current focus on vision and language neglects the potential of perceiving diverse modalities in open-world environments. However, the success of data-driven vision and language models is costly or even infeasible to be reproduced for rare modalities. In this paper, we present ViT-Lens-2 that facilitates efficient omni-modal representation learning by perceiving novel modalities with a pretrained ViT and aligning them to a pre-defined space. Specifically, the modality-specific lens is tuned to project any-modal signals to an intermediate embedding space, which are then processed by a strong ViT with pre-trained visual knowledge. The encoded representations are optimized toward aligning with the modal-independent space, pre-defined by off-the-shelf foundation models. ViT-Lens-2 provides a unified solution for representation learning of increasing modalities with two appealing advantages: (i) Unlocking the great potential of pretrained ViTs to novel modalities effectively with efficient data regime; (ii) Enabling emergent downstream capabilities through modality alignment and shared ViT parameters. We tailor ViT-Lens-2 to learn representations for 3D point cloud, depth, audio, tactile and EEG, and set new state-of-the-art results across various understanding tasks, such as zero-shot classification. By seamlessly integrating ViT-Lens-2 into Multimodal Foundation Models, we enable Any-modality to Text and Image Generation in a zero-shot manner. Code and models are available at https://github.com/TencentARC/ViT-Lens.

arxiv情報

著者 Weixian Lei,Yixiao Ge,Kun Yi,Jianfeng Zhang,Difei Gao,Dylan Sun,Yuying Ge,Ying Shan,Mike Zheng Shou
発行日 2023-11-27 18:52:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク