Meta-Transformer: A Unified Framework for Multimodal Learning

要約

マルチモーダル学習は、複数のモダリティからの情報を処理して関連付けることができるモデルを構築することを目的としています。
この分野では長年にわたる開発にもかかわらず、さまざまなモダリティ ($\textit{例}$ 自然言語、2D 画像、3D 点群、音声、ビデオ、時系列、表形式データ) 間に固有のギャップがあるため、処理するための統合ネットワークを設計することは依然として困難です。
この研究では、$\textbf{frozen}$ エンコーダを利用して、ペアのマルチモーダル トレーニング データなしでマルチモーダル知覚を実行する、Meta-Transformer という名前のフレームワークを提案します。
Meta-Transformer では、さまざまなモダリティからの生の入力データが共有トークン空間にマッピングされ、凍結されたパラメーターを持つ後続のエンコーダーが入力データの高レベルの意味論的特徴を抽出できるようになります。
Meta-Transformer は、統合データ トークナイザー、モダリティ共有エンコーダー、下流タスク用のタスク固有ヘッドという 3 つの主要コンポーネントで構成されており、ペアになっていないデータを使用して 12 のモダリティにわたって統合学習を実行する最初のフレームワークです。
さまざまなベンチマークでの実験により、Meta-Transformer が基本的な認識 (テキスト、画像、点群、オーディオ、ビデオ)、実用的なアプリケーション (X 線、赤外線、ハイパースペクトル、IMU)、およびデータ マイニング (グラフ、表形式、時系列) を含む幅広いタスクを処理できることが明らかになりました。
Meta-Transformer は、トランスフォーマーを使用した統合マルチモーダル インテリジェンスの開発の有望な将来を示しています。
コードは https://github.com/invictus717/MetaTransformer で入手できます。

要約(オリジナル)

Multimodal learning aims to build models that can process and relate information from multiple modalities. Despite years of development in this field, it still remains challenging to design a unified network for processing various modalities ($\textit{e.g.}$ natural language, 2D images, 3D point clouds, audio, video, time series, tabular data) due to the inherent gaps among them. In this work, we propose a framework, named Meta-Transformer, that leverages a $\textbf{frozen}$ encoder to perform multimodal perception without any paired multimodal training data. In Meta-Transformer, the raw input data from various modalities are mapped into a shared token space, allowing a subsequent encoder with frozen parameters to extract high-level semantic features of the input data. Composed of three main components: a unified data tokenizer, a modality-shared encoder, and task-specific heads for downstream tasks, Meta-Transformer is the first framework to perform unified learning across 12 modalities with unpaired data. Experiments on different benchmarks reveal that Meta-Transformer can handle a wide range of tasks including fundamental perception (text, image, point cloud, audio, video), practical application (X-Ray, infrared, hyperspectral, and IMU), and data mining (graph, tabular, and time-series). Meta-Transformer indicates a promising future for developing unified multimodal intelligence with transformers. Code will be available at https://github.com/invictus717/MetaTransformer

arxiv情報

著者 Yiyuan Zhang,Kaixiong Gong,Kaipeng Zhang,Hongsheng Li,Yu Qiao,Wanli Ouyang,Xiangyu Yue
発行日 2023-07-20 12:10:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM パーマリンク