4M: Massively Multimodal Masked Modeling

要約

現在の視覚向けの機械学習モデルは高度に特殊化されており、単一のモダリティとタスクに限定されていることがよくあります。
対照的に、最近の大規模な言語モデルは幅広い機能を示し、コンピューター ビジョンでも同様に多用途なモデルの可能性を示唆しています。
この論文では、この方向に一歩を踏み出し、4M と呼ばれるマルチモーダル トレーニング スキームを提案します。
これは、テキスト、画像、幾何学的モダリティ、セマンティック モダリティ、ニューラル ネットワークの特徴マップなど、幅広い入出力モダリティにわたるマスクされたモデリング目標を使用して、単一の統合された Transformer エンコーダ/デコーダをトレーニングすることで構成されます。
4M は、すべてのモダリティを個別のトークンにマッピングし、トークンの小さなランダム化されたサブセットに対してマルチモーダル マスク モデリングを実行することで、その表現空間を統合することでスケーラビリティを実現します。
4M は、いくつかの重要な機能を発揮するモデルを生み出します。(1) すぐにさまざまな視覚タスクを実行できる、(2) 目に見えない下流タスクまたは新しい入力モダリティに合わせて微調整すると優れた性能を発揮します、(3)
は、任意のモダリティを条件付けできる生成モデルとして機能し、驚くべき柔軟性を備えたさまざまな表現力豊かなマルチモーダル編集機能を可能にします。
私たちは実験分析を通じて、視覚タスク用の多用途かつスケーラブルな基礎モデルをトレーニングするための 4M の可能性を実証し、視覚およびその他の領域のマルチモーダル学習におけるさらなる探求の準備を整えます。

要約(オリジナル)

Current machine learning models for vision are often highly specialized and limited to a single modality and task. In contrast, recent large language models exhibit a wide range of capabilities, hinting at a possibility for similarly versatile models in computer vision. In this paper, we take a step in this direction and propose a multimodal training scheme called 4M. It consists of training a single unified Transformer encoder-decoder using a masked modeling objective across a wide range of input/output modalities – including text, images, geometric, and semantic modalities, as well as neural network feature maps. 4M achieves scalability by unifying the representation space of all modalities through mapping them into discrete tokens and performing multimodal masked modeling on a small randomized subset of tokens. 4M leads to models that exhibit several key capabilities: (1) they can perform a diverse set of vision tasks out of the box, (2) they excel when fine-tuned for unseen downstream tasks or new input modalities, and (3) they can function as a generative model that can be conditioned on arbitrary modalities, enabling a wide variety of expressive multimodal editing capabilities with remarkable flexibility. Through experimental analyses, we demonstrate the potential of 4M for training versatile and scalable foundation models for vision tasks, setting the stage for further exploration in multimodal learning for vision and other domains.

arxiv情報

著者 David Mizrahi,Roman Bachmann,Oğuzhan Fatih Kar,Teresa Yeo,Mingfei Gao,Afshin Dehghan,Amir Zamir
発行日 2023-12-11 18:57:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク