4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities

要約

4M や UnifiedIO などの現在のマルチモーダルおよびマルチタスク基盤モデルは有望な結果を示していますが、実際には、多様な入力を受け入れ、多様なタスクを実行するすぐに使用できる機能は、モダリティとタスクの (通常はかなり少ない) 数によって制限されます。
で訓練されました。
この論文では、数十の非常に多様なモダリティで単一のモデルをトレーニングし、大規模なマルチモーダル データセットとテキスト コーパスで共同トレーニングを実行することで、その機能を拡張します。
これには、いくつかのセマンティックおよび幾何学的モダリティ、DINOv2 や ImageBind などの最近の最先端モデルの特徴マップ、SAM や 4DHumans などの専門モデルの擬似ラベル、モデルと対話する新しい方法を可能にする一連の新しいモダリティに関するトレーニングが含まれます。
画像メタデータやカラー パレットなどの生成を制御します。
このプロセスの重要なステップは、画像のようなニューラル ネットワークの特徴マップ、ベクトル、インスタンス セグメンテーションや人間のポーズなどの構造化データ、テキストとして表現できるデータなど、さまざまなモダリティに対して個別のトークン化を実行することです。
これにより、マルチモーダル モデルのすぐに使用できる機能を拡張し、既存のモデルの少なくとも 3 倍のタスク/モダリティを解決するように 1 つのモデルをトレーニングし、パフォーマンスを低下させることなく実行できる可能性を具体的に示します。
これにより、よりきめ細かく制御可能なマルチモーダル生成機能が可能になり、多様なデータと目的に基づいてトレーニングされたモデルを統合モデルに蒸留することを研究できるようになります。
私たちは、数十のモダリティとさまざまなデータセットを使用して、トレーニングを 30 億のパラメーター モデルにスケールアップすることに成功しました。
結果として得られるモデルとトレーニング コードは、4m.epfl.ch でオープンソース化されています。

要約(オリジナル)

Current multimodal and multitask foundation models like 4M or UnifiedIO show promising results, but in practice their out-of-the-box abilities to accept diverse inputs and perform diverse tasks are limited by the (usually rather small) number of modalities and tasks they are trained on. In this paper, we expand upon the capabilities of them by training a single model on tens of highly diverse modalities and by performing co-training on large-scale multimodal datasets and text corpora. This includes training on several semantic and geometric modalities, feature maps from recent state of the art models like DINOv2 and ImageBind, pseudo labels of specialist models like SAM and 4DHumans, and a range of new modalities that allow for novel ways to interact with the model and steer the generation, for example image metadata or color palettes. A crucial step in this process is performing discrete tokenization on various modalities, whether they are image-like, neural network feature maps, vectors, structured data like instance segmentation or human poses, or data that can be represented as text. Through this, we expand on the out-of-the-box capabilities of multimodal models and specifically show the possibility of training one model to solve at least 3x more tasks/modalities than existing ones and doing so without a loss in performance. This enables more fine-grained and controllable multimodal generation capabilities and allows us to study the distillation of models trained on diverse data and objectives into a unified model. We successfully scale the training to a three billion parameter model using tens of modalities and different datasets. The resulting models and training code are open sourced at 4m.epfl.ch.

arxiv情報

著者 Roman Bachmann,Oğuzhan Fatih Kar,David Mizrahi,Ali Garjani,Mingfei Gao,David Griffiths,Jiaming Hu,Afshin Dehghan,Amir Zamir
発行日 2024-06-13 17:59:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク