OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces

要約

最近、GPT-4o や Gemini など、さまざまなモダリティを使用した人間とコンピューターの相互作用に有望なアプリケーションが示されています。
パイプラインの理解と生成におけるマルチモーダル ジョイント表現の基本的な役割を考慮すると、高品質のオムニ ジョイント表現は、より多様なマルチモーダル情報を共同処理するための一歩となるでしょう。
この研究では、3D、オーディオ、画像、および言語入力をサポートする、70 億から 300 億パラメータの規模にわたる大規模なマルチモーダル共同表現モデルである OmniBind を紹介します。
すべてのモダリティにわたるデータ ペアが不足しているため、大規模なモデルを最初からトレーニングするのではなく、さまざまな事前トレーニング済みの専門家モデルの空間を再マッピングしてバインドすることを提案します。
このアプローチでは、モデルのパラメーターと表示されるデータの量を間接的に増やすことによって「スケールアップ」が可能になります。
さまざまな空間を効果的に統合するために、クロスモーダル全体の調整と言語表現の分離という 2 つの目的でルーターを学習することにより、異なる空間に重みを動的に割り当てます。
特に、バインディング スペースとルーティング スペースはどちらも軽量のネットワークのみを必要とするため、OmniBind はトレーニング効率が非常に優れています。
最大の 30B モデルを学習するには、ペアになっていないユニモーダル データだけが必要で、単一の 8-4090 ノードで約 3 日かかります。
広範な実験により、オムニ表現モデルとしての OmniBind の多用途性と優位性が実証され、任意のクエリや構成可能なマルチモーダルの理解など、多様なアプリケーションに対する OmniBind の大きな可能性が強調されています。

要約(オリジナル)

Recently, human-computer interaction with various modalities has shown promising applications, like GPT-4o and Gemini. Given the foundational role of multimodal joint representation in understanding and generation pipelines, high-quality omni joint representations would be a step toward co-processing more diverse multimodal information. In this work, we present OmniBind, large-scale multimodal joint representation models ranging in scale from 7 billion to 30 billion parameters, which support 3D, audio, image, and language inputs. Due to the scarcity of data pairs across all modalities, instead of training large models from scratch, we propose remapping and binding the spaces of various pre-trained specialist models together. This approach enables ‘scaling up’ by indirectly increasing the model parameters and the amount of seen data. To effectively integrate various spaces, we dynamically assign weights to different spaces by learning routers with two objectives: cross-modal overall alignment and language representation decoupling. Notably, since binding and routing spaces both only require lightweight networks, OmniBind is extremely training-efficient. Learning the largest 30B model requires merely unpaired unimodal data and approximately 3 days on a single 8-4090 node. Extensive experiments demonstrate the versatility and superiority of OmniBind as an omni representation model, highlighting its great potential for diverse applications, such as any-query and composable multimodal understanding.

arxiv情報

著者 Zehan Wang,Ziang Zhang,Hang Zhang,Luping Liu,Rongjie Huang,Xize Cheng,Hengshuang Zhao,Zhou Zhao
発行日 2024-07-16 16:24:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク