ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities

要約

この研究では、無制限のモダリティに向けた一般表現モデルを構築するためのスケーラブルな方法を探ります。
私たちは、視覚、音声、言語モダリティ全体で表現をシームレスに調整および統合できる 4B パラメーターを備えた拡張性の高いモデルである ONE-PEACE をリリースします。
ONE-PEACE のアーキテクチャは、モダリティ アダプタ、共有セルフアテンション層、およびモダリティ FFN で構成されます。
この設計により、アダプターや FFN を追加することで新しいモダリティを簡単に拡張できると同時に、セルフ アテンション レイヤーによるマルチモーダルの融合も可能になります。
ONE-PEACE を事前トレーニングするために、クロスモーダル調整コントラストとイントラモーダル ノイズ除去コントラストという 2 つのモダリティに依存しない事前トレーニング タスクを開発します。これは、異なるモダリティの意味空間を調整し、モダリティ内のきめ細かい詳細を同時にキャプチャします。
ONE-PEACE は、拡張しやすいアーキテクチャと事前トレーニング タスクを備えているため、無制限のモダリティに拡張できる可能性があります。
ONE-PEACE は、初期化にビジョンや言語の事前トレーニング済みモデルを使用せずに、画像分類 (ImageNet)、セマンティック セグメンテーション (ADE20K)、オーディオ テキスト検索 (AudioCaps) などの幅広いユニモーダルおよびマルチモーダル タスクで優れた結果を達成します。
、Clotho)、音声分類(ESC-50、FSD50K、VGGSound)、音声質問応答(AVQA)、画像テキスト検索(MSCOCO、Flickr30K)、視覚的グラウンディング(RefCOCO/+/g)。
コードは https://github.com/OFA-Sys/ONE-PEACE で入手できます。

要約(オリジナル)

In this work, we explore a scalable way for building a general representation model toward unlimited modalities. We release ONE-PEACE, a highly extensible model with 4B parameters that can seamlessly align and integrate representations across vision, audio, and language modalities. The architecture of ONE-PEACE comprises modality adapters, shared self-attention layers, and modality FFNs. This design allows for the easy extension of new modalities by adding adapters and FFNs, while also enabling multi-modal fusion through self-attention layers. To pretrain ONE-PEACE, we develop two modality-agnostic pretraining tasks, cross-modal aligning contrast and intra-modal denoising contrast, which align the semantic space of different modalities and capture fine-grained details within modalities concurrently. With the scaling-friendly architecture and pretraining tasks, ONE-PEACE has the potential to expand to unlimited modalities. Without using any vision or language pretrained model for initialization, ONE-PEACE achieves leading results on a wide range of uni-modal and multi-modal tasks, including image classification (ImageNet), semantic segmentation (ADE20K), audio-text retrieval (AudioCaps, Clotho), audio classification (ESC-50, FSD50K, VGGSound), audio question answering (AVQA), image-text retrieval (MSCOCO, Flickr30K), and visual grounding (RefCOCO/+/g). Code is available at https://github.com/OFA-Sys/ONE-PEACE.

arxiv情報

著者 Peng Wang,Shijie Wang,Junyang Lin,Shuai Bai,Xiaohuan Zhou,Jingren Zhou,Xinggang Wang,Chang Zhou
発行日 2023-05-18 17:59:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS パーマリンク