OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist Models

要約

単一のモデル内でタスクにとらわれない方法で多様なマルチモーダル タスクを実行できるジェネラリスト モデルが最近調査されています。
願わくば、汎用 AI にアプローチするための代替手段として、既存のジェネラリスト モデルはまだ初期段階にあり、モダリティとタスクの範囲は限られています。
マルチモーダル タスク スケーリングを強化し、この一連の研究をスピードアップするために、マルチモーダル命令と呼ばれる宣言型タスク インターフェイスの上に構築されたジェネラリスト モデル学習システム OFASys をリリースします。
OFASys の中核にあるのは、マルチモーダル タスク表現を基礎となるモデル実装から切り離すという考えです。
OFASys では、複数のモダリティを含むタスクを 1 行のコードでも宣言的に定義できます。
システムは、トレーニングと推論のために、このような指示からタスク プランを自動的に生成します。
また、多様なマルチモーダル ワークロードのマルチタスク トレーニングも容易になります。
出発点として、7 つの異なるモダリティのプリセットと OFASys の 23 の非常に多様なサンプル タスクを提供します。これを使用して、テキスト、画像、音声、ビデオ、
そしてモーションデータ。
単一の OFA+ モデルは、15 のタスク微調整モデルのわずか 16% のパラメーターで平均 95% のパフォーマンスを達成し、OFASys によって提供されるマルチモーダル タスク スケーリングのパフォーマンスの信頼性を示しています。
https://github.com/OFA-Sys/OFASys で入手可能

要約(オリジナル)

Generalist models, which are capable of performing diverse multi-modal tasks in a task-agnostic way within a single model, have been explored recently. Being, hopefully, an alternative to approaching general-purpose AI, existing generalist models are still at an early stage, where modality and task coverage is limited. To empower multi-modal task-scaling and speed up this line of research, we release a generalist model learning system, OFASys, built on top of a declarative task interface named multi-modal instruction. At the core of OFASys is the idea of decoupling multi-modal task representations from the underlying model implementations. In OFASys, a task involving multiple modalities can be defined declaratively even with just a single line of code. The system automatically generates task plans from such instructions for training and inference. It also facilitates multi-task training for diverse multi-modal workloads. As a starting point, we provide presets of 7 different modalities and 23 highly-diverse example tasks in OFASys, with which we also develop a first-in-kind, single model, OFA+, that can handle text, image, speech, video, and motion data. The single OFA+ model achieves 95% performance in average with only 16% parameters of 15 task-finetuned models, showcasing the performance reliability of multi-modal task-scaling provided by OFASys. Available at https://github.com/OFA-Sys/OFASys

arxiv情報

著者 Jinze Bai,Rui Men,Hao Yang,Xuancheng Ren,Kai Dang,Yichang Zhang,Xiaohuan Zhou,Peng Wang,Sinan Tan,An Yang,Zeyu Cui,Yu Han,Shuai Bai,Wenbin Ge,Jianxin Ma,Junyang Lin,Jingren Zhou,Chang Zhou
発行日 2022-12-08 17:07:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク