Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks

要約

基礎モデルの目覚ましい成功にもかかわらず、それらのタスク固有の微調整パラダイムは、一般的な知覚モデリングの目標と矛盾しています。
この矛盾を解消するための鍵は、一般的なタスク モデリングにジェネラリスト モデルを使用することです。
ただし、ジェネラリスト モデルの既存の試みは、汎用性とパフォーマンスの両方で不十分です。
この論文では、競争力のあるパフォーマンスで主要な大規模なビジョンおよびビジョン言語タスクを処理できる最初のジェネラリスト モデルである Uni-Perceiver v2 を提案します。
具体的には、画像は一般的な地域提案としてエンコードされ、テキストは Transformer ベースの言語モデルを介してエンコードされます。
エンコードされた表現は、タスクに依存しないデコーダーによって変換されます。
さまざまなタスクが、統一された最尤推定問題として定式化されます。
さらに、大規模なバッチサイズのトレーニングを必要とするタスクに役立つ、混合されていないサンプリング戦略を使用して安定したマルチタスク学習を確保するための改善されたオプティマイザーを提案します。
Uni-Perceiver v2 は、さまざまなタスクについて共同でトレーニングされた後、タスク固有の適応なしでダウンストリーム タスクを直接処理できます。
結果は、Uni-Perceiver v2 が汎用性とパフォーマンスの両方で既存のすべてのジェネラリスト モデルよりも優れていることを示しています。
一方、タスク固有の微調整を必要とする一般的に認識されている強力なベースラインと比較して、Uni-Perceiver v2 は、幅広い視覚および視覚言語タスクで競争力のあるパフォーマンスを達成します。

要約(オリジナル)

Despite the remarkable success of foundation models, their task-specific fine-tuning paradigm makes them inconsistent with the goal of general perception modeling. The key to eliminating this inconsistency is to use generalist models for general task modeling. However, existing attempts at generalist models are inadequate in both versatility and performance. In this paper, we propose Uni-Perceiver v2, which is the first generalist model capable of handling major large-scale vision and vision-language tasks with competitive performance. Specifically, images are encoded as general region proposals, while texts are encoded via a Transformer-based language model. The encoded representations are transformed by a task-agnostic decoder. Different tasks are formulated as a unified maximum likelihood estimation problem. We further propose an improved optimizer to ensure stable multi-task learning with an unmixed sampling strategy, which is helpful for tasks requiring large batch-size training. After being jointly trained on various tasks, Uni-Perceiver v2 is capable of directly handling downstream tasks without any task-specific adaptation. Results show that Uni-Perceiver v2 outperforms all existing generalist models in both versatility and performance. Meanwhile, compared with the commonly-recognized strong baselines that require tasks-specific fine-tuning, Uni-Perceiver v2 achieves competitive performance on a broad range of vision and vision-language tasks.

arxiv情報

著者 Hao Li,Jinguo Zhu,Xiaohu Jiang,Xizhou Zhu,Hongsheng Li,Chun Yuan,Xiaohua Wang,Yu Qiao,Xiaogang Wang,Wenhai Wang,Jifeng Dai
発行日 2022-11-17 18:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク