A Unified Sequence Interface for Vision Tasks

要約

言語タスクは、単一の統一されたモデリングフレームワークで自然に表現されます。つまり、トークンのシーケンスを生成しますが、これはコンピュータビジョンでは当てはまりません。
その結果、さまざまなビジョンタスクに対して異なるアーキテクチャと損失関数が急増しています。
この作業では、共有ピクセルからシーケンスへのインターフェイスの観点から定式化された場合、「コア」コンピュータビジョンタスクの多様なセットも統合できることを示します。
オブジェクト検出、インスタンスセグメンテーション、キーポイント検出、画像キャプションの4つのタスクに焦点を当て、すべてバウンディングボックスや高密度マスクなどのさまざまなタイプの出力を使用します。
それにもかかわらず、各タスクの出力を統一されたインターフェイスを備えた一連の個別のトークンとして定式化することにより、タスク固有のカスタマイズなしで、これらすべてのタスクで単一のモデルアーキテクチャと損失関数を使用してニューラルネットワークをトレーニングできることを示します。
特定のタスクを解決するために、タスクの説明として短いプロンプトを使用し、シーケンス出力をプロンプトに適合させて、タスク固有の出力を生成できるようにします。
このようなモデルは、確立されたタスク固有のモデルと比較して、競争力のあるパフォーマンスを達成できることを示します。

要約(オリジナル)

While language tasks are naturally expressed in a single, unified, modeling framework, i.e., generating sequences of tokens, this has not been the case in computer vision. As a result, there is a proliferation of distinct architectures and loss functions for different vision tasks. In this work we show that a diverse set of ‘core’ computer vision tasks can also be unified if formulated in terms of a shared pixel-to-sequence interface. We focus on four tasks, namely, object detection, instance segmentation, keypoint detection, and image captioning, all with diverse types of outputs, e.g., bounding boxes or dense masks. Despite that, by formulating the output of each task as a sequence of discrete tokens with a unified interface, we show that one can train a neural network with a single model architecture and loss function on all these tasks, with no task-specific customization. To solve a specific task, we use a short prompt as task description, and the sequence output adapts to the prompt so it can produce task-specific output. We show that such a model can achieve competitive performance compared to well-established task-specific models.

arxiv情報

著者 Ting Chen,Saurabh Saxena,Lala Li,Tsung-Yi Lin,David J. Fleet,Geoffrey Hinton
発行日 2022-06-15 17:08:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク