All in Tokens: Unifying Output Space of Visual Tasks via Soft Token

要約

通常、出力空間が一連のトークンに限定される言語タスクとは異なり、視覚タスクの出力空間はより複雑であるため、さまざまな視覚タスクに対して統一された視覚モデルを構築することが困難になります。
この論文では、視覚タスクの出力空間を統一して、視覚タスクの統一モデルも構築できるようにします。
この目的のために、それぞれ離散/固定長出力と連続/可変長出力を持つ、インスタンスのセグメンテーションと深度推定の 2 つの典型的な視覚タスクを同時に処理する単一の統合モデルを示します。
ビジュアル タスクの特殊性を考慮したいくつかの新しい手法を提案します。1) ソフト トークン。
タスクの出力を表すためにソフト トークンを使用します。
個別のコードブック/語彙にワンホットで割り当てられる一般的な VQ-VAE のハード トークンとは異なり、ソフト トークンはコードブックの埋め込みにソフトに割り当てられます。
ソフト トークンは、次のトークンの推論とタスク出力のデコードの両方の精度を向上させることができます。
2) マスク増強。
多くのビジュアル タスクでは、ラベル アノテーションに破損、未定義、または無効な値があります。つまり、深度マップの隠れた領域です。
マスク拡張技術がこれらのタスクに大きく役立つことを示します。
これらの新しい手法と他の設計により、提案された汎用タスク ソルバーがインスタンス セグメンテーションと深度推定の両方を適切に実行できることを示します。
特に、NYUv2深度推定の特定のタスクで0.279 RMSEを達成し、このベンチマークで新しい記録を打ち立てました。
AiT と呼ばれる汎用タスク ソルバーは、\url{https://github.com/SwinTransformer/AiT} で入手できます。

要約(オリジナル)

Unlike language tasks, where the output space is usually limited to a set of tokens, the output space of visual tasks is more complicated, making it difficult to build a unified visual model for various visual tasks. In this paper, we seek to unify the output space of visual tasks, so that we can also build a unified model for visual tasks. To this end, we demonstrate a single unified model that simultaneously handles two typical visual tasks of instance segmentation and depth estimation, which have discrete/fixed-length and continuous/varied-length outputs, respectively. We propose several new techniques that take into account the particularity of visual tasks: 1) Soft token. We employ soft token to represent the task output. Unlike hard tokens in the common VQ-VAE which are assigned one-hot to discrete codebooks/vocabularies, the soft token is assigned softly to the codebook embeddings. Soft token can improve the accuracy of both the next token inference and decoding of the task output; 2) Mask augmentation. Many visual tasks have corruption, undefined or invalid values in label annotations, i.e., occluded area of depth maps. We show that a mask augmentation technique can greatly benefit these tasks. With these new techniques and other designs, we show that the proposed general-purpose task-solver can perform both instance segmentation and depth estimation well. Particularly, we achieve 0.279 RMSE on the specific task of NYUv2 depth estimation, setting a new record on this benchmark. The general-purpose task-solver, dubbed AiT, is available at \url{https://github.com/SwinTransformer/AiT}.

arxiv情報

著者 Jia Ning,Chen Li,Zheng Zhang,Zigang Geng,Qi Dai,Kun He,Han Hu
発行日 2023-02-14 16:12:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク