All in Tokens: Unifying Output Space of Visual Tasks via Soft Token

要約

通常、出力空間がトークンの集合に限定される言語タスクとは異なり、視覚タスクの出力空間はより複雑であり、様々な視覚タスクに対して統一的な視覚モデルを構築することが困難である。本論文では、視覚タスクの出力空間を統一し、視覚タスクの統一的なモデルを構築することを目指す。そのために、離散/固定長出力と連続/可変長出力を持つインスタンス分割と奥行き推定という2つの典型的な視覚タスクを同時に処理する統一的なモデルを実証する。我々は、視覚タスクの特殊性を考慮したいくつかの新しい手法を提案する。1) ソフトトークンタスクの出力を表現するために、ソフトトークンを採用する。一般的なVQ-VAEのハードトークンは離散的なコードブック/ボキャブラリに一発で割り当てられるが、ソフトトークンはコードブック埋め込みにソフトに割り当てられる。ソフトトークンは、次のトークン推論とタスク出力のデコードの両方の精度を向上させることができる。多くの視覚的タスクには、ラベル注釈の破損、未定義、無効な値、すなわち、深度マップの隠蔽領域が存在する。我々は、マスク拡張技術がこれらのタスクに大きな利益をもたらすことを示す。これらの新しい手法と他の設計により、提案する汎用タスクソルバーは、インスタンス分割と深度推定の両方をうまく実行できることを示す。特に、NYUv2の深度推定では、RMSE0.279を達成し、このベンチマークで新記録を達成しました。この汎用タスクソルバはAiTと名付けられ、websiteで公開されています。

要約(オリジナル)

Unlike language tasks, where the output space is usually limited to a set of tokens, the output space of visual tasks is more complicated, making it difficult to build a unified visual model for various visual tasks. In this paper, we seek to unify the output space of visual tasks, so that we can also build a unified model for visual tasks. To this end, we demonstrate a single unified model that simultaneously handles two typical visual tasks of instance segmentation and depth estimation, which have discrete/fixed-length and continuous/varied-length outputs, respectively. We propose several new techniques that take into account the particularity of visual tasks: 1) Soft token. We employ soft token to represent the task output. Unlike hard tokens in the common VQ-VAE which are assigned one-hot to discrete codebooks/vocabularies, the soft token is assigned softly to the codebook embeddings. Soft token can improve the accuracy of both the next token inference and decoding of the task output; 2) Mask augmentation. Many visual tasks have corruption, undefined or invalid values in label annotations, i.e., occluded area of depth maps. We show that a mask augmentation technique can greatly benefit these tasks. With these new techniques and other designs, we show that the proposed general-purpose task-solver can perform both instance segmentation and depth estimation well. Particularly, we achieve 0.279 RMSE on the specific task of NYUv2 depth estimation, setting a new record on this benchmark. The general-purpose task-solver, dubbed AiT, is available at \url{https://github.com/SwinTransformer/AiT}.

arxiv情報

著者 Jia Ning,Chen Li,Zheng Zhang,Zigang Geng,Qi Dai,Kun He,Han Hu
発行日 2023-01-05 18:55:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク