TransMatting: Enhancing Transparent Objects Matting with Transformers

要約

Image Mattingとは、自然画像から未知の前景領域のアルファ値を予測することである。従来の手法では、既知の領域から未知の領域へのアルファ値の伝搬に焦点が当てられていた。しかし、すべての自然画像は、特に既知の前景を持つわけではない。ガラス、煙、網などのような透明な物体の画像は、既知の前景が少ないか、全くない。本論文では、大きな受容野を持つ透明な物体をモデル化するために、Transformerベースのネットワーク、TransMattingを提案する。具体的には、自己認識機構に高度な意味的特徴を導入するために、トリマップを3つの学習可能なトライトークンとして再設計する。また、エンコーダからデコーダへのマルチスケール特徴伝播のガイドとして、グローバル特徴と非背景マスクを利用する小型畳み込みネットワークを提案し、透明オブジェクトの文脈を維持する。さらに、既知の前景領域が小さい透明オブジェクトの高解像度マット処理データセットを作成する。いくつかのマット処理ベンチマークを用いた実験により、本提案手法が現在の最先端手法より優れていることを示す。

要約(オリジナル)

Image matting refers to predicting the alpha values of unknown foreground areas from natural images. Prior methods have focused on propagating alpha values from known to unknown regions. However, not all natural images have a specifically known foreground. Images of transparent objects, like glass, smoke, web, etc., have less or no known foreground. In this paper, we propose a Transformer-based network, TransMatting, to model transparent objects with a big receptive field. Specifically, we redesign the trimap as three learnable tri-tokens for introducing advanced semantic features into the self-attention mechanism. A small convolutional network is proposed to utilize the global feature and non-background mask to guide the multi-scale feature propagation from encoder to decoder for maintaining the contexture of transparent objects. In addition, we create a high-resolution matting dataset of transparent objects with small known foreground areas. Experiments on several matting benchmarks demonstrate the superiority of our proposed method over the current state-of-the-art methods.

arxiv情報

著者 Huanqia Cai,Fanglei Xue,Lele Xu,Lili Guo
発行日 2022-08-05 06:44:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク