要約
画像マッティングとは、未知の前景領域のアルファ値を自然画像から予測することです。
従来の方法は、既知の領域から未知の領域へのアルファ値の伝播に焦点を当てていました。
ただし、すべての自然画像が明確に知られている前景を持っているわけではありません。
ガラス、煙、ウェブなどの透明なオブジェクトの画像には、既知の前景がほとんどまたはまったくありません。
この論文では、大きな受容野を持つ透明なオブジェクトをモデル化するために、トランスフォーマーベースのネットワーク、TransMating を提案します。
具体的には、自己注意メカニズムに高度なセマンティック機能を導入するための 3 つの学習可能なトライトークンとしてトライマップを再設計します。
透明なオブジェクトのコンテキストを維持するために、グローバル機能と非背景マスクを利用して、エンコーダからデコーダへのマルチスケール機能の伝播をガイドする小さな畳み込みネットワークが提案されています。
さらに、既知の前景領域が小さい透明なオブジェクトの高解像度マッティング データセットを作成します。
いくつかのマッティング ベンチマークでの実験は、現在の最先端の方法に対する提案された方法の優位性を示しています。
要約(オリジナル)
Image matting refers to predicting the alpha values of unknown foreground areas from natural images. Prior methods have focused on propagating alpha values from known to unknown regions. However, not all natural images have a specifically known foreground. Images of transparent objects, like glass, smoke, web, etc., have less or no known foreground. In this paper, we propose a Transformer-based network, TransMatting, to model transparent objects with a big receptive field. Specifically, we redesign the trimap as three learnable tri-tokens for introducing advanced semantic features into the self-attention mechanism. A small convolutional network is proposed to utilize the global feature and non-background mask to guide the multi-scale feature propagation from encoder to decoder for maintaining the contexture of transparent objects. In addition, we create a high-resolution matting dataset of transparent objects with small known foreground areas. Experiments on several matting benchmarks demonstrate the superiority of our proposed method over the current state-of-the-art methods.
arxiv情報
著者 | Huanqia Cai,Fanglei Xue,Lele Xu,Lili Guo |
発行日 | 2022-09-01 04:20:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google