要約
この論文では、最近の深層学習ベースのマッティング研究をレビューし、画像マッティングに対する私たちのより広くより高い動機を考えます。
多くのアプローチでは、複雑なエンコーダーを使用してアルファ マットを実現し、堅牢なセマンティクスを抽出してから、U-net のようなデコーダーを使用してエンコーダー機能を連結または融合します。
ただし、画像マッティングは基本的にピクセル単位の回帰であり、理想的な状況は、入力画像から最大の不透明度の対応を認識することです。
この論文では、高解像度の特徴表現、知覚、およびコミュニケーションがマット精度にとってより重要であると主張します。
したがって、より広くより高い機能ストリームを統合するために、Intensive Integration and Global Foreground Perception ネットワーク (I2GFP) を提案します。
幅が広いということは、各デコーダー段階で集中的な特徴を組み合わせることを意味し、高いということは、高解像度の中間特徴を保持し、大規模な前景の外観を知覚することを示唆しています。
私たちの動機は、パフォーマンスを大幅に向上させるためにモデルの深さを犠牲にしています。
提案された I2GFP モデルを証明するために大規模な実験を行い、さまざまな公開データセットで最先端の結果を得ることができます。
要約(オリジナル)
This paper reviews recent deep-learning-based matting research and conceives our wider and higher motivation for image matting. Many approaches achieve alpha mattes with complex encoders to extract robust semantics, then resort to the U-net-like decoder to concatenate or fuse encoder features. However, image matting is essentially a pixel-wise regression, and the ideal situation is to perceive the maximum opacity correspondence from the input image. In this paper, we argue that the high-resolution feature representation, perception and communication are more crucial for matting accuracy. Therefore, we propose an Intensive Integration and Global Foreground Perception network (I2GFP) to integrate wider and higher feature streams. Wider means we combine intensive features in each decoder stage, while higher suggests we retain high-resolution intermediate features and perceive large-scale foreground appearance. Our motivation sacrifices model depth for a significant performance promotion. We perform extensive experiments to prove the proposed I2GFP model, and state-of-the-art results can be achieved on different public datasets.
arxiv情報
著者 | Yu Qiao,Ziqi Wei,Yuhao Liu,Yuxin Wang,Dongsheng Zhou,Qiang Zhang,Xin Yang |
発行日 | 2022-10-13 11:34:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google