EFormer: Enhanced Transformer towards Semantic-Contour Features of Foreground for Portraits Matting

要約

ポートレート マット タスクは、完全なセマンティクスと詳細な輪郭を備えたアルファ マットを抽出することを目的としています。
CNN ベースのアプローチと比較して、自己注意を備えたトランスフォーマーはより大きな受容野を可能にし、ポートレートの長距離依存関係や低周波の意味情報をより適切に捕捉できるようにします。
しかし、最近の研究では、自己注意メカニズムは高周波情報のモデリングや輪郭の細かい詳細の捕捉に苦労しており、肖像画の輪郭を予測する際にバイアスが生じる可能性があることが示されています。
この問題に対処するために、意味論的特徴と輪郭特徴に対するモデルの注意を強化する EFormer を提案します。
特に後者は、大量の高周波のディテールに囲まれています。
意味特徴および輪郭特徴の分布を正確に捕捉するために、意味特徴および輪郭検出器 (SCD) を構築します。
さらに、輪郭特徴と完全な意味論的情報を洗練するために、輪郭エッジ抽出ブランチと意味論的抽出ブランチを設計します。
最後に、2 種類の特徴を融合し、セグメンテーション ヘッドを活用して、予測されたポートレート マットを生成します。
注目すべきことに、EFormer はエンドツーエンドのトライマップを必要としないメソッドであり、シンプルな構造を誇っています。
VideoMatte240K-JPEGSD および AIM データセットに対して行われた実験では、EFormer が以前のポートレート マット手法よりも優れたパフォーマンスを発揮することが実証されました。

要約(オリジナル)

The portrait matting task aims to extract an alpha matte with complete semantics and finely-detailed contours. In comparison to CNN-based approaches, transformers with self-attention allow a larger receptive field, enabling it to better capture long-range dependencies and low-frequency semantic information of a portrait. However, the recent research shows that self-attention mechanism struggle with modeling high-frequency information and capturing fine contour details, which can lead to bias while predicting the portrait’s contours. To address the problem, we propose EFormer to enhance the model’s attention towards semantic and contour features. Especially the latter, which is surrounded by a large amount of high-frequency details. We build a semantic and contour detector (SCD) to accurately capture the distribution of semantic and contour features. And we further design contour-edge extraction branch and semantic extraction branch for refining contour features and complete semantic information. Finally, we fuse the two kinds of features and leverage the segmentation head to generate the predicted portrait matte. Remarkably, EFormer is an end-to-end trimap-free method and boasts a simple structure. Experiments conducted on VideoMatte240K-JPEGSD and AIM datasets demonstrate that EFormer outperforms previous portrait matte methods.

arxiv情報

著者 Zitao Wang,Qiguang Miao,Yue Xi
発行日 2023-08-24 14:45:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク