要約
トライマップ ガイダンスの利用とマルチレベル機能の融合は、トライマップ ベースのマッティングとピクセル レベルの予測の 2 つの重要な問題です。
トライマップ ガイダンスを利用するために、既存のアプローチのほとんどは、単にトライマップと画像を連結して深いネットワークにフィードするか、追加のネットワークを適用してより多くのトライマップ ガイダンスを抽出するだけですが、これにより効率と有効性の間の矛盾が生じます。
新しいコンテンツベースの特徴融合の場合、既存のマッティング手法のほとんどは、関心のあるオブジェクトに関連する強力な意味情報を備えたグローバル特徴のガイダンスを欠いたローカル特徴にのみ焦点を当てています。
この論文では、トライマップ ガイド付きの非バックグラウンド マルチスケール プーリング (TMP) モジュールとグローバル ローカル コンテキスト認識融合 (GLF) モジュールで構成される、トライマップ ガイド付きの特徴マイニングおよび融合ネットワークを提案します。
trimap が強力なセマンティック ガイダンスを提供することを考慮して、TMP モジュールは追加のパラメーターを使用せずに trimap のガイダンスの下で興味深いオブジェクトの効果的な特徴マイニングに焦点を当てます。
さらに、GLF モジュールは、TMP モジュールによってマイニングされた興味深いオブジェクトのグローバル セマンティック情報を使用して、グローバルとローカルのコンテキストを認識した効果的なマルチレベル機能の融合をガイドします。
さらに、高品質の画像マッティングを推進するために、共通の興味深いオブジェクト マッティング (CIOM) データセットを構築します。
特に、Composition-1k と CIOM の結果は、パラメータが少なく、FLOP が 14% 少ない強力なベースラインに対して、TMFNet が SAD に関してそれぞれ 13% と 25% の相対的な改善を達成していることを示しています。
Composition-1k テスト セット、Alphamatting ベンチマーク、および CIOM テスト セットの実験結果は、私たちの手法が最先端のアプローチよりも優れていることを示しています。
コードとモデルは https://github.com/Serge-weihao/TMF-Matting で入手できます。
要約(オリジナル)
Utilizing trimap guidance and fusing multi-level features are two important issues for trimap-based matting with pixel-level prediction. To utilize trimap guidance, most existing approaches simply concatenate trimaps and images together to feed a deep network or apply an extra network to extract more trimap guidance, which meets the conflict between efficiency and effectiveness. For emerging content-based feature fusion, most existing matting methods only focus on local features which lack the guidance of a global feature with strong semantic information related to the interesting object. In this paper, we propose a trimap-guided feature mining and fusion network consisting of our trimap-guided non-background multi-scale pooling (TMP) module and global-local context-aware fusion (GLF) modules. Considering that trimap provides strong semantic guidance, our TMP module focuses effective feature mining on interesting objects under the guidance of trimap without extra parameters. Furthermore, our GLF modules use global semantic information of interesting objects mined by our TMP module to guide an effective global-local context-aware multi-level feature fusion. In addition, we build a common interesting object matting (CIOM) dataset to advance high-quality image matting. Particularly, results on the Composition-1k and our CIOM show that our TMFNet achieves 13% and 25% relative improvement on SAD, respectively, against a strong baseline with fewer parameters and 14% fewer FLOPs. Experimental results on the Composition-1k test set, Alphamatting benchmark, and our CIOM test set demonstrate that our method outperforms state-of-the-art approaches. Our code and models are available at https://github.com/Serge-weihao/TMF-Matting.
arxiv情報
著者 | Weihao Jiang,Dongdong Yu,Zhaozhi Xie,Yaoyi Li,Zehuan Yuan,Hongtao Lu |
発行日 | 2023-10-04 13:26:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google