ShadowMaskFormer: Mask Augmented Patch Embeddings for Shadow Removal

要約

Transformer は最近、コンピュータ ビジョン タスクの事実上のモデルとして登場し、影の除去にも適用されて成功しました。
ただし、これらの既存の方法は、汎用パッチ埋め込みを使用しながら、トランスフォーマー ブロック内のアテンション メカニズムへの複雑な変更に大きく依存しています。
その結果、多くの場合、追加の計算リソースを必要とする複雑なアーキテクチャ設計が必要になります。
この研究では、処理の初期段階で影情報を組み込むことの有効性を調査することを目的としています。
したがって、我々は、ShadowMaskFormer と呼ばれる、影の除去用に調整された新しいパッチ埋め込みを備えたトランスフォーマーベースのフレームワークを提案します。
具体的には、シャドウ情報を統合し、シャドウ領域に関する知識の取得に重点を置いたモデルを促進するための、シンプルで効果的なマスク拡張パッチ埋め込みを提示します。
ISTD、ISTD+、および SRD ベンチマーク データセットに対して行われた広範な実験により、より少ないモデル パラメーターを使用しながら、最先端のアプローチに対する私たちの手法の有効性が実証されました。

要約(オリジナル)

Transformer recently emerged as the de facto model for computer vision tasks and has also been successfully applied to shadow removal. However, these existing methods heavily rely on intricate modifications to the attention mechanisms within the transformer blocks while using a generic patch embedding. As a result, it often leads to complex architectural designs requiring additional computation resources. In this work, we aim to explore the efficacy of incorporating shadow information within the early processing stage. Accordingly, we propose a transformer-based framework with a novel patch embedding that is tailored for shadow removal, dubbed ShadowMaskFormer. Specifically, we present a simple and effective mask-augmented patch embedding to integrate shadow information and promote the model’s emphasis on acquiring knowledge for shadow regions. Extensive experiments conducted on the ISTD, ISTD+, and SRD benchmark datasets demonstrate the efficacy of our method against state-of-the-art approaches while using fewer model parameters.

arxiv情報

著者 Zhuohao Li,Guoyang Xie,Guannan Jiang,Zhichao Lu
発行日 2024-04-30 15:42:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク