要約
最近の対話型セグメンテーション手法は、ソース画像の不変性を考慮せずに、ソース画像、ユーザー ガイダンス、および以前に予測されたマスクを入力として繰り返し取得します。
その結果、ソース画像からの特徴の抽出がインタラクションごとに繰り返され、実質的な計算の冗長性が生じます。
この研究では、本質的な不一致に基づいてモデリング コンポーネントを分離し、ユーザー インタラクションごとにコンポーネントをリサイクルする機能分離リサイクル ネットワーク (FDRN) を提案します。
したがって、インタラクティブプロセス全体の効率を大幅に向上させることができます。
具体的には、3つの観点からデカップリング・リサイクル戦略を適用し、3種類の矛盾にそれぞれ対応します。
まず、私たちのモデルは、ソース画像のセマンティクスの学習をユーザー ガイダンスのエンコードから切り離し、2 種類の入力ドメインを個別に処理します。
第 2 に、FDRN は、階層化された意味表現から高レベルの特徴と低レベルの特徴を切り離して、特徴の学習を強化します。
第三に、ユーザー ガイダンスのエンコード中に、現在のユーザー ガイダンスの効果を強調するために、現在のユーザー ガイダンスが過去のガイダンスから切り離されます。
私たちは、さまざまなドメインとモダリティからの 6 つのデータセットに対して広範な実験を実施し、このモデルの次の利点を実証しています。 1) 他の方法よりも効率が優れており、長期的なインタラクション (最大 4.25 倍の速度) を必要とする困難なシナリオで特に有利であり、
良好なセグメンテーション パフォーマンス。
2)普遍的な強調技術として機能する様々な方法への高い適用性。
3) 医療画像のセグメンテーションなど、タスク間の汎用性が高く、誤解を招くユーザーガイダンスに対する堅牢性。
要約(オリジナル)
Recent interactive segmentation methods iteratively take source image, user guidance and previously predicted mask as the input without considering the invariant nature of the source image. As a result, extracting features from the source image is repeated in each interaction, resulting in substantial computational redundancy. In this work, we propose the Feature Decoupling-Recycling Network (FDRN), which decouples the modeling components based on their intrinsic discrepancies and then recycles components for each user interaction. Thus, the efficiency of the whole interactive process can be significantly improved. To be specific, we apply the Decoupling-Recycling strategy from three perspectives to address three types of discrepancies, respectively. First, our model decouples the learning of source image semantics from the encoding of user guidance to process two types of input domains separately. Second, FDRN decouples high-level and low-level features from stratified semantic representations to enhance feature learning. Third, during the encoding of user guidance, current user guidance is decoupled from historical guidance to highlight the effect of current user guidance. We conduct extensive experiments on 6 datasets from different domains and modalities, which demonstrate the following merits of our model: 1) superior efficiency than other methods, particularly advantageous in challenging scenarios requiring long-term interactions (up to 4.25x faster), while achieving favorable segmentation performance; 2) strong applicability to various methods serving as a universal enhancement technique; 3) well cross-task generalizability, e.g., to medical image segmentation, and robustness against misleading user guidance.
arxiv情報
著者 | Huimin Zeng,Weinong Wang,Xin Tao,Zhiwei Xiong,Yu-Wing Tai,Wenjie Pei |
発行日 | 2023-08-08 05:29:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google