Mapping the Unseen: Unified Promptable Panoptic Mapping with Dynamic Labeling using Foundation Models

要約

ロボティクスとコンピューター ビジョンの分野では、複雑な環境を理解し、相互作用できるインテリジェント マシンに対する需要が高まっているため、効率的かつ正確なセマンティック マッピングが依然として大きな課題となっています。
しかし、従来のパノプティック マッピング方法は、事前定義されたセマンティック クラスによって制限されているため、新しいオブジェクトや予期しないオブジェクトを処理するのには効果的ではありません。
この制限に対応して、Unified Promptable Panoptic Mapping (UPPM) メソッドを導入します。
UPPM は基礎モデルの最近の進歩を利用して、自然言語プロンプトを使用したリアルタイムのオンデマンドのラベル生成を可能にします。
従来のパノプティック マッピング技術に動的ラベル付け戦略を組み込むことにより、UPPM はマップ再構築の高いパフォーマンス レベルを維持しながら、適応性と汎用性を大幅に向上させます。
現実世界のデータセットとシミュレートされたデータセットに対するアプローチを示します。
結果は、UPPM が自然言語対話を通じて豊富な意味ラベルを生成しながら、シーンを正確に再構築し、オブジェクトをセグメント化できることを示しています。
一連のアブレーション実験により、固定ラベル セットに対する基礎モデルベースのラベル付けの利点が検証されました。

要約(オリジナル)

In the field of robotics and computer vision, efficient and accurate semantic mapping remains a significant challenge due to the growing demand for intelligent machines that can comprehend and interact with complex environments. Conventional panoptic mapping methods, however, are limited by predefined semantic classes, thus making them ineffective for handling novel or unforeseen objects. In response to this limitation, we introduce the Unified Promptable Panoptic Mapping (UPPM) method. UPPM utilizes recent advances in foundation models to enable real-time, on-demand label generation using natural language prompts. By incorporating a dynamic labeling strategy into traditional panoptic mapping techniques, UPPM provides significant improvements in adaptability and versatility while maintaining high performance levels in map reconstruction. We demonstrate our approach on real-world and simulated datasets. Results show that UPPM can accurately reconstruct scenes and segment objects while generating rich semantic labels through natural language interactions. A series of ablation experiments validated the advantages of foundation model-based labeling over fixed label sets.

arxiv情報

著者 Mohamad Al Mdfaa,Raghad Salameh,Sergey Zagoruyko,Gonzalo Ferrer
発行日 2024-10-10 16:03:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | コメントする

DualStreamFoveaNet: A Dual Stream Fusion Architecture with Anatomical Awareness for Robust Fovea Localization

要約

網膜疾患を分析して不可逆的な視力喪失を防ぐには、中心窩の正確な位置特定が不可欠です。
現在の深層学習ベースの方法は従来の方法より優れていますが、中心窩周囲の局所的な解剖学的ランドマークの欠如、疾患のある網膜画像を堅牢に処理できないこと、画像状態の変動などの課題に依然として直面しています。
この論文では、マルチキュー融合のための DualStreamFoveaNet (DSFN) と呼ばれる新しいトランスフォーマーベースのアーキテクチャを提案します。
このアーキテクチャには、網膜と血管の分布を使用した長距離接続とグローバルな特徴が明示的に組み込まれており、堅牢な中心窩の位置特定が可能です。
デュアルストリーム エンコーダに空間注意メカニズムを導入して、自己学習した解剖学的情報を抽出して融合し、血管に沿って分布する特徴にさらに焦点を当て、トークン数を減らすことで計算コストを大幅に削減します。
私たちの広範な実験により、提案されたアーキテクチャが 2 つのパブリック データセットと 1 つの大規模プライベート データセットで最先端のパフォーマンスを達成することが示されました。
さらに、DSFN は正常な網膜画像と病気の網膜画像の両方でより堅牢であり、データセット間の実験においてより優れた汎化能力を備えていることを実証します。

要約(オリジナル)

Accurate fovea localization is essential for analyzing retinal diseases to prevent irreversible vision loss. While current deep learning-based methods outperform traditional ones, they still face challenges such as the lack of local anatomical landmarks around the fovea, the inability to robustly handle diseased retinal images, and the variations in image conditions. In this paper, we propose a novel transformer-based architecture called DualStreamFoveaNet (DSFN) for multi-cue fusion. This architecture explicitly incorporates long-range connections and global features using retina and vessel distributions for robust fovea localization. We introduce a spatial attention mechanism in the dual-stream encoder to extract and fuse self-learned anatomical information, focusing more on features distributed along blood vessels and significantly reducing computational costs by decreasing token numbers. Our extensive experiments show that the proposed architecture achieves state-of-the-art performance on two public datasets and one large-scale private dataset. Furthermore, we demonstrate that the DSFN is more robust on both normal and diseased retina images and has better generalization capacity in cross-dataset experiments.

arxiv情報

著者 Sifan Song,Jinfeng Wang,Zilong Wang,Hongxing Wang,Jionglong Su,Xiaowei Ding,Kang Dang
発行日 2024-10-10 16:07:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | コメントする

Morphing Tokens Draw Strong Masked Image Models

要約

マスク イメージ モデリング (MIM) は、ビジョン トランスフォーマー (ViT) をトレーニングするための有望なアプローチとして浮上しています。
MIM の本質は、マスクされたトークンのトークンごとの予測にあり、画像からトークン化されたターゲット、または視覚言語モデルなどの事前トレーニングされたモデルによって生成されたターゲットを予測することを目的としています。
トークナイザーや事前トレーニングされたモデルの使用は MIM ターゲットとして考えられますが、隣接するトークンであっても空間的に一貫性のないターゲットを提供することが多く、統一された識別表現を学習するためのモデルが複雑になります。
私たちのパイロット研究では、空間的な不一致を特定し、それらを解決することで表現学習を加速できることを示唆しています。
この洞察に基づいて、ダイナミック トークン モーフィング (DTM) と呼ばれる新しい自己監視信号を導入します。これは、コンテキストに関連するトークンを動的に集約してコンテキスト化されたターゲットを生成し、それによって空間の不一致を軽減します。
DTM はさまざまな SSL フレームワークと互換性があります。
DTM を採用することで、追加のトレーニング コストをほとんど発生させずに、MIM の結果が改善されたことを紹介します。
私たちの方法では、一貫した目標を使用することでトレーニングが容易になり、1) トレーニングが高速化され、2) 損失が減少します。
ImageNet-1K および ADE20K での実験では、最先端の複雑な MIM 手法と比較して、私たちの手法の優位性が実証されています。
さらに、iNaturalists と詳細な視覚分類データセットの比較評価により、さまざまな下流タスクへの私たちの手法の移転可能性がさらに検証されます。
コードはhttps://github.com/naver-ai/dtmで入手できます。

要約(オリジナル)

Masked image modeling (MIM) has emerged as a promising approach for training Vision Transformers (ViTs). The essence of MIM lies in the token-wise prediction of masked tokens, which aims to predict targets tokenized from images or generated by pre-trained models like vision-language models. While using tokenizers or pre-trained models are plausible MIM targets, they often offer spatially inconsistent targets even for neighboring tokens, complicating models to learn unified and discriminative representations. Our pilot study identifies spatial inconsistencies and suggests that resolving them can accelerate representation learning. Building upon this insight, we introduce a novel self-supervision signal called Dynamic Token Morphing (DTM), which dynamically aggregates contextually related tokens to yield contextualized targets, thereby mitigating spatial inconsistency. DTM is compatible with various SSL frameworks; we showcase improved MIM results by employing DTM, barely introducing extra training costs. Our method facilitates training by using consistent targets, resulting in 1) faster training and 2) reduced losses. Experiments on ImageNet-1K and ADE20K demonstrate the superiority of our method compared with state-of-the-art, complex MIM methods. Furthermore, the comparative evaluation of the iNaturalists and fine-grained visual classification datasets further validates the transferability of our method on various downstream tasks. Code is available at https://github.com/naver-ai/dtm

arxiv情報

著者 Taekyung Kim,Byeongho Heo,Dongyoon Han
発行日 2024-10-10 16:07:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

PromptFix: You Prompt and We Fix the Photo

要約

言語モデルを備えた拡散モデルは、画像生成作業において優れた制御性を発揮し、人間の指示に忠実な画像処理を実現します。
しかし、多様な命令追従データが不足しているため、特に低レベルのタスクにおいて、ユーザーがカスタマイズした命令を効果的に認識して実行するモデルの開発が妨げられています。
さらに、拡散プロセスの確率的な性質により、生成された画像を詳細に保存する必要がある画像生成または編集作業に欠陥が生じます。
これらの制限に対処するために、私たちは、拡散モデルが人間の指示に従ってさまざまな画像処理タスクを実行できるようにする包括的なフレームワークである PromptFix を提案します。
まず、低レベルのタスク、画像編集、オブジェクト作成などの包括的な画像処理タスクをカバーする大規模な命令追従データセットを構築します。
次に、ノイズ除去プロセスを明示的に制御し、未処理領域の高周波の詳細を保存する高周波ガイダンス サンプリング方法を提案します。
最後に、視覚言語モデル (VLM) を利用してテキスト プロンプトを強化し、モデルのタスクの一般化を改善する補助プロンプト アダプターを設計します。
実験結果は、PromptFix がさまざまな画像処理タスクにおいて以前の方法よりも優れたパフォーマンスを発揮することを示しています。
私たちが提案したモデルは、これらのベースライン モデルと同等の推論効率も達成し、ブラインド復元および組み合わせタスクにおいて優れたゼロショット機能を示します。
データセットとコードは https://www.yongshengyu.com/PromptFix-Page で入手できます。

要約(オリジナル)

Diffusion models equipped with language models demonstrate excellent controllability in image generation tasks, allowing image processing to adhere to human instructions. However, the lack of diverse instruction-following data hampers the development of models that effectively recognize and execute user-customized instructions, particularly in low-level tasks. Moreover, the stochastic nature of the diffusion process leads to deficiencies in image generation or editing tasks that require the detailed preservation of the generated images. To address these limitations, we propose PromptFix, a comprehensive framework that enables diffusion models to follow human instructions to perform a wide variety of image-processing tasks. First, we construct a large-scale instruction-following dataset that covers comprehensive image-processing tasks, including low-level tasks, image editing, and object creation. Next, we propose a high-frequency guidance sampling method to explicitly control the denoising process and preserve high-frequency details in unprocessed areas. Finally, we design an auxiliary prompting adapter, utilizing Vision-Language Models (VLMs) to enhance text prompts and improve the model’s task generalization. Experimental results show that PromptFix outperforms previous methods in various image-processing tasks. Our proposed model also achieves comparable inference efficiency with these baseline models and exhibits superior zero-shot capabilities in blind restoration and combination tasks. The dataset and code are available at https://www.yongshengyu.com/PromptFix-Page.

arxiv情報

著者 Yongsheng Yu,Ziyun Zeng,Hang Hua,Jianlong Fu,Jiebo Luo
発行日 2024-10-10 16:09:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Unstable Unlearning: The Hidden Risk of Concept Resurgence in Diffusion Models

要約

テキストから画像への拡散モデルは、大規模な Web スケールのデータセットに依存しています。
これらをゼロからトレーニングすると計算コストがかかるため、開発者は既存のモデルを増分更新することを好むことがよくあります。
これらの更新は、多くの場合、微調整ステップ (新しい概念を学習したり、モデルのパフォーマンスを向上させるため) と、「学習を解除する」ステップ (著作権で保護された作品や露骨なコンテンツなどの既存の概念を「忘れる」ため) で構成されます。
この研究では、このパラダイムで発生する、これまで知られていなかった重大な脆弱性を実証します。たとえ無害で敵対的ではない条件下であっても、一見無関係な画像上でテキストから画像への拡散モデルを微調整すると、概念が「再学習」される可能性があります。
以前は「学習されていない」ものでした。
私たちは、「大量概念消去」(テキストから画像への拡散モデルにおけるアンラーニングの現在の最先端技術)を構成する一連の実験を実行することにより、概念復活と呼ぶこの現象の原因と範囲を包括的に調査します(Lu et
al., 2024))、その後の Stable Diffusion v1.4 の微調整。
私たちの調査結果は、増分モデルの更新を構成することの脆弱性を強調し、テキストから画像への拡散モデルの安全性と整合性を確保するための現在のアプローチに対する深刻な新たな懸念を引き起こしています。

要約(オリジナル)

Text-to-image diffusion models rely on massive, web-scale datasets. Training them from scratch is computationally expensive, and as a result, developers often prefer to make incremental updates to existing models. These updates often compose fine-tuning steps (to learn new concepts or improve model performance) with ‘unlearning’ steps (to ‘forget’ existing concepts, such as copyrighted works or explicit content). In this work, we demonstrate a critical and previously unknown vulnerability that arises in this paradigm: even under benign, non-adversarial conditions, fine-tuning a text-to-image diffusion model on seemingly unrelated images can cause it to ‘relearn’ concepts that were previously ‘unlearned.’ We comprehensively investigate the causes and scope of this phenomenon, which we term concept resurgence, by performing a series of experiments which compose ‘mass concept erasure’ (the current state of the art for unlearning in text-to-image diffusion models (Lu et al., 2024)) with subsequent fine-tuning of Stable Diffusion v1.4. Our findings underscore the fragility of composing incremental model updates, and raise serious new concerns about current approaches to ensuring the safety and alignment of text-to-image diffusion models.

arxiv情報

著者 Vinith M. Suriyakumar,Rohan Alur,Ayush Sekhari,Manish Raghavan,Ashia C. Wilson
発行日 2024-10-10 16:10:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG | コメントする

CAMIL: Context-Aware Multiple Instance Learning for Cancer Detection and Subtyping in Whole Slide Images

要約

組織生検切片の視覚検査は癌診断の基本であり、病理学者は切片を複数の倍率で分析して腫瘍細胞とそのサブタイプを識別します。
しかし、がん診断におけるホールスライド画像(WSI)の分析に使用される既存の注意ベースのマルチインスタンス学習(MIL)モデルは、腫瘍や隣接するタイルのコンテキスト情報を見落とすことが多く、誤分類につながります。
これに対処するために、私たちは Context-Aware Multiple Instance Learning (CAMIL) アーキテクチャを提案します。
CAMIL は、WSI 内のタイル間の依存関係を考慮するために近隣制約の注意を組み込み、事前知識としてコンテキスト制約を MIL モデルに統合します。
非小細胞肺がん (TCGA-NSCLC) のサブタイピングとリンパ節 (CAMELYON16 および CAMELYON17) 転移の検出に関して CAMIL を評価し、それぞれ 97.5\%、95.9\%、および 88.1\% の検査 AUC を達成し、他の州を上回りました。
最先端のメソッド。
さらに、CAMIL は診断価値の高い領域を特定することでモデルの解釈可能性を高めます。

要約(オリジナル)

The visual examination of tissue biopsy sections is fundamental for cancer diagnosis, with pathologists analyzing sections at multiple magnifications to discern tumor cells and their subtypes. However, existing attention-based multiple instance learning (MIL) models used for analyzing Whole Slide Images (WSIs) in cancer diagnostics often overlook the contextual information of tumor and neighboring tiles, leading to misclassifications. To address this, we propose the Context-Aware Multiple Instance Learning (CAMIL) architecture. CAMIL incorporates neighbor-constrained attention to consider dependencies among tiles within a WSI and integrates contextual constraints as prior knowledge into the MIL model. We evaluated CAMIL on subtyping non-small cell lung cancer (TCGA-NSCLC) and detecting lymph node (CAMELYON16 and CAMELYON17) metastasis, achieving test AUCs of 97.5\%, 95.9\%, and 88.1\%, respectively, outperforming other state-of-the-art methods. Additionally, CAMIL enhances model interpretability by identifying regions of high diagnostic value.

arxiv情報

著者 Olga Fourkioti,Matt De Vries,Chen Jin,Daniel C. Alexander,Chris Bakal
発行日 2024-10-10 16:13:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

ToMiE: Towards Modular Growth in Enhanced SMPL Skeleton for 3D Human with Animatable Garments

要約

この論文では、ほとんどの 3D 人間のタスク、つまり複雑な衣服を着た人間のモデリングにおいて、重要でありながらも見落とされがちな要素に焦点を当てます。
SMPL のパラメータ化された処方は人間の皮膚にフィットすることが知られています。
一方、手に持つ物やゆったりとした衣服などの複雑な衣服は、通常、その動きが人体と切り離されているため、統一されたフレームワーク内でモデル化することが困難です。
この状況に対応して SMPL スケルトンの機能を強化するために、スケルトンのジョイント ツリーを適応的に拡張できるようにするモジュール成長戦略を提案します。
具体的には、ToMiE と呼ばれる私たちの手法は、親関節の位置特定と外部関節の最適化で構成されています。
親ジョイントの位置特定には、LBS ブレンディング ウェイトとモーション カーネルの両方によって導かれる勾配ベースのアプローチを採用します。
外部ジョイントが取得されたら、SE(3) でさまざまなフレームにわたるその変換の最適化に進み、レンダリングと明示的なアニメーションを有効にします。
ToMiE は、衣服のさまざまなケースにおいて、レンダリング品質だけでなく、成長した関節の無料アニメーションを提供することにより、他の方法よりも優れたパフォーマンスを実現し、それにより、より幅広いアプリケーション向けに SMPL スケルトンの表現能力を強化します。

要約(オリジナル)

In this paper, we highlight a critical yet often overlooked factor in most 3D human tasks, namely modeling humans with complex garments. It is known that the parameterized formulation of SMPL is able to fit human skin; while complex garments, e.g., hand-held objects and loose-fitting garments, are difficult to get modeled within the unified framework, since their movements are usually decoupled with the human body. To enhance the capability of SMPL skeleton in response to this situation, we propose a modular growth strategy that enables the joint tree of the skeleton to expand adaptively. Specifically, our method, called ToMiE, consists of parent joints localization and external joints optimization. For parent joints localization, we employ a gradient-based approach guided by both LBS blending weights and motion kernels. Once the external joints are obtained, we proceed to optimize their transformations in SE(3) across different frames, enabling rendering and explicit animation. ToMiE manages to outperform other methods across various cases with garments, not only in rendering quality but also by offering free animation of grown joints, thereby enhancing the expressive ability of SMPL skeleton for a broader range of applications.

arxiv情報

著者 Yifan Zhan,Qingtian Zhu,Muyao Niu,Mingze Ma,Jiancheng Zhao,Zhihang Zhong,Xiao Sun,Yu Qiao,Yinqiang Zheng
発行日 2024-10-10 16:25:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Distribution Guidance Network for Weakly Supervised Point Cloud Semantic Segmentation

要約

完全に監視された方法に固有の高密度のアノテーションへの依存が軽減されるにもかかわらず、弱く監視された点群セマンティック セグメンテーションは、不適切な監視信号に悩まされます。
この課題に応えて、弱い監視の下で特徴空間を調整することによって補助的な制約を与える新しい視点を導入します。
私たちの最初の調査では、どの分布が特徴空間を正確に特徴づけているかを特定し、その後、このアプリオリを活用して、弱く教師された埋め込みの位置合わせをガイドします。
具体的には、いくつかの一般的な分布候補間のフォン ミーゼス フィッシャー分布の混合 (moVMF) の優位性を分析します。
したがって、我々は、弱教師学習ブランチと配信調整ブランチで構成される配信ガイダンス ネットワーク (DGNet) を開発します。
弱教師学習ブランチから導出された信頼性の高いクラスタリング初期化を利用して、分布調整ブランチは moVMF とネットワークのパラメータを交互に更新し、moVMF で定義された潜在空間との調整を保証します。
広範な実験により、ディストリビューションの選択とネットワーク設計の合理性と有効性が検証されます。
その結果、DGNet は、複数のデータセットとさまざまな弱く監視された設定の下で最先端のパフォーマンスを実現します。

要約(オリジナル)

Despite alleviating the dependence on dense annotations inherent to fully supervised methods, weakly supervised point cloud semantic segmentation suffers from inadequate supervision signals. In response to this challenge, we introduce a novel perspective that imparts auxiliary constraints by regulating the feature space under weak supervision. Our initial investigation identifies which distributions accurately characterize the feature space, subsequently leveraging this priori to guide the alignment of the weakly supervised embeddings. Specifically, we analyze the superiority of the mixture of von Mises-Fisher distributions (moVMF) among several common distribution candidates. Accordingly, we develop a Distribution Guidance Network (DGNet), which comprises a weakly supervised learning branch and a distribution alignment branch. Leveraging reliable clustering initialization derived from the weakly supervised learning branch, the distribution alignment branch alternately updates the parameters of the moVMF and the network, ensuring alignment with the moVMF-defined latent space. Extensive experiments validate the rationality and effectiveness of our distribution choice and network design. Consequently, DGNet achieves state-of-the-art performance under multiple datasets and various weakly supervised settings.

arxiv情報

著者 Zhiyi Pan,Wei Gao,Shan Liu,Ge Li
発行日 2024-10-10 16:33:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

UW-SDF: Exploiting Hybrid Geometric Priors for Neural SDF Reconstruction from Underwater Multi-view Monocular Images

要約

水中環境の独特な特性により、水中探査やマッピングなどのタスクでは、水中の物体の正確な 3D 再構成が困難な問題を引き起こします。
3D 再構築のために複数のセンサー データに依存する従来の方法は時間がかかり、水中シナリオでのデータ取得において課題に直面しています。
我々はニューラルSDFに基づいて多視点水中画像から対象物体を再構成するフレームワークUW-SDFを提案する。
ハイブリッド幾何事前分布を導入して再構成プロセスを最適化し、ニューラル SDF 再構成の品質と効率を大幅に向上させます。
さらに、マルチビュー画像のセグメンテーションの一貫性という課題に対処するために、汎用セグメンテーション モデル (SAM) を使用した新しい少数ショットのマルチビュー ターゲット セグメンテーション戦略を提案し、目に見えないオブジェクトの迅速な自動セグメンテーションを可能にします。
多様なデータセットに対する広範な定性的および定量的実験を通じて、私たちが提案する方法が、水中3D再構成の分野における従来の水中3D再構成方法や他のニューラルレンダリングアプローチよりも優れていることを実証します。

要約(オリジナル)

Due to the unique characteristics of underwater environments, accurate 3D reconstruction of underwater objects poses a challenging problem in tasks such as underwater exploration and mapping. Traditional methods that rely on multiple sensor data for 3D reconstruction are time-consuming and face challenges in data acquisition in underwater scenarios. We propose UW-SDF, a framework for reconstructing target objects from multi-view underwater images based on neural SDF. We introduce hybrid geometric priors to optimize the reconstruction process, markedly enhancing the quality and efficiency of neural SDF reconstruction. Additionally, to address the challenge of segmentation consistency in multi-view images, we propose a novel few-shot multi-view target segmentation strategy using the general-purpose segmentation model (SAM), enabling rapid automatic segmentation of unseen objects. Through extensive qualitative and quantitative experiments on diverse datasets, we demonstrate that our proposed method outperforms the traditional underwater 3D reconstruction method and other neural rendering approaches in the field of underwater 3D reconstruction.

arxiv情報

著者 Zeyu Chen,Jingyi Tang,Gu Wang,Shengquan Li,Xinghui Li,Xiangyang Ji,Xiu Li
発行日 2024-10-10 16:33:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

CrackSegDiff: Diffusion Probability Model-based Multi-modal Crack Segmentation

要約

グレースケールデータと深度データを道路検査ロボットに統合すると、道路状況評価の精度、信頼性、包括性が向上し、メンテナンス戦略の改善とより安全なインフラストラクチャにつながる可能性があります。
ただし、これらのデータ ソースは、舗装からの重大なバックグラウンド ノイズによって損なわれることがよくあります。
拡散確率モデル (DPM) の最近の進歩は、SegDiff \cite{amit2021segdiff} などの研究で証明されているように、画像セグメンテーション タスクで目覚ましい成功を収め、強力なノイズ除去機能を示しています。
これらの進歩にもかかわらず、現在の DPM ベースのセグメンタは元の画像データの可能性を十分に活用していません。
この論文では、グレースケール画像と距離/深さ画像を独自に融合する、CrackSegDiff と呼ばれる亀裂セグメンテーションのための新しい DPM ベースのアプローチを提案します。
この方法は、DPM によるローカル特徴抽出とグローバル特徴抽出の間の相互作用を強化することにより、逆拡散プロセスを強化します。
グローバル機能に Transformer を利用する従来の方法とは異なり、私たちのアプローチでは Vm-unet \cite{ruan2024vm} を採用して、元のデータの長距離情報を効率的にキャプチャします。
機能の統合は、Channel Fusion Module (CFM) と Shallow Feature Compensation Module (SFCM) という 2 つの革新的なモジュールを通じてさらに洗練されています。
FIND データセット内の 3 クラスの亀裂画像セグメンテーション タスクに関する実験的評価では、CrackSegDiff が最先端の方法よりも優れた性能を発揮し、特に浅い亀裂の検出に優れていることが実証されました。
コードは https://github.com/sky-visionX/CrackSegDiff で入手できます。

要約(オリジナル)

Integrating grayscale and depth data in road inspection robots could enhance the accuracy, reliability, and comprehensiveness of road condition assessments, leading to improved maintenance strategies and safer infrastructure. However, these data sources are often compromised by significant background noise from the pavement. Recent advancements in Diffusion Probabilistic Models (DPM) have demonstrated remarkable success in image segmentation tasks, showcasing potent denoising capabilities, as evidenced in studies like SegDiff \cite{amit2021segdiff}. Despite these advancements, current DPM-based segmentors do not fully capitalize on the potential of original image data. In this paper, we propose a novel DPM-based approach for crack segmentation, named CrackSegDiff, which uniquely fuses grayscale and range/depth images. This method enhances the reverse diffusion process by intensifying the interaction between local feature extraction via DPM and global feature extraction. Unlike traditional methods that utilize Transformers for global features, our approach employs Vm-unet \cite{ruan2024vm} to efficiently capture long-range information of the original data. The integration of features is further refined through two innovative modules: the Channel Fusion Module (CFM) and the Shallow Feature Compensation Module (SFCM). Our experimental evaluation on the three-class crack image segmentation tasks within the FIND dataset demonstrates that CrackSegDiff outperforms state-of-the-art methods, particularly excelling in the detection of shallow cracks. Code is available at https://github.com/sky-visionX/CrackSegDiff.

arxiv情報

著者 Xiaoyan Jiang,Licheng Jiang,Anjie Wang,Kaiying Zhu,Yongbin Gao
発行日 2024-10-10 16:44:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする