Enhanced Sample Selection with Confidence Tracking: Identifying Correctly Labeled yet Hard-to-Learn Samples in Noisy Data

要約

ノイズの多いラベルが存在する場合の画像分類のための新しいサンプル選択方法を提案します。
既存のメソッドは通常、小型サンプルを正しくラベル付けしていると見なします。
ただし、一部の正しいラベルの付いたサンプルは、モデルが学習するのが本質的に困難であり、トレーニングの初期段階で誤ったラベルのあるサンプルと同様に高い損失を示すことができます。
その結果、サンプルごとの損失にしきい値を設定して正しいラベルを選択すると、サンプル選択のリコールとリコールの間にトレードオフが発生します。
この問題に対処するために、私たちの目標は、正しくラベル付けされているが学習しにくいサンプルと誤ったラベルのあるサンプルを正確に区別し、トレードオフのジレンマを緩和することです。
これは、損失値だけに依存するのではなく、モデル予測信頼の傾向を考慮することで達成します。
経験的観察は、正しくラベル付けされたサンプルのみでのみ、注釈付きラベルのモデルの予測信頼が通常、他のクラスよりも速く増加することを示しています。
この洞察に基づいて、トレーニング中に注釈付きラベルと他のクラスの間の自信のギャップを追跡し、Mann-Kendallテストを使用してトレンドを評価することを提案します。
すべての信頼ギャップが増加する傾向がある場合、サンプルは潜在的に正しくラベル付けされていると見なされます。
当社のメソッドは、既存のサンプル選択技術にシームレスに統合できるプラグアンドプレイコンポーネントとして機能します。
いくつかの標準ベンチマークと現実世界のデータセットでの実験により、この方法は騒々しいラベルを使用して既存の学習方法のパフォーマンスを向上させることが示されています。

要約(オリジナル)

We propose a novel sample selection method for image classification in the presence of noisy labels. Existing methods typically consider small-loss samples as correctly labeled. However, some correctly labeled samples are inherently difficult for the model to learn and can exhibit high loss similar to mislabeled samples in the early stages of training. Consequently, setting a threshold on per-sample loss to select correct labels results in a trade-off between precision and recall in sample selection: a lower threshold may miss many correctly labeled hard-to-learn samples (low recall), while a higher threshold may include many mislabeled samples (low precision). To address this issue, our goal is to accurately distinguish correctly labeled yet hard-to-learn samples from mislabeled ones, thus alleviating the trade-off dilemma. We achieve this by considering the trends in model prediction confidence rather than relying solely on loss values. Empirical observations show that only for correctly labeled samples, the model’s prediction confidence for the annotated labels typically increases faster than for any other classes. Based on this insight, we propose tracking the confidence gaps between the annotated labels and other classes during training and evaluating their trends using the Mann-Kendall Test. A sample is considered potentially correctly labeled if all its confidence gaps tend to increase. Our method functions as a plug-and-play component that can be seamlessly integrated into existing sample selection techniques. Experiments on several standard benchmarks and real-world datasets demonstrate that our method enhances the performance of existing methods for learning with noisy labels.

arxiv情報

著者 Weiran Pan,Wei Wei,Feida Zhu,Yong Deng
発行日 2025-04-24 12:07:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Enhanced Sample Selection with Confidence Tracking: Identifying Correctly Labeled yet Hard-to-Learn Samples in Noisy Data はコメントを受け付けていません

Disentangling Visual Transformers: Patch-level Interpretability for Image Classification

要約

視覚的な変圧器は、画像分類タスクで顕著なパフォーマンスを達成していますが、このパフォーマンスの増加は解釈可能性を犠牲にしてもたらされました。
変圧器の解釈に対する主な障害の1つは、自己触媒メカニズムであり、画像全体にわたって視覚情報を複雑な方法で混合します。
この論文では、Visual Transformerに触発されたデザインアーキテクチャによる解釈可能な小説であるHindered Transformer(Hit)を提案します。
提案されているアーキテクチャは、分類段階でのパッチの影響をよりよく解き放つように変圧器の設計を再考します。
最終的に、ヒットはパッチレベル情報の線形組み合わせとして解釈できます。
説明の観点からのアプローチの利点は、パフォーマンスの合理的なトレードオフに伴い、解釈可能性が最重要であるアプリケーションにとって魅力的な代替手段となっていることを示しています。

要約(オリジナル)

Visual transformers have achieved remarkable performance in image classification tasks, but this performance gain has come at the cost of interpretability. One of the main obstacles to the interpretation of transformers is the self-attention mechanism, which mixes visual information across the whole image in a complex way. In this paper, we propose Hindered Transformer (HiT), a novel interpretable by design architecture inspired by visual transformers. Our proposed architecture rethinks the design of transformers to better disentangle patch influences at the classification stage. Ultimately, HiT can be interpreted as a linear combination of patch-level information. We show that the advantages of our approach in terms of explicability come with a reasonable trade-off in performance, making it an attractive alternative for applications where interpretability is paramount.

arxiv情報

著者 Guillaume Jeanneret,Loïc Simon,Frédéric Jurie
発行日 2025-04-24 12:21:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Disentangling Visual Transformers: Patch-level Interpretability for Image Classification はコメントを受け付けていません

Latent Representations for Visual Proprioception in Inexpensive Robots

要約

ロボット操作には、ロボットの関節位置に関する明示的または暗黙的な知識が必要です。
正確な固有受容は、高品質の産業ロボットでは標準ですが、構造化されていない環境で動作する安価なロボットでは利用できないことがよくあります。
この論文では、次のように尋ねます。高速でシングルパス回帰アーキテクチャは、最も単純な操作設定でも利用可能な単一の外部カメラ画像から視覚的固有受容を実行できますか?
利用可能な限られたデータに適応した微調整技術を使用して、CNN、VAES、VIT、および微調整されたファイディアマーカーの袋を含むいくつかの潜在表現を探索します。
安価な6-DOFロボットでの実験を通じて、達成可能な精度を評価します。

要約(オリジナル)

Robotic manipulation requires explicit or implicit knowledge of the robot’s joint positions. Precise proprioception is standard in high-quality industrial robots but is often unavailable in inexpensive robots operating in unstructured environments. In this paper, we ask: to what extent can a fast, single-pass regression architecture perform visual proprioception from a single external camera image, available even in the simplest manipulation settings? We explore several latent representations, including CNNs, VAEs, ViTs, and bags of uncalibrated fiducial markers, using fine-tuning techniques adapted to the limited data available. We evaluate the achievable accuracy through experiments on an inexpensive 6-DoF robot.

arxiv情報

著者 Sahara Sheikholeslami,Ladislau Bölöni
発行日 2025-04-24 12:36:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Latent Representations for Visual Proprioception in Inexpensive Robots はコメントを受け付けていません

RefVNLI: Towards Scalable Evaluation of Subject-driven Text-to-image Generation

要約

サブジェクト駆動型のテキストからイメージ(T2I)Generationは、参照されたサブジェクト画像から視覚的アイデンティティを保持しながら、特定のテキスト説明に合わせた画像を作成することを目的としています。
画像生成の強化されたパーソナライズからビデオレンダリングの一貫したキャラクター表現に至るまで、その幅広い下流の適用性にもかかわらず、この分野の進歩は、信頼できる自動評価の欠如によって制限されます。
既存の方法は、タスクの1つの側面のみ(つまり、テキストアライメントまたはサブジェクトの保存)のみを評価し、人間の判断との誤った整理、または費用のかかるAPIベースの評価に依存します。
これに対処するために、単一の予測でテキストアラインメントと被験者の保存の両方を評価する費用対効果の高いメトリックであるRefvnliを紹介します。
Video-Reasoning Benchmarks and Image Turburationsから派生した大規模なデータセットでトレーニングされているRefvnliは、複数のベンチマークとサブジェクトカテゴリ(例えば、\ emphing {Animal}、\ emph {object})にわたって既存のベースラインを上回るか、一致させ、テキストアレインメントで最大6.4ポイントのゲインを達成します。
また、あまり知られていない概念に優れており、87%を超える精度で人間の好みに合わせています。

要約(オリジナル)

Subject-driven text-to-image (T2I) generation aims to produce images that align with a given textual description, while preserving the visual identity from a referenced subject image. Despite its broad downstream applicability — ranging from enhanced personalization in image generation to consistent character representation in video rendering — progress in this field is limited by the lack of reliable automatic evaluation. Existing methods either assess only one aspect of the task (i.e., textual alignment or subject preservation), misalign with human judgments, or rely on costly API-based evaluation. To address this, we introduce RefVNLI, a cost-effective metric that evaluates both textual alignment and subject preservation in a single prediction. Trained on a large-scale dataset derived from video-reasoning benchmarks and image perturbations, RefVNLI outperforms or matches existing baselines across multiple benchmarks and subject categories (e.g., \emph{Animal}, \emph{Object}), achieving up to 6.4-point gains in textual alignment and 8.5-point gains in subject consistency. It also excels with lesser-known concepts, aligning with human preferences at over 87\% accuracy.

arxiv情報

著者 Aviv Slobodkin,Hagai Taitelbaum,Yonatan Bitton,Brian Gordon,Michal Sokolik,Nitzan Bitton Guetta,Almog Gueta,Royi Rassin,Itay Laish,Dani Lischinski,Idan Szpektor
発行日 2025-04-24 12:44:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RefVNLI: Towards Scalable Evaluation of Subject-driven Text-to-image Generation はコメントを受け付けていません

Mamba-Sea: A Mamba-based Framework with Global-to-Local Sequence Augmentation for Generalizable Medical Image Segmentation

要約

分布シフトで医療画像をセグメント化するために、ドメイン一般化(DG)は、目に見えないターゲットドメインに一般化できるソースドメインでモデルをトレーニングするための有望な設定として浮上しています。
既存のDGメソッドは、主にCNNまたはVITアーキテクチャに基づいています。
最近、Mambaが代表するAdvanced State Spaceモデルは、さまざまな監視された医療画像セグメンテーションで有望な結果を示しています。
Mambaの成功は、主に、入力シーケンスの長さと線形の複雑さを維持しながら長距離依存関係をキャプチャする能力により、CNNとvitsの有望な代替手段となっています。
この大成功に触発された論文では、医療画像セグメンテーションのDGの分布シフトに対処するマンバアーキテクチャの可能性を探ります。
具体的には、ドメインシフトの問題でのモデルの一般化可能性を改善するために、グローバルからローカルへのシーケンスの増強を組み込んだ新しいMambaベースのフレームワークMamba-SEAを提案します。
当社のMamba-SEAは、モデルの学習をドメイン固有の情報の学習を抑制することを目的とした、さまざまなサイトにわたる外観の潜在的な変動をシミュレートするように設計されたグローバルな増強メカニズムを導入しています。
ローカルレベルでは、ドメインシフトに関連するスタイル統計をモデリングおよびリサンプリングすることにより、ランダム連続サブシーケンス内のトークンのスタイルを妨害する入力シーケンスに沿ったシーケンスごとの増強を提案します。
私たちの最高の知識のために、Mamba-SEAは、医療画像セグメンテーションのためのMambaの一般化を探求する最初の研究であり、ドメインシフトに対する強い堅牢性を備えた高度で有望なMambaベースのアーキテクチャを提供します。
驚くべきことに、私たちの提案された方法は、前立腺データセットで90%のサイコロ係数を上回る最初の方法であり、これは以前のSOTA 88.61%を超えています。
このコードは、https://github.com/orange-czh/mamba-seaで入手できます。

要約(オリジナル)

To segment medical images with distribution shifts, domain generalization (DG) has emerged as a promising setting to train models on source domains that can generalize to unseen target domains. Existing DG methods are mainly based on CNN or ViT architectures. Recently, advanced state space models, represented by Mamba, have shown promising results in various supervised medical image segmentation. The success of Mamba is primarily owing to its ability to capture long-range dependencies while keeping linear complexity with input sequence length, making it a promising alternative to CNNs and ViTs. Inspired by the success, in the paper, we explore the potential of the Mamba architecture to address distribution shifts in DG for medical image segmentation. Specifically, we propose a novel Mamba-based framework, Mamba-Sea, incorporating global-to-local sequence augmentation to improve the model’s generalizability under domain shift issues. Our Mamba-Sea introduces a global augmentation mechanism designed to simulate potential variations in appearance across different sites, aiming to suppress the model’s learning of domain-specific information. At the local level, we propose a sequence-wise augmentation along input sequences, which perturbs the style of tokens within random continuous sub-sequences by modeling and resampling style statistics associated with domain shifts. To our best knowledge, Mamba-Sea is the first work to explore the generalization of Mamba for medical image segmentation, providing an advanced and promising Mamba-based architecture with strong robustness to domain shifts. Remarkably, our proposed method is the first to surpass a Dice coefficient of 90% on the Prostate dataset, which exceeds previous SOTA of 88.61%. The code is available at https://github.com/orange-czh/Mamba-Sea.

arxiv情報

著者 Zihan Cheng,Jintao Guo,Jian Zhang,Lei Qi,Luping Zhou,Yinghuan Shi,Yang Gao
発行日 2025-04-24 12:57:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Mamba-Sea: A Mamba-based Framework with Global-to-Local Sequence Augmentation for Generalizable Medical Image Segmentation はコメントを受け付けていません

Towards One-Stage End-to-End Table Structure Recognition with Parallel Regression for Diverse Scenarios

要約

テーブル構造の認識は、構造化されていないデータのテーブルを機械理解可能な形式に解析することを目的としています。
最近の方法は、2段階のプロセスまたは最適化された1段階のアプローチを通じてこの問題に対処しています。
ただし、これらの方法では、複数のネットワークを連続トレーニングし、より時間のかかるシーケンシャルデコードを実行する必要があるか、テーブルの論理構造を解析するために複雑な後処理アルゴリズムに依存する必要があります。
彼らは、クロスセナリオの適応性、堅牢性、計算効率のバランスをとるのに苦労しています。
この論文では、Tablecenternetと呼ばれる1段階のエンドツーエンドテーブル構造解析ネットワークを提案します。
このネットワークは、テーブルの空間的および論理構造の予測を初めて並列回帰タスクに統合し、共有特徴抽出層とタスク固有のデコードの相乗的アーキテクチャを通じて、セルの空間論的位置マッピング法則を暗黙的に学習します。
2段階の方法と比較して、私たちの方法はトレーニングが簡単で、推測が速いです。
ベンチマークデータセットでの実験は、テーブルセンターセットがさまざまなシナリオでテーブル構造を効果的に解析し、Tablegraph-24Kデータセットで最先端のパフォーマンスを達成できることを示しています。
コードはhttps://github.com/dreamy-xay/tablecenternetで入手できます。

要約(オリジナル)

Table structure recognition aims to parse tables in unstructured data into machine-understandable formats. Recent methods address this problem through a two-stage process or optimized one-stage approaches. However, these methods either require multiple networks to be serially trained and perform more time-consuming sequential decoding, or rely on complex post-processing algorithms to parse the logical structure of tables. They struggle to balance cross-scenario adaptability, robustness, and computational efficiency. In this paper, we propose a one-stage end-to-end table structure parsing network called TableCenterNet. This network unifies the prediction of table spatial and logical structure into a parallel regression task for the first time, and implicitly learns the spatial-logical location mapping laws of cells through a synergistic architecture of shared feature extraction layers and task-specific decoding. Compared with two-stage methods, our method is easier to train and faster to infer. Experiments on benchmark datasets show that TableCenterNet can effectively parse table structures in diverse scenarios and achieve state-of-the-art performance on the TableGraph-24k dataset. Code is available at https://github.com/dreamy-xay/TableCenterNet.

arxiv情報

著者 Anyi Xiao,Cihui Yang
発行日 2025-04-24 13:03:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Towards One-Stage End-to-End Table Structure Recognition with Parallel Regression for Diverse Scenarios はコメントを受け付けていません

Continuous and complete liver vessel segmentation with graph-attention guided diffusion

要約

接続性と完全性を改善することは、特に小さな船舶にとって、肝臓容器のセグメンテーションの最も困難な側面です。
これらの課題には、連続容器のジオメトリを学習することと、小さな血管検出に焦点を合わせることの両方が必要です。
ただし、現在の方法は、これらの2つの側面に明示的に対処せず、一貫性のない注釈によって制約された場合、適切に一般化することはできません。
ここでは、拡散モデルの一般化を活用し、拡散ベースのセグメンテーションモデルの接続性と完全性を明示的に統合します。
具体的には、容器ジオメトリに関する知識を追加するグラフアテンションモジュールを使用します。
さらに、複数のスケールでグラフアテンションを実行するため、小さな肝臓容器に焦点を当てています。
私たちの方法は、3D-arcadb-01とlivsの2つのパブリックデータセットで5つの最先端の医療セグメンテーション方法を上回ります。

要約(オリジナル)

Improving connectivity and completeness are the most challenging aspects of liver vessel segmentation, especially for small vessels. These challenges require both learning the continuous vessel geometry and focusing on small vessel detection. However, current methods do not explicitly address these two aspects and cannot generalize well when constrained by inconsistent annotations. Here, we take advantage of the generalization of the diffusion model and explicitly integrate connectivity and completeness in our diffusion-based segmentation model. Specifically, we use a graph-attention module that adds knowledge about vessel geometry. Additionally, we perform the graph-attention at multiple-scales, thus focusing on small liver vessels. Our method outperforms five state-of-the-art medical segmentation methods on two public datasets: 3D-ircadb-01 and LiVS.

arxiv情報

著者 Xiaotong Zhang,Alexander Broersen,Gonnie CM van Erp,Silvia L. Pintea,Jouke Dijkstra
発行日 2025-04-24 13:07:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Continuous and complete liver vessel segmentation with graph-attention guided diffusion はコメントを受け付けていません

ESDiff: Encoding Strategy-inspired Diffusion Model with Few-shot Learning for Color Image Inpainting

要約

画像Inpaintingは、画像の欠落または損傷した領域を復元するために使用される手法です。
従来の方法は、主に、欠落している領域を再構築するために隣接するピクセルからの情報を利用していますが、それらは複雑な詳細と構造を維持するのに苦労しています。
同時に、深い学習に基づくモデルは、かなりの量のトレーニングデータを必要とします。
この課題に対処するために、このホワイトペーパーでは、カラーイメージの入門の少数の学習を備えたエンコード戦略に触発された拡散モデルを提案しています。
この新しいエンコーディング戦略の主なアイデアは、チャネル間の相互摂動を通じて高次元オブジェクトを構築するための「仮想マスク」の展開です。
このアプローチにより、拡散モデルは、限られたトレーニングサンプルから多様な画像表現と詳細な機能をキャプチャできます。
さらに、エンコーディング戦略は、チャネル間の冗長性を活用し、反復的なインペインティング中に低ランクの方法と統合し、拡散モデルを組み込んで正確な情報出力を実現します。
実験結果は、私たちの方法が定量的メトリックの現在の手法を超えており、再構築された画像の品質がテクスチャと構造の完全性の側面で改善され、より正確でコヒーレントな結果につながることを示しています。

要約(オリジナル)

Image inpainting is a technique used to restore missing or damaged regions of an image. Traditional methods primarily utilize information from adjacent pixels for reconstructing missing areas, while they struggle to preserve complex details and structures. Simultaneously, models based on deep learning necessitate substantial amounts of training data. To address this challenge, an encoding strategy-inspired diffusion model with few-shot learning for color image inpainting is proposed in this paper. The main idea of this novel encoding strategy is the deployment of a ‘virtual mask’ to construct high-dimensional objects through mutual perturbations between channels. This approach enables the diffusion model to capture diverse image representations and detailed features from limited training samples. Moreover, the encoding strategy leverages redundancy between channels, integrates with low-rank methods during iterative inpainting, and incorporates the diffusion model to achieve accurate information output. Experimental results indicate that our method exceeds current techniques in quantitative metrics, and the reconstructed images quality has been improved in aspects of texture and structural integrity, leading to more precise and coherent results.

arxiv情報

著者 Junyan Zhang,Yan Li,Mengxiao Geng,Liu Shi,Qiegen Liu
発行日 2025-04-24 13:08:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ESDiff: Encoding Strategy-inspired Diffusion Model with Few-shot Learning for Color Image Inpainting はコメントを受け付けていません

Text-to-Image Alignment in Denoising-Based Models through Step Selection

要約

視覚的な生成AIモデルは、多くの場合、テキストイメージのアライメントと推論の制限に関連する課題に遭遇します。
このペーパーでは、入力セマンティクスに基づいて画像生成を最適化する重要な除去ステップで信号を選択的に強化するための新しい方法を紹介します。
私たちのアプローチは、初期段階の信号修正の欠点に対処し、後の段階で行われた調整が優れた結果をもたらすことを示しています。
私たちは、拡散モデルとフローマッチングモデルで意味的に整列した画像を生成する際の方法の有効性を検証するために広範な実験を実施し、最先端のパフォーマンスを達成します。
私たちの結果は、パフォーマンスと全体的な画像アライメントを改善するためのサンプリング段階の賢明な選択の重要性を強調しています。

要約(オリジナル)

Visual generative AI models often encounter challenges related to text-image alignment and reasoning limitations. This paper presents a novel method for selectively enhancing the signal at critical denoising steps, optimizing image generation based on input semantics. Our approach addresses the shortcomings of early-stage signal modifications, demonstrating that adjustments made at later stages yield superior results. We conduct extensive experiments to validate the effectiveness of our method in producing semantically aligned images on Diffusion and Flow Matching model, achieving state-of-the-art performance. Our results highlight the importance of a judicious choice of sampling stage to improve performance and overall image alignment.

arxiv情報

著者 Paul Grimal,Hervé Le Borgne,Olivier Ferret
発行日 2025-04-24 13:10:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Text-to-Image Alignment in Denoising-Based Models through Step Selection はコメントを受け付けていません

An Explainable Nature-Inspired Framework for Monkeypox Diagnosis: Xception Features Combined with NGBoost and African Vultures Optimization Algorithm

要約

Monkeypoxの最近の世界的な広がり、特に歴史的に普及していない地域では、重大な公衆衛生上の懸念を引き起こしています。
効果的な疾患の管理と制御には、早期かつ正確な診断が重要です。
これに応じて、この研究では、皮膚病変画像からMonkeypoxを自動検出するための新しい深い学習ベースのフレームワークを提案し、転送学習、次元削減、および高度な機械学習技術の力を活用しています。
モデルを訓練および評価するために、Monkeypox、Chicken、およびはしかの画像を含む、新しく開発されたMonkeypox皮膚病変データセット(MSLD)を利用しています。
提案されたフレームワークは、深い特徴抽出のためのXceptionアーキテクチャを採用し、その後、次元削減のための主成分分析(PCA)、および分類のための自然勾配ブースト(NGBoost)アルゴリズムが続きます。
モデルのパフォーマンスと一般化を最適化するために、ハイパーパラメーターチューニングのためにアフリカンハゲタカの最適化アルゴリズム(AVOA)を紹介し、パラメーター空間の効率的な調査を確保します。
私たちの結果は、提案されたAVOA-NGBoostモデルが97.53%、F1スコア97.72%、AUCの97.47%の精度で最先端のパフォーマンスを達成することを示しています。
さらに、Grad-CAMおよびLIMEテクニックを使用してモデルの解釈可能性を高め、意思決定プロセスに関する洞察を提供し、分類に影響を与える重要な機能を強調します。
このフレームワークは、非常に正確で効率的な診断ツールを提供し、特にリソースに制約のある環境で、早期の検出と診断において医療提供者を支援する可能性があります。

要約(オリジナル)

The recent global spread of monkeypox, particularly in regions where it has not historically been prevalent, has raised significant public health concerns. Early and accurate diagnosis is critical for effective disease management and control. In response, this study proposes a novel deep learning-based framework for the automated detection of monkeypox from skin lesion images, leveraging the power of transfer learning, dimensionality reduction, and advanced machine learning techniques. We utilize the newly developed Monkeypox Skin Lesion Dataset (MSLD), which includes images of monkeypox, chickenpox, and measles, to train and evaluate our models. The proposed framework employs the Xception architecture for deep feature extraction, followed by Principal Component Analysis (PCA) for dimensionality reduction, and the Natural Gradient Boosting (NGBoost) algorithm for classification. To optimize the model’s performance and generalization, we introduce the African Vultures Optimization Algorithm (AVOA) for hyperparameter tuning, ensuring efficient exploration of the parameter space. Our results demonstrate that the proposed AVOA-NGBoost model achieves state-of-the-art performance, with an accuracy of 97.53%, F1-score of 97.72% and an AUC of 97.47%. Additionally, we enhance model interpretability using Grad-CAM and LIME techniques, providing insights into the decision-making process and highlighting key features influencing classification. This framework offers a highly precise and efficient diagnostic tool, potentially aiding healthcare providers in early detection and diagnosis, particularly in resource-constrained environments.

arxiv情報

著者 Ahmadreza Shateri,Negar Nourani,Morteza Dorrigiv,Hamid Nasiri
発行日 2025-04-24 13:32:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV | An Explainable Nature-Inspired Framework for Monkeypox Diagnosis: Xception Features Combined with NGBoost and African Vultures Optimization Algorithm はコメントを受け付けていません