Soybean Disease Detection via Interpretable Hybrid CNN-GNN: Integrating MobileNetV2 and GraphSAGE with Cross-Modal Attention

要約

大豆の葉の病害検出は農業生産性にとって重要であるが、従来の方法では視覚的に類似した症状や限定された解釈可能性のために課題に直面している。畳み込みニューラルネットワーク(CNN)は空間的特徴抽出に優れているが、画像間の関係依存性を無視することが多く、誤分類につながる。本論文では、局所的特徴抽出のためのMobileNetV2と関係モデリングのためのGraphSAGEを相乗させた、解釈可能なハイブリッド逐次CNN-グラフニューラルネットワーク(GNN)フレームワークを提案する。このフレームワークは、ノードは葉画像を表し、エッジはコサイン類似度に基づく隣接行列と適応的近傍サンプリングによって定義されるグラフを構築する。この設計により、きめ細かい病変の特徴とグローバルな症状パターンを捉え、クラス間の類似性の課題に対処する。Grad-CAMおよびEigen-CAMによる可視化により、クロスモーダルな解釈可能性が達成され、疾患影響領域を強調するヒートマップが生成される。大豆の葉の病気10個のデータセットで評価した結果、このモデルは97.16%$の精度を 達成し、単体のCNN(95.04%$)や従来の機械学習モデル(77.05%$)を上回った。アブレーション研究により、並列や単一モデル構成より逐次アーキテクチャの 優位性が検証された。MobileNetV2とGraphSAGEの組み合わせは、わずか230万パラメータで、計算効率を保証し、リソースに制約のある環境でのリアルタイム展開を可能にする。提案されたアプローチは、正確な分類と実用的な適用性のギャップを埋め、植物病理学研究におけるCNN-GNNの統合を進めると同時に、農業診断のための堅牢で解釈可能なツールを提供する。

要約(オリジナル)

Soybean leaf disease detection is critical for agricultural productivity but faces challenges due to visually similar symptoms and limited interpretability in conventional methods. While Convolutional Neural Networks (CNNs) excel in spatial feature extraction, they often neglect inter-image relational dependencies, leading to misclassifications. This paper proposes an interpretable hybrid Sequential CNN-Graph Neural Network (GNN) framework that synergizes MobileNetV2 for localized feature extraction and GraphSAGE for relational modeling. The framework constructs a graph where nodes represent leaf images, with edges defined by cosine similarity-based adjacency matrices and adaptive neighborhood sampling. This design captures fine-grained lesion features and global symptom patterns, addressing inter-class similarity challenges. Cross-modal interpretability is achieved via Grad-CAM and Eigen-CAM visualizations, generating heatmaps to highlight disease-influential regions. Evaluated on a dataset of ten soybean leaf diseases, the model achieves $97.16\%$ accuracy, surpassing standalone CNNs ($\le95.04\%$) and traditional machine learning models ($\le77.05\%$). Ablation studies validate the sequential architecture’s superiority over parallel or single-model configurations. With only 2.3 million parameters, the lightweight MobileNetV2-GraphSAGE combination ensures computational efficiency, enabling real-time deployment in resource-constrained environments. The proposed approach bridges the gap between accurate classification and practical applicability, offering a robust, interpretable tool for agricultural diagnostics while advancing CNN-GNN integration in plant pathology research.

arxiv情報

著者 Md Abrar Jahin,Soudeep Shahriar,M. F. Mridha,Md. Jakir Hossen,Nilanjan Dey
発行日 2025-05-02 15:05:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク