要約
この研究では、多様な画像モダリティ全体でセマンティック セグメンテーションを強化するグラフ ニューラル ネットワーク (GNN) の可能性を調査します。
私たちは、3 つの異なるデータセットに対する新しい GNN ベースの U-Net アーキテクチャの有効性を評価します。PascalVOC (自然画像セグメンテーションの標準ベンチマーク)、WoodScape (自動運転で一般的に使用される魚眼画像の挑戦的なデータセットであり、重大な幾何学的歪みを導入します)。
ISIC2016 は、皮膚病変セグメンテーションのためのダーモスコピー画像のデータセットです。
私たちが提案する UNet-GNN モデルを、U-Net や U-Net++、トランスフォーマー ベースの SwinUNet などの確立された畳み込みニューラル ネットワーク (CNN) ベースのセグメンテーション モデルと比較します。
主にローカル畳み込み演算やグローバル セルフ アテンションに依存するこれらの方法とは異なり、GNN は、画像特徴のグラフ表現を構築および操作することにより、画像領域間の関係を明示的にモデル化します。
このアプローチにより、モデルは長距離の依存関係と複雑な空間関係をキャプチャできるようになります。これは、魚眼画像に存在する幾何学的歪みを処理したり、医療画像の複雑な境界をキャプチャしたりする場合に特に有益であると仮説が立てられています。
私たちの分析は、多様なセグメンテーションの課題に対処する際の GNN の多用途性を実証し、自動運転や医療画像分析などのさまざまなアプリケーションにおけるセグメンテーションの精度を向上させる GNN の可能性を強調しています。
要約(オリジナル)
This study explores the potential of graph neural networks (GNNs) to enhance semantic segmentation across diverse image modalities. We evaluate the effectiveness of a novel GNN-based U-Net architecture on three distinct datasets: PascalVOC, a standard benchmark for natural image segmentation, WoodScape, a challenging dataset of fisheye images commonly used in autonomous driving, introducing significant geometric distortions; and ISIC2016, a dataset of dermoscopic images for skin lesion segmentation. We compare our proposed UNet-GNN model against established convolutional neural networks (CNNs) based segmentation models, including U-Net and U-Net++, as well as the transformer-based SwinUNet. Unlike these methods, which primarily rely on local convolutional operations or global self-attention, GNNs explicitly model relationships between image regions by constructing and operating on a graph representation of the image features. This approach allows the model to capture long-range dependencies and complex spatial relationships, which we hypothesize will be particularly beneficial for handling geometric distortions present in fisheye imagery and capturing intricate boundaries in medical images. Our analysis demonstrates the versatility of GNNs in addressing diverse segmentation challenges and highlights their potential to improve segmentation accuracy in various applications, including autonomous driving and medical image analysis.
arxiv情報
著者 | Aryan Singh,Pepijn Van de Ven,Ciarán Eising,Patrick Denny |
発行日 | 2025-01-07 13:09:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google