Impact of architecture on robustness and interpretability of multispectral deep neural networks

要約

追加のスペクトル帯域 (近赤外線など) からの情報を含めることで、多くの視覚指向タスクの深層学習モデルのパフォーマンスを向上させることができます。
この追加情報を深層学習モデルに組み込む方法は数多くありますが、最適な融合戦略はまだ決定されておらず、アプリケーションによって異なる可能性があります。
「初期融合」として知られる極端な例では、追加のバンドが追加のチャネルとしてスタックされ、3 チャネルを超える入力画像が取得されます。
「遅延融合」として知られるもう一方の極端な方法では、RGB バンドと非 RGB バンドが深層学習モデルの別々のブランチを通過し、最終的な分類レイヤーまたはセグメンテーション レイヤーの直前にマージされます。
この研究では、さまざまな融合アプローチを使用して一連のマルチスペクトル深層学習モデルのパフォーマンスを特徴付け、さまざまな入力バンドに対する相対的な依存度を定量化し、1 つまたは複数の入力チャネルに影響を与える自然な画像の破損に対する堅牢性を評価します。

要約(オリジナル)

Including information from additional spectral bands (e.g., near-infrared) can improve deep learning model performance for many vision-oriented tasks. There are many possible ways to incorporate this additional information into a deep learning model, but the optimal fusion strategy has not yet been determined and can vary between applications. At one extreme, known as ‘early fusion,’ additional bands are stacked as extra channels to obtain an input image with more than three channels. At the other extreme, known as ‘late fusion,’ RGB and non-RGB bands are passed through separate branches of a deep learning model and merged immediately before a final classification or segmentation layer. In this work, we characterize the performance of a suite of multispectral deep learning models with different fusion approaches, quantify their relative reliance on different input bands and evaluate their robustness to naturalistic image corruptions affecting one or more input channels.

arxiv情報

著者 Charles Godfrey,Elise Bishoff,Myles McKay,Eleanor Byler
発行日 2023-09-27 15:16:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク