Contextual fusion enhances robustness to image blurring

要約

哺乳類の脳は、特定の感覚様式に特化した脳領域全体の情報を統合することで、複雑な推論を処理します。
これにより、通常 1 つのモダリティを処理し、摂動に対して脆弱なディープ ニューラル ネットワークと比較して、堅牢性と一般化が向上します。
防御方法は存在しますが、摂動全体にわたってうまく一般化できるわけではありません。
Imagenet と Places365 でトレーニングされた CNN の背景と前景の特徴を組み合わせた融合モデルを開発しました。
私たちは、人間が知覚できる摂動に対するロバスト性を MS COCO 上でテストしました。
融合モデルにより、特にコンテキストの変動性が大きいクラスの堅牢性が向上しました。
複数のモダリティを統合するために私たちが提案するソリューションは、堅牢性を強化する新しいアプローチを提供し、既存の方法を補完する可能性があります。

要約(オリジナル)

Mammalian brains handle complex reasoning by integrating information across brain regions specialized for particular sensory modalities. This enables improved robustness and generalization versus deep neural networks, which typically process one modality and are vulnerable to perturbations. While defense methods exist, they do not generalize well across perturbations. We developed a fusion model combining background and foreground features from CNNs trained on Imagenet and Places365. We tested its robustness to human-perceivable perturbations on MS COCO. The fusion model improved robustness, especially for classes with greater context variability. Our proposed solution for integrating multiple modalities provides a new approach to enhance robustness and may be complementary to existing methods.

arxiv情報

著者 Shruti Joshi,Aiswarya Akumalla,Seth Haney,Maxim Bazhenov
発行日 2024-06-07 17:50:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク