要約
多くの畳み込みニューラル ネットワーク (CNN) は、ネットワークの受容野を増大させ、計算コストを削減するために、特徴マップの漸進的ダウンサンプリングに依存しています。
ただし、これには、特徴マップの粒度が失われ、画像を正しく理解したり、高密度の予測タスクで詳細を復元したりする能力が制限されるという代償が伴います。
これに対処するために、CNN の最後の数回のダウンサンプリング操作を拡張畳み込みに置き換えることが一般的です。これにより、計算コストは増加しますが、受容野を低下させることなく特徴マップの解像度を維持できるようになります。
これにより、出力特徴の解像度に応じて、予測パフォーマンスとコストをトレードオフすることができます。
特徴マップ全体を定期的にダウンサンプリングするかダウンサンプリングしないことにより、既存の研究では暗黙的に入力画像のすべての領域と後続の特徴マップが同様に重要なものとして扱われますが、これは一般的には当てはまりません。
我々は、情報量の少ない領域よりも情報量の多い領域をより高い解像度で処理できるようにすることで、上記の考え方を一般化する適応型ダウンサンプリング方式を提案します。
さまざまな実験で、適応ダウンサンプリング戦略の多用途性を実証し、それがさまざまな確立された CNN のコストと精度のトレードオフを改善することを経験的に示しています。
要約(オリジナル)
Many convolutional neural networks (CNNs) rely on progressive downsampling of their feature maps to increase the network’s receptive field and decrease computational cost. However, this comes at the price of losing granularity in the feature maps, limiting the ability to correctly understand images or recover fine detail in dense prediction tasks. To address this, common practice is to replace the last few downsampling operations in a CNN with dilated convolutions, allowing to retain the feature map resolution without reducing the receptive field, albeit increasing the computational cost. This allows to trade off predictive performance against cost, depending on the output feature resolution. By either regularly downsampling or not downsampling the entire feature map, existing work implicitly treats all regions of the input image and subsequent feature maps as equally important, which generally does not hold. We propose an adaptive downsampling scheme that generalizes the above idea by allowing to process informative regions at a higher resolution than less informative ones. In a variety of experiments, we demonstrate the versatility of our adaptive downsampling strategy and empirically show that it improves the cost-accuracy trade-off of various established CNNs.
arxiv情報
著者 | Robin Hesse,Simone Schaub-Meyer,Stefan Roth |
発行日 | 2023-05-16 14:58:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google