要約
深層知覚損失は、コンピュータビジョンにおける損失関数の一種で、ニューラルネットワークから抽出された深層特徴を用いて人間の知覚を模倣することを目的としている。近年、この手法は多くの興味深いコンピュータビジョンのタスク、特に画像や画像に似た出力を持つタスクに効果的に適用されています。この手法の多くの応用例では、損失計算のために事前に学習させたネットワーク(多くの場合、畳み込みネットワーク)を使用しています。しかし、深層知覚損失の計算にどのネットワークを用いるか、またどの層から特徴を抽出するかについて、より多くの努力が必要である。 本研究では、深層知覚損失の既存の4つのユースケースについて、多くの異なる特徴抽出ポイントについて、一般的に使用され、容易に入手できる事前学習済みネットワークのホストを系統的に評価することによって、これを是正することを目的とする。4つのユースケースは、過去の研究の実装であり、元の研究で使用されたネットワークと抽出点の代わりに、選択されたネットワークと抽出点が評価される。実験課題は、次元削減、画像分割、超解像、知覚的類似性である。これら4つのタスクの性能、ネットワークの属性、抽出点をもとに、詳細な分析を行う。この分析により、どのアーキテクチャが深層知覚損失に対して優れた性能を発揮するか、また、特定のタスクとデータセットに対して適切な抽出ポイントをどのように選択するかについて、重要な情報が明らかにされた。さらに、本研究では、この結果が深層知覚損失やより広範な転移学習の分野に与える影響についても議論している。この結果は、伝達学習において一般的に保持されている仮定を破り、深層知覚損失がほとんどの伝達学習設定から逸脱していること、あるいはこれらの仮定を徹底的に再評価する必要があることを示唆している。
要約(オリジナル)
Deep perceptual loss is a type of loss function in computer vision that aims to mimic human perception by using the deep features extracted from neural networks. In recent years the method has been applied to great effect on a host of interesting computer vision tasks, especially for tasks with image or image-like outputs. Many applications of the method use pretrained networks, often convolutional networks, for loss calculation. Despite the increased interest and broader use, more effort is needed toward exploring which networks to use for calculating deep perceptual loss and from which layers to extract the features. This work aims to rectify this by systematically evaluating a host of commonly used and readily available, pretrained networks for a number of different feature extraction points on four existing use cases of deep perceptual loss. The four use cases are implementations of previous works where the selected networks and extraction points are evaluated instead of the networks and extraction points used in the original work. The experimental tasks are dimensionality reduction, image segmentation, super-resolution, and perceptual similarity. The performance on these four tasks, attributes of the networks, and extraction points are then used as a basis for an in-depth analysis. This analysis uncovers essential information regarding which architectures provide superior performance for deep perceptual loss and how to choose an appropriate extraction point for a particular task and dataset. Furthermore, the work discusses the implications of the results for deep perceptual loss and the broader field of transfer learning. The results break commonly held assumptions in transfer learning, which imply that deep perceptual loss deviates from most transfer learning settings or that these assumptions need a thorough re-evaluation.
arxiv情報
著者 | Gustav Grund Pihlgren,Konstantina Nikolaidou,Prakash Chandra Chhipa,Nosheen Abid,Rajkumar Saini,Fredrik Sandin,Marcus Liwicki |
発行日 | 2023-02-08 13:08:51+00:00 |
arxivサイト | arxiv_id(pdf) |