Deep Perceptual Similarity is Adaptable to Ambiguous Contexts

要約

画像の類似性という概念は曖昧であり、ある文脈では類似していても、別の文脈では類似していないということがある。この曖昧さが、特定の文脈に対応したメトリクスの作成を動機付ける。この研究では、深層知覚類似度(DPS)メトリクスが与えられたコンテキストに適応する能力を探求しています。DPSメトリクスは、画像を比較するためにニューラルネットワークの深い特徴を使用する。これらのメトリクスは、限られた設定の中で、人間の平均的な知覚を活用するデータセットで成功を収めてきた。しかし、特定の類似性のコンテキストに適応できるかどうかという疑問が残る。単一のメトリクスがすべての類似性コンテキストに適合することはなく、これまでのルールベースのメトリクスは、新しいコンテキストに書き換えるのに手間がかかる。一方、DPSのメトリクスはニューラルネットワークを使用しており、コンテキストごとに再トレーニングすることが可能です。しかし、ネットワークの再トレーニングにはリソースがかかり、以前のタスクのパフォーマンスを低下させる可能性がある。本研究では、与えられた文脈に応じて類似度を測定するためにImageNetの事前学習済みCNNを訓練することで、DPSメトリクスの適応性を検証する。コンテキストは、6つの画像の歪みをランダムにランク付けすることで作成される。ランキングの後半に位置する歪みは、そのコンテキストの画像に適用された場合、より類似性を乱すとみなされる。これは、事前学習された特徴が異なる類似性のコンテキストを捉えているかどうかの洞察にもなる。適応されたメトリクスは、知覚的類似性データセットで評価され、ランキングに適応することが以前のパフォーマンスに影響を与えるかどうかを評価する。その結果、DPSのメトリクスは高い性能で適応できることがわかった。適応されたメトリクスはベースラインと同じコンテキストで困難を伴うが、99%のケースで性能が改善される。最後に、知覚的類似性に関する事前の性能に対して、適応が大きく損なわれることはないことが示される。この研究の実装はオンラインで利用可能である: https://github.com/LTU-Machine-Learning/Analysis-of-Deep-Perceptual-Loss-Networks

要約(オリジナル)

The concept of image similarity is ambiguous, and images can be similar in one context and not in another. This ambiguity motivates the creation of metrics for specific contexts. This work explores the ability of deep perceptual similarity (DPS) metrics to adapt to a given context. DPS metrics use the deep features of neural networks for comparing images. These metrics have been successful on datasets that leverage the average human perception in limited settings. But the question remains if they could be adapted to specific similarity contexts. No single metric can suit all similarity contexts, and previous rule-based metrics are labor-intensive to rewrite for new contexts. On the other hand, DPS metrics use neural networks that might be retrained for each context. However, retraining networks takes resources and might ruin performance on previous tasks. This work examines the adaptability of DPS metrics by training ImageNet pretrained CNNs to measure similarity according to given contexts. Contexts are created by randomly ranking six image distortions. Distortions later in the ranking are considered more disruptive to similarity when applied to an image for that context. This also gives insight into whether the pretrained features capture different similarity contexts. The adapted metrics are evaluated on a perceptual similarity dataset to evaluate if adapting to a ranking affects their prior performance. The findings show that DPS metrics can be adapted with high performance. While the adapted metrics have difficulties with the same contexts as baselines, performance is improved in 99% of cases. Finally, it is shown that the adaption is not significantly detrimental to prior performance on perceptual similarity. The implementation of this work is available online: https://github.com/LTU-Machine-Learning/Analysis-of-Deep-Perceptual-Loss-Networks

arxiv情報

著者 Gustav Grund Pihlgren,Fredrik Sandin,Marcus Liwicki
発行日 2023-05-12 14:04:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク