要約
タイトル:曖昧な文脈に適応可能な深い知覚類似度
要約:
– 画像類似性の概念は曖昧であるため、ある文脈では類似とされた画像が、別の文脈では類似ではなくなることがある。
– この曖昧さから、特定の文脈のための指標の作成が必要とされる。
– この研究では、ディープパーセプチュアルシミラリティ(DPS)指標が与えられた文脈に適応可能かどうかを探る。
– 最近、DPS指標が神経ネットワークのディープフィーチャーを使用して画像を比較することによって登場している。
– これらの指標は、限られた設定で平均的な人間の知覚を活用したデータセットにおいて成功している。
– しかし、類似性の全ての定義に1つの指標を当てはめることは不可能であり、以前の指標はルールベースであり、新しい文脈に合わせるのに手間がかかる。
– 一方、DPS指標はニューラルネットワークを使用しており、文脈ごとに再学習が可能となっている。
– この研究では、DPS指標の適応性を深いフィーチャーの正のスカラーのトレーニングによって調べ、別の文脈で正確な類似性を測定できるようにする。
– ランダムに6つの画像歪み(回転など)の順序を定義し、どのように画像がより類似していると見なされるかを評価する。
– 最終的に、トレーニングされた指標が、新しい文脈に適用された場合、既存のシナリオに対して性能がどのように影響するかを評価する。
– 結果から、DPS指標は高い性能で適応できることが分かった。適応された指標はベースラインと同じ文脈で苦戦するが、99%のケースで性能が向上した。最後に、適応が知覚的類似性に影響を与えることはないことが示された。
要約(オリジナル)
The concept of image similarity is ambiguous, meaning that images that are considered similar in one context might not be in another. This ambiguity motivates the creation of metrics for specific contexts. This work explores the ability of the successful deep perceptual similarity (DPS) metrics to adapt to a given context. Recently, DPS metrics have emerged using the deep features of neural networks for comparing images. These metrics have been successful on datasets that leverage the average human perception in limited settings. But the question remains if they could be adapted to specific contexts of similarity. No single metric can suit all definitions of similarity and previous metrics have been rule-based which are labor intensive to rewrite for new contexts. DPS metrics, on the other hand, use neural networks which might be retrained for each context. However, retraining networks takes resources and might ruin performance on previous tasks. This work examines the adaptability of DPS metrics by training positive scalars for the deep features of pretrained CNNs to correctly measure similarity for different contexts. Evaluation is performed on contexts defined by randomly ordering six image distortions (e.g. rotation) by which should be considered more similar when applied to an image. This also gives insight into whether the features in the CNN is enough to discern different distortions without retraining. Finally, the trained metrics are evaluated on a perceptual similarity dataset to evaluate if adapting to an ordering affects their performance on established scenarios. The findings show that DPS metrics can be adapted with high performance. While the adapted metrics have difficulties with the same contexts as baselines, performance is improved in 99% of cases. Finally, it is shown that the adaption is not significantly detrimental to prior performance on perceptual similarity.
arxiv情報
著者 | Gustav Grund Pihlgren,Fredrik Sandin,Marcus Liwicki |
発行日 | 2023-04-05 07:31:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI