要約
画像と画像データセットの間の距離を評価することは、視覚ベースの研究における基本的なタスクです。
これは文献における未解決の挑戦的な問題であり、批判を受けているにもかかわらず、最も普及している方法は依然としてフレシェ インセプション ディスタンスです。
Inception ネットワークは、最新の研究で批判の核心を引き起こした特定のラベル付きデータセット ImageNet でトレーニングされます。
トレーニング データの領域を未解決のままにして、ImageNet を介した自己監視学習に移行することで改善が見られました。
私たちは最後の飛躍を遂げ、広く研究されている顔画像ドメインにおける、ドメイン固有の特徴トレーニングと特徴距離に対するその効果に関する最初の分析を提供します。
私たちは、広範な実験と詳細なユーザー調査に裏付けられた、フレシェ距離と画像近傍のこの領域の専門化に関する調査結果と洞察を提供します。
要約(オリジナル)
Assessing distances between images and image datasets is a fundamental task in vision-based research. It is a challenging open problem in the literature and despite the criticism it receives, the most ubiquitous method remains the Fr\’echet Inception Distance. The Inception network is trained on a specific labeled dataset, ImageNet, which has caused the core of its criticism in the most recent research. Improvements were shown by moving to self-supervision learning over ImageNet, leaving the training data domain as an open question. We make that last leap and provide the first analysis on domain-specific feature training and its effects on feature distance, on the widely-researched facial image domain. We provide our findings and insights on this domain specialization for Fr\’echet distance and image neighborhoods, supported by extensive experiments and in-depth user studies.
arxiv情報
著者 | Doruk Cetin,Benedikt Schesch,Petar Stamenkovic,Niko Benjamin Huber,Fabio Zünd,Majed El Helou |
発行日 | 2024-06-26 15:27:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google