Fine-Tuned but Zero-Shot 3D Shape Sketch View Similarity and Retrieval

要約

最近では、ViT (ビジョン トランスフォーマー) や ResNet などのエンコーダーが膨大なデータセットでトレーニングされ、ゼロショット設定のマルチドメイン エンコーダーと同様に、スケッチや画像を比較するための知覚メトリクスとして利用されています。
ただし、これらのエンコーダの粒度を定量化する取り組みは限られています。
私たちの研究では、個々の 3D インスタンスのマルチモーダル 2D 投影に焦点を当てることで、このギャップに対処しています。
このタスクは、検索とスケッチベースのモデリングにとって重要な意味を持ちます。
ゼロショット設定では、スケッチが抽象的であればあるほど、不正確な画像が一致する可能性が高くなることがわかります。
同じスケッチ ドメイン内であっても、たとえば異なる個人によって異なるスタイルで描かれた同じオブジェクトのスケッチは、正確に一致しない可能性があります。
私たちの研究の重要な発見の 1 つは、3D 形状の 1 つのクラスを綿密に微調整すると、他の形状クラスのパフォーマンスが向上し、教師あり手法の精度に達するか、それを超える可能性があるということです。
いくつかの微調整戦略を比較し、説明します。
さらに、スケッチ内のオブジェクトのスケールがさまざまなネットワーク レイヤでのフィーチャの類似性にどのような影響を与えるかを深く掘り下げ、どのネットワーク レイヤが最も正確なマッチングを提供するかを特定するのに役立ちます。
重要なことに、ViT と ResNet は同様のオブジェクト スケールを扱う場合に最高のパフォーマンスを発揮することがわかりました。
私たちは、私たちの研究がスケッチ領域の研究に大きな影響を与え、大規模な事前学習済みモデルを知覚損失として採用する方法についての洞察と指針を提供すると信じています。

要約(オリジナル)

Recently, encoders like ViT (vision transformer) and ResNet have been trained on vast datasets and utilized as perceptual metrics for comparing sketches and images, as well as multi-domain encoders in a zero-shot setting. However, there has been limited effort to quantify the granularity of these encoders. Our work addresses this gap by focusing on multi-modal 2D projections of individual 3D instances. This task holds crucial implications for retrieval and sketch-based modeling. We show that in a zero-shot setting, the more abstract the sketch, the higher the likelihood of incorrect image matches. Even within the same sketch domain, sketches of the same object drawn in different styles, for example by distinct individuals, might not be accurately matched. One of the key findings of our research is that meticulous fine-tuning on one class of 3D shapes can lead to improved performance on other shape classes, reaching or surpassing the accuracy of supervised methods. We compare and discuss several fine-tuning strategies. Additionally, we delve deeply into how the scale of an object in a sketch influences the similarity of features at different network layers, helping us identify which network layers provide the most accurate matching. Significantly, we discover that ViT and ResNet perform best when dealing with similar object scales. We believe that our work will have a significant impact on research in the sketch domain, providing insights and guidance on how to adopt large pretrained models as perceptual losses.

arxiv情報

著者 Gianluca Berardi,Yulia Gryaditskaya
発行日 2023-07-27 10:07:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク