Distillation of Diffusion Features for Semantic Correspondence

要約

画像の異なる部分間の関係を決定するタスクである意味的対応は、3D再構成、画像間変換、物体追跡、視覚的場所認識など、様々なアプリケーションを支えている。最近の研究では、大規模な生成画像モデルで学習された意味対応表現の探索が開始され、有望な結果が示されている。この進歩に基づき、現在の最先端の手法は、複数の大きなモデルを組み合わせることに依存しており、その結果、高い計算要求と効率の低下を招いている。本研究では、より計算効率の高いアプローチを提案することで、この課題に取り組む。効率低下の問題を克服するために、新しい知識蒸留技術を提案する。2つの大きなビジョン基礎モデルを使用し、これらの相補的なモデルの能力を、計算コストを削減しながら高精度を維持する1つの小さなモデルに蒸留する方法を示す。さらに、3Dデータを組み込むことで、人間が注釈を付けた対応関係を必要とせずに、性能をさらに向上させることができることを実証する。全体として、我々の経験的結果は、3Dデータ補強を伴う我々の蒸留モデルが、計算負荷を大幅に削減し、意味的ビデオ対応付けのような実世界のアプリケーションの実用性を高めながら、現在の最先端の手法よりも優れた性能を達成することを実証している。我々のコードと重みはプロジェクトページで公開されている。

要約(オリジナル)

Semantic correspondence, the task of determining relationships between different parts of images, underpins various applications including 3D reconstruction, image-to-image translation, object tracking, and visual place recognition. Recent studies have begun to explore representations learned in large generative image models for semantic correspondence, demonstrating promising results. Building on this progress, current state-of-the-art methods rely on combining multiple large models, resulting in high computational demands and reduced efficiency. In this work, we address this challenge by proposing a more computationally efficient approach. We propose a novel knowledge distillation technique to overcome the problem of reduced efficiency. We show how to use two large vision foundation models and distill the capabilities of these complementary models into one smaller model that maintains high accuracy at reduced computational cost. Furthermore, we demonstrate that by incorporating 3D data, we are able to further improve performance, without the need for human-annotated correspondences. Overall, our empirical results demonstrate that our distilled model with 3D data augmentation achieves performance superior to current state-of-the-art methods while significantly reducing computational load and enhancing practicality for real-world applications, such as semantic video correspondence. Our code and weights are publicly available on our project page.

arxiv情報

著者 Frank Fundel,Johannes Schusterbauer,Vincent Tao Hu,Björn Ommer
発行日 2024-12-04 17:55:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク