要約
さまざまな視覚タスク用に訓練されたさまざまなニューラル ネットワークは、いくつかの共通の表現を共有していますか?
この論文では、異なるアーキテクチャ、異なるタスク (生成的および識別的)、および異なるタイプの監視 (クラス教師あり、テキスト教師あり、自己
監修済み)。
いくつかの一般的なビジョン モデル (クラス Supervised-ResNet50、DINO-ResNet50、DINO-ViT、MAE、CLIP-ResNet50、BigGAN、StyleGAN-2、StyleGAN-XL) にわたってロゼッタ ニューロンの辞書をマイニングするためのアルゴリズムを紹介します。
私たちの調査結果は、特定の視覚的な概念と構造は自然界に本質的に埋め込まれており、特定のタスクやアーキテクチャに関係なく、意味ラベルを使用せずにさまざまなモデルによって学習できることを示唆しています。
分析に含まれる生成モデルにより、共有された概念を直接視覚化できます。
ロゼッタ ニューロンは、特別なトレーニングを必要とせずに、クラス間の位置合わせ、シフト、ズームなどを含むさまざまな反転ベースの操作を可能にするモデル間の変換を促進します。
要約(オリジナル)
Do different neural networks, trained for various vision tasks, share some common representations? In this paper, we demonstrate the existence of common features we call ‘Rosetta Neurons’ across a range of models with different architectures, different tasks (generative and discriminative), and different types of supervision (class-supervised, text-supervised, self-supervised). We present an algorithm for mining a dictionary of Rosetta Neurons across several popular vision models: Class Supervised-ResNet50, DINO-ResNet50, DINO-ViT, MAE, CLIP-ResNet50, BigGAN, StyleGAN-2, StyleGAN-XL. Our findings suggest that certain visual concepts and structures are inherently embedded in the natural world and can be learned by different models regardless of the specific task or architecture, and without the use of semantic labels. We can visualize shared concepts directly due to generative models included in our analysis. The Rosetta Neurons facilitate model-to-model translation enabling various inversion-based manipulations, including cross-class alignments, shifting, zooming, and more, without the need for specialized training.
arxiv情報
著者 | Amil Dravid,Yossi Gandelsman,Alexei Efros,Assaf Shocher |
発行日 | 2023-06-15 17:59:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google