要約
意味的に関連したデータにさらされると、異なるニューラル モデルが類似した潜在空間を示すことがよくありますが、この本質的な類似性は常にすぐに認識できるわけではありません。
この現象をより深く理解するために、私たちの研究は、これらのニューラルモジュールから学習した表現が、これまで考えられていたよりも簡単な変換によって、異なる事前訓練されたネットワーク間でどのように変換できるかを示しています。
このアプローチの利点は、閉形式の解を持つ標準的でよく理解されている代数手順を使用して、これらの変換を推定できることです。
私たちの方法は、与えられた 2 つの潜在空間間の変換を直接推定するため、追加のトレーニングなしでエンコーダーとデコーダーの効果的なステッチングが可能になります。
私たちは、さまざまな実験設定、つまりさまざまなトレーニング、ドメイン、アーキテクチャ (ResNet、CNN、ViT など)、および複数の下流タスク (分類、再構築) におけるこの翻訳手順の適応性を広範囲に検証しています。
特に、テキスト エンコーダとビジョン デコーダをゼロショット ステッチする方法、またはその逆がどのように可能であるかを示し、このマルチモーダル設定で驚くほど優れた分類パフォーマンスを実現します。
要約(オリジナル)
While different neural models often exhibit latent spaces that are alike when exposed to semantically related data, this intrinsic similarity is not always immediately discernible. Towards a better understanding of this phenomenon, our work shows how representations learned from these neural modules can be translated between different pre-trained networks via simpler transformations than previously thought. An advantage of this approach is the ability to estimate these transformations using standard, well-understood algebraic procedures that have closed-form solutions. Our method directly estimates a transformation between two given latent spaces, thereby enabling effective stitching of encoders and decoders without additional training. We extensively validate the adaptability of this translation procedure in different experimental settings: across various trainings, domains, architectures (e.g., ResNet, CNN, ViT), and in multiple downstream tasks (classification, reconstruction). Notably, we show how it is possible to zero-shot stitch text encoders and vision decoders, or vice-versa, yielding surprisingly good classification performance in this multimodal setting.
arxiv情報
著者 | Valentino Maiorca,Luca Moschella,Antonio Norelli,Marco Fumero,Francesco Locatello,Emanuele Rodolà |
発行日 | 2023-11-01 17:12:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google