On the Limits of Multi-modal Meta-Learning with Auxiliary Task Modulation Using Conditional Batch Normalization

要約

フューショット学習は、少数の例を与えられた新しいタスクに取り組むことができる表現を学習することを目的としています。
最近の研究では、クロスモーダル学習により少数ショット分類の表現を改善できることが示されています。
より具体的に言うと、言語は視覚的な学習を導くために使用できる豊富なモダリティです。
この研究では、分類器、補助ネットワーク、ブリッジ ネットワークの 3 つのコンポーネントで構成される少数ショット学習用のマルチモーダル アーキテクチャを実験します。
分類器が主な分類タスクを実行している間、補助ネットワークは同じ入力から言語表現を予測することを学習し、ブリッジ ネットワークは条件付きバッチ正規化を使用して補助ネットワークの高レベルの特徴を少数ショット分類器の層の変調パラメータに変換します。

このブリッジは、分類子にとって役立つ可能性のある、言語と視覚の間の軽量の意味論的な調整を促進する必要があります。
ただし、提案されたアプローチを 2 つの一般的な少数ショット分類ベンチマークで評価した結果、a) 改善は複数のベンチマーク間で再現されず、b) 改善が再現された場合でも、ブリッジ ネットワークによって導入された追加のコンピューティングとパラメーターによるものであることがわかりました。

私たちは、特に言語表現を使用する場合のマルチモーダルメタ学習における将来の研究のための洞察と推奨事項を提供します。

要約(オリジナル)

Few-shot learning aims to learn representations that can tackle novel tasks given a small number of examples. Recent studies show that cross-modal learning can improve representations for few-shot classification. More specifically, language is a rich modality that can be used to guide visual learning. In this work, we experiment with a multi-modal architecture for few-shot learning that consists of three components: a classifier, an auxiliary network, and a bridge network. While the classifier performs the main classification task, the auxiliary network learns to predict language representations from the same input, and the bridge network transforms high-level features of the auxiliary network into modulation parameters for layers of the few-shot classifier using conditional batch normalization. The bridge should encourage a form of lightweight semantic alignment between language and vision which could be useful for the classifier. However, after evaluating the proposed approach on two popular few-shot classification benchmarks we find that a) the improvements do not reproduce across benchmarks, and b) when they do, the improvements are due to the additional compute and parameters introduced by the bridge network. We contribute insights and recommendations for future work in multi-modal meta-learning, especially when using language representations.

arxiv情報

著者 Jordi Armengol-Estapé,Vincent Michalski,Ramnath Kumar,Pierre-Luc St-Charles,Doina Precup,Samira Ebrahimi Kahou
発行日 2024-05-30 14:13:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク