Multi-Modal Fusion by Meta-Initialization

要約

経験が不足している場合、モデルは新しいタスクに適応するのに十分な情報を持っていない可能性があります。
この場合、タスクのテキスト記述などの補助情報により、タスクの推論と適応を改善できます。
この作業では、モデルに依存しないメタ学習アルゴリズム (MAML) の拡張機能を提案します。これにより、補助情報とタスク経験を使用してモデルを適応させることができます。
私たちの方法である Fusion by Meta-Initialization (FuMI) は、単一のタスクに依存しない初期化を学習するのではなく、ハイパーネットワークを使用して補助情報でモデルの初期化を調整します。
さらに、既存のマルチモーダル フューズ ショット学習ベンチマークの欠点に動機付けられて、iNat-Anim を構築しました。iNat-Anim は、簡潔で視覚的に適切なテキスト クラスの説明を含む大規模な画像分類データセットです。
iNat-Anim では、FuMI は、少数ショット体制で MAML などの単一モーダル ベースラインよりも大幅に優れています。
このプロジェクトのコードと iNat-Anim のデータセット探索ツールは、https://github.com/s-a-malik/multi-few で公開されています。

要約(オリジナル)

When experience is scarce, models may have insufficient information to adapt to a new task. In this case, auxiliary information – such as a textual description of the task – can enable improved task inference and adaptation. In this work, we propose an extension to the Model-Agnostic Meta-Learning algorithm (MAML), which allows the model to adapt using auxiliary information as well as task experience. Our method, Fusion by Meta-Initialization (FuMI), conditions the model initialization on auxiliary information using a hypernetwork, rather than learning a single, task-agnostic initialization. Furthermore, motivated by the shortcomings of existing multi-modal few-shot learning benchmarks, we constructed iNat-Anim – a large-scale image classification dataset with succinct and visually pertinent textual class descriptions. On iNat-Anim, FuMI significantly outperforms uni-modal baselines such as MAML in the few-shot regime. The code for this project and a dataset exploration tool for iNat-Anim are publicly available at https://github.com/s-a-malik/multi-few .

arxiv情報

著者 Matthew T. Jackson,Shreshth A. Malik,Michael T. Matthews,Yousuf Mohamed-Ahmed
発行日 2022-10-10 17:00:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク