要約
自己教師あり学習の成功により、マルチモーダル基礎モデルは、視覚と言語 (VL) の事前トレーニングによって駆動される幅広い下流タスクに迅速に適応しました。
最先端の手法は、大規模なデータセットでの事前トレーニングによって優れたパフォーマンスを実現します。
ただし、2 つのモダリティ間の意味論的なギャップを埋めることは、依然として VL タスクにとって無視できない課題です。
この研究では、VL タスクのパフォーマンスをさらに向上させる新しい視覚的セマンティック モジュールを導入することにより、マルチモーダル アライメントのための効率的な計算フレームワークを提案します。
具体的には、視覚的な意味表現を豊かにするために、人工ニューラル ネットワーク (ANN) とスパイキング ニューラル ネットワーク (SNN) の相補的な利点を組み合わせた、人工スパイキング階層ネットワーク (ASH-Net) という柔軟なモデルを提案します。
特に、視覚的具象エンコーダと意味的抽象エンコーダは、連続的および離散的潜在変数を学習して意味的エンコーディングの柔軟性を高めるように構築されています。
SNN モデリングの時空間特性を考慮して、類似サンプルの入力を最適化する対照学習方法を導入します。
これにより、階層ネットワークの計算効率が向上する一方、ハード サンプルの増加は視覚的表現の学習に有益です。
さらに、テキスト特徴のみに依存して抽象セマンティクスのエンコード能力を強化する、Spiking to Text Uni-Alignment Learning (STUA) 事前トレーニング方法が提案されています。
確立された複数のダウンストリーム VL タスクのパフォーマンスを検証します。
実験により、提案された ASH-Net が競争力のある結果を達成することが示されています。
要約(オリジナル)
With the success of self-supervised learning, multimodal foundation models have rapidly adapted a wide range of downstream tasks driven by vision and language (VL) pretraining. State-of-the-art methods achieve impressive performance by pre-training on large-scale datasets. However, bridging the semantic gap between the two modalities remains a nonnegligible challenge for VL tasks. In this work, we propose an efficient computation framework for multimodal alignment by introducing a novel visual semantic module to further improve the performance of the VL tasks. Specifically, we propose a flexible model, namely Artificial-Spiking Hierarchical Networks (ASH-Nets), which combines the complementary advantages of Artificial neural networks (ANNs) and Spiking neural networks (SNNs) to enrich visual semantic representations. In particular, a visual concrete encoder and a semantic abstract encoder are constructed to learn continuous and discrete latent variables to enhance the flexibility of semantic encoding. Considering the spatio-temporal properties of SNNs modeling, we introduce a contrastive learning method to optimize the inputs of similar samples. This can improve the computational efficiency of the hierarchical network, while the augmentation of hard samples is beneficial to the learning of visual representations. Furthermore, the Spiking to Text Uni-Alignment Learning (STUA) pre-training method is proposed, which only relies on text features to enhance the encoding ability of abstract semantics. We validate the performance on multiple well-established downstream VL tasks. Experiments show that the proposed ASH-Nets achieve competitive results.
arxiv情報
著者 | Yeming Chen,Siyu Zhang,Yaoru Sun,Weijian Liang,Haoran Wang |
発行日 | 2023-08-18 10:40:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google