SpikeCLIP: A Contrastive Language-Image Pretrained Spiking Neural Network

要約

スパイキング ニューラル ネットワーク (SNN) は、従来の人工ニューラル ネットワーク (ANN) に代わる有望な代替手段として登場し、視覚タスクと言語タスクの両方で同等のパフォーマンスを実証しながら、エネルギー効率の向上という利点をもたらします。
これらの進歩にも関わらず、言語的および視覚的特徴をスパイク トレインを介して統一された表現に統合することは重大な課題を引き起こしており、マルチモーダル シナリオへの SNN の適用はほとんど解明されていないままです。
この論文では、スパイクベースの計算におけるモダリティのギャップを埋めるために設計された新しいフレームワークである SpikeCLIP について説明します。
私たちのアプローチでは、モダリティ全体で特徴を調整する「調整事前トレーニング」と、それに続くモデルのパフォーマンスを改善する「二重損失微調整」の 2 段階のレシピを採用しています。
広範な実験により、SNN はマルチモーダル モデルの評価に一般的に使用されるさまざまなデータセット全体でエネルギー消費を大幅に削減しながら、ANN と同等の結果を達成できることが明らかになりました。
さらに、SpikeCLIP は、事前定義されたカテゴリの外にあるクラスを扱う場合でも、堅牢な画像分類機能を維持します。
この研究は、エネルギー効率が高く生物学的に妥当なマルチモーダル学習システムの開発における大きな進歩を示しています。

要約(オリジナル)

Spiking Neural Networks (SNNs) have emerged as a promising alternative to conventional Artificial Neural Networks (ANNs), demonstrating comparable performance in both visual and linguistic tasks while offering the advantage of improved energy efficiency. Despite these advancements, the integration of linguistic and visual features into a unified representation through spike trains poses a significant challenge, and the application of SNNs to multimodal scenarios remains largely unexplored. This paper presents SpikeCLIP, a novel framework designed to bridge the modality gap in spike-based computation. Our approach employs a two-step recipe: an “alignment pre-training” to align features across modalities, followed by a “dual-loss fine-tuning” to refine the model’s performance. Extensive experiments reveal that SNNs achieve results on par with ANNs while substantially reducing energy consumption across various datasets commonly used for multimodal model evaluation. Furthermore, SpikeCLIP maintains robust image classification capabilities, even when dealing with classes that fall outside predefined categories. This study marks a significant advancement in the development of energy-efficient and biologically plausible multimodal learning systems.

arxiv情報

著者 Tianlong Li,Wenhao Liu,Changze Lv,Yufei Gu,Jianhan Xu,Cenyuan Zhang,Muling Wu,Xiaoqing Zheng,Xuanjing Huang
発行日 2024-09-10 06:36:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG, cs.NE パーマリンク