EventBind: Learning a Unified Representation to Bind Them All for Event-based Open-world Understanding

要約

この論文では、大規模なイベントベースのデータセットの欠如を補うために、イベントベースの認識のためのビジョン言語モデル (VLM) の可能性を解き放つ、新規で効果的なフレームワークである EventBind を提案します。
特に、画像とテキストのデータとの明確なモダリティのギャップと大規模なデータセットの欠如により、画像、テキスト、イベントの共通表現空間を学習することは簡単ではありません。直感的には、2 つの重要な課題に対処する必要があります。
: 1) イベントの固有のプロパティ (スパース性や高い時間解像度など) を十分に活用しながら、CLIP のビジュアル エンコーダをイベント データに一般化する方法。
2) マルチモーダルな埋め込み (画像、テキスト、イベントなど) を効果的に配置する方法。
したがって、最初に、イベントからの時間情報を微妙にモデル化し、同時にモダリティブリッジングのためのイベントプロンプトを生成する新しいイベントエンコーダーを導入します。
次に、コンテンツ プロンプトを生成し、ハイブリッド テキスト プロンプトを利用して、多様なデータセットにわたる EventBind の一般化機能を強化するテキスト エンコーダーを設計します。提案されたイベント エンコーダー、テキスト エンコーダー、および画像エンコーダーを使用して、新しい階層トリプル コントラスト アライメント (HTCA) モジュールが導入されます。
相関関係を共同で最適化し、3 つのモダリティ間の効率的な知識伝達を可能にします。
3 つのベンチマークで微調整や少数ショットを含むさまざまな設定を評価し、EventBind は、N-Caltech101 (+5.34% および +1.70%) などの以前の方法と比較して、新たな最先端の精度を達成しました。
) と N-Imagenet (+5.65% と +1.99%)、それぞれ微調整と 20 ショット設定。
さらに、EventBind はテキストまたは画像クエリを使用したイベント取得タスクに柔軟に拡張でき、妥当なパフォーマンスを示します。
プロジェクトページ:https://vlislab22.github.io/EventBind/。

要約(オリジナル)

In this paper, we propose EventBind, a novel and effective framework that unleashes the potential of vision-language models (VLMs) for event-based recognition to compensate for the lack of large-scale event-based datasets. In particular, due to the distinct modality gap with the image-text data and the lack of large-scale datasets, learning a common representation space for images, texts, and events is non-trivial.Intuitively, we need to address two key challenges: 1) how to generalize CLIP’s visual encoder to event data while fully leveraging events’ unique properties, e.g., sparsity and high temporal resolution; 2) how to effectively align the multi-modal embeddings, i.e., image, text, and events. Accordingly, we first introduce a novel event encoder that subtly models the temporal information from events and meanwhile, generates event prompts for modality bridging. We then design a text encoder that generates content prompts and utilizes hybrid text prompts to enhance EventBind’s generalization ability across diverse datasets.With the proposed event encoder, text encoder, and image encoder, a novel Hierarchical Triple Contrastive Alignment (HTCA) module is introduced to jointly optimize the correlation and enable efficient knowledge transfer among the three modalities. We evaluate various settings, including fine-tuning and few-shot on three benchmarks, and our EventBind achieves new state-of-the-art accuracy compared with the previous methods, such as on N-Caltech101 (+5.34% and +1.70%) and N-Imagenet (+5.65% and +1.99%) with fine-tuning and 20-shot settings, respectively. Moreover, our EventBind can be flexibly extended to the event retrieval task using text or image queries, showing plausible performance. Project page:https://vlislab22.github.io/EventBind/.

arxiv情報

著者 Jiazhou Zhou,Xu Zheng,Yuanhuiyi Lyu,Lin Wang
発行日 2024-07-24 13:50:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク