要約
この論文は、イベントカメラデータを使用したゼロショット物体認識を研究します。
RGB 画像で事前トレーニングされた CLIP によって導かれる既存のアプローチは、イベント エンコーダーによってエンコードされたイベント データと CLIP 画像エンコーダーによってエンコードされた RGB 画像の間の埋め込み類似性を最大化することにより、ゼロショット オブジェクト認識を実現します。
あるいは、CLIP 画像エンコーダのイベント データから RGB フレーム再構成を学習する方法もいくつかあります。
ただし、これらのアプローチでは、ゼロショットのパフォーマンスが最適化されていないことがよくあります。
この研究では、追加の再構築ネットワークに依存せずにイベント エンコーダーを開発します。
我々は、以前のアプローチのパフォーマンスのボトルネックを理論的に分析します。グローバル類似度ベースの目標(つまり、埋め込み類似度の最大化)は、自由度により、学習されたイベント埋め込み空間とCLIPテキスト埋め込み空間の間で意味論的な不整合を引き起こします。
この問題を軽減するために、スカラー的な正則化戦略を検討します。
さらに、トレーニング用のイベントと RGB データ ペアの数をスケールアップするために、静的な RGB 画像からイベント データを合成するためのパイプラインも提案します。
実験的に、私たちのデータ合成戦略は魅力的なスケーリング特性を示し、私たちの方法は、過去の教師あり学習アプローチと比較しても、広範な標準ベンチマークデータセット上で優れたゼロショット物体認識パフォーマンスを達成します。
たとえば、N-ImageNet データセットでは 47.84% のゼロショット精度を達成しています。
要約(オリジナル)
This paper studies zero-shot object recognition using event camera data. Guided by CLIP, which is pre-trained on RGB images, existing approaches achieve zero-shot object recognition by maximizing embedding similarities between event data encoded by an event encoder and RGB images encoded by the CLIP image encoder. Alternatively, several methods learn RGB frame reconstructions from event data for the CLIP image encoder. However, these approaches often result in suboptimal zero-shot performance. This study develops an event encoder without relying on additional reconstruction networks. We theoretically analyze the performance bottlenecks of previous approaches: global similarity-based objective (i.e., maximizing the embedding similarities) cause semantic misalignments between the learned event embedding space and the CLIP text embedding space due to the degree of freedom. To mitigate the issue, we explore a scalar-wise regularization strategy. Furthermore, to scale up the number of events and RGB data pairs for training, we also propose a pipeline for synthesizing event data from static RGB images. Experimentally, our data synthesis strategy exhibits an attractive scaling property, and our method achieves superior zero-shot object recognition performance on extensive standard benchmark datasets, even compared with past supervised learning approaches. For example, we achieve 47.84% zero-shot accuracy on the N-ImageNet dataset.
arxiv情報
著者 | Yan Yang,Liyuan Pan,Dongxu Li,Liu Liu |
発行日 | 2024-07-31 14:06:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google