Event Camera Data Pre-training

要約

タイトル:Event Camera Data Pre-training(イベントカメラ・データ・プレトレーニング)

要約:
– イベントカメラ・データの処理に対応するための事前学習済みニューラルネットワークを提案する。
– 自己教師あり学習フレームワークを使用し、ペアで提供されるイベントカメラ・データと自然なRGB画像を用いて訓練する。
– 以下の3つのモジュールで構成される:
1) 意味のあるイベント画像を生成する一連のイベントデータ拡張ファミリー、自己教師訓練のため。
2) イベント画像から情報のあるイベントパッチをサンプリングする条件付きマスキング戦略、シーンの空間レイアウトを把握し、トレーニングを加速するため。
3) 一致するイベント画像とペアのRGB画像の埋め込み間の類似性と、それぞれのイメージの埋め込みの類似性を強制する対比学習手法。イベント画像の埋め込み類似性を強制する際のモデルの崩壊を避けるために、埋め込み射影損失が提案される。また、特徴空間でイベント画像もペアのRGB画像と一致するようにするために、確率分布整合損失が提案される。
– 後続タスクでの転移学習の性能は、当該手法が他の最新手法よりも優れていることを示している。たとえば、N-ImageNetデータセットでトップ-1の正解率が64.83%に達成された。

要約(オリジナル)

This paper proposes a pre-trained neural network for handling event camera data. Our model is a self-supervised learning framework, and uses paired event camera data and natural RGB images for training. Our method contains three modules connected in a sequence: i) a family of event data augmentations, generating meaningful event images for self-supervised training; ii) a conditional masking strategy to sample informative event patches from event images, encouraging our model to capture the spatial layout of a scene and accelerating training; iii) a contrastive learning approach, enforcing the similarity of embeddings between matching event images, and between paired event and RGB images. An embedding projection loss is proposed to avoid the model collapse when enforcing the event image embedding similarities. A probability distribution alignment loss is proposed to encourage the event image to be consistent with its paired RGB image in the feature space. Transfer learning performance on downstream tasks shows the superiority of our method over state-of-the-art methods. For example, we achieve top-1 accuracy at 64.83% on the N-ImageNet dataset.

arxiv情報

著者 Yan Yang,Liyuan Pan,Liu Liu
発行日 2023-04-05 13:27:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク