要約
本論文では、イベントカメラデータを扱うための事前学習済みニューラルネットワークを提案する。本モデルは自己教師付き学習フレームワークで学習され、ペアになったイベントカメラデータと自然なRGB画像を学習に用いる。 i) イベントデータ拡張のファミリー、自己教師付き学習のために意味のあるイベント画像を生成する、ii) イベント画像から情報量の多いイベントパッチを抽出する条件付きマスキング戦略、シーンの空間レイアウトを捉えることを促し、高速に学習する、iii) 対照学習アプローチ、マッチングイベント画像間、及びペアイベントRGB画像間の埋め込みの類似性を強制する、が含まれる。イベントの埋め込み類似性を強制する際に、モデルの崩壊を回避するために、埋め込み投影損失を提案する。また、イベントデータとペアとなるRGB画像の特徴空間における整合性を促すために、確率分布整合損失を提案する。 下流タスクにおける転送性能は、本手法が最先端手法に対して優れた性能を持つことを示している。例えば、N-ImageNetデータセットにおいて、64.83%というトップクラスの精度を達成した。
要約(オリジナル)
This paper proposes a pre-trained neural network for handling event camera data. Our model is trained in a self-supervised learning framework, and uses paired event camera data and natural RGB images for training. Our method contains three modules connected in a sequence: i) a family of event data augmentations, generating meaningful event images for self-supervised training; ii) a conditional masking strategy to sample informative event patches from event images, encouraging our model to capture the spatial layout of a scene and fast training; iii) a contrastive learning approach, enforcing the similarity of embeddings between matching event images, and between paired event-RGB images. An embedding projection loss is proposed to avoid the model collapse when enforcing event embedding similarities. A probability distribution alignment loss is proposed to encourage the event data to be consistent with its paired RGB image in feature space. Transfer performance in downstream tasks shows superior performance of our method over state-of-the-art methods. For example, we achieve top-1 accuracy at 64.83\% on the N-ImageNet dataset.
arxiv情報
著者 | Yan Yang,Liyuan Pan,Liu Liu |
発行日 | 2023-01-05 06:32:50+00:00 |
arxivサイト | arxiv_id(pdf) |