要約
イベントを高密度のフレームベース表現に変換し、十分に事前学習されたCNNを手元で利用することは一般的な解決策です。しかし、この方法では、イベントのスパース性/時間的精度が犠牲になり、通常、重いモデルが必要になるため、イベントカメラの利点と実際の応用可能性が大きく損なわれてしまいます。より応用的な方法としては、イベントからスパースなポイントベースの表現を学習するためのディープグラフモデルを設計することです。しかし、これらのグラフモデルの有効性は、2つの主要な制限により、フレームベースの対応物に遠く及ばない:($i$) 各頂点の可変属性(すなわち、セマンティクス、空間および時間座標)を慎重に統合しない単純なグラフ構築戦略、偏ったグラフ表現につながる、 ($ii$) よく利用できる事前学習モデルの不足により不完全な学習、など。本論文では、イベントベースグラフCNN(EDGCN)を導入し、頂点の全属性を適応的に統合する動的集約モジュールを用いて、第一の問題を解決する。この問題を解決するために、我々はイベントの密な表現に対応するものを相互表現の補助として利用し、イベントグラフに追加の監視と事前知識を提供することを提案する。この目的のために、我々はフレームからグラフへの転移学習フレームワークを、層間の様々な交差表現のギャップをうまく尊重するようにカスタマイズしたハイブリッド蒸留損失で形成する。複数の視覚タスクに関する広範な実験により、提案するモデルと蒸留法の有効性と高い汎化能力が検証された(コードのコアコンポーネントは補足資料として提出され、受理され次第公開される予定)。
要約(オリジナル)
It is a popular solution to convert events into dense frame-based representations to use the well-pretrained CNNs in hand. Although with appealing performance, this line of work sacrifices the sparsity/temporal precision of events and usually necessitates heavy-weight models, thereby largely weakening the advantages and real-life application potential of event cameras. A more application-friendly way is to design deep graph models for learning sparse point-based representations from events. Yet, the efficacy of these graph models is far behind the frame-based counterpart with two key limitations: ($i$) simple graph construction strategies without carefully integrating the variant attributes (i.e., semantics, spatial and temporal coordinates) for each vertex, leading to biased graph representation; ($ii$) deficient learning because the lack of well pretraining models available. Here we solve the first problem by introducing a new event-based graph CNN (EDGCN), with a dynamic aggregation module to integrate all attributes of vertices adaptively. To alleviate the learning difficulty, we propose to leverage the dense representation counterpart of events as a cross-representation auxiliary to supply additional supervision and prior knowledge for the event graph. To this end, we form a frame-to-graph transfer learning framework with a customized hybrid distillation loss to well respect the varying cross-representation gaps across layers. Extensive experiments on multiple vision tasks validate the effectiveness and high generalization ability of our proposed model and distillation strategy (Core components of our codes are submitted with supplementary material and will be made publicly available upon acceptance)
arxiv情報
著者 | Yongjian Deng,Hao Chen,Bochen Xie,Hai Liu,Youfu Li |
発行日 | 2023-02-08 16:35:39+00:00 |
arxivサイト | arxiv_id(pdf) |