ALERT-Transformer: Bridging Asynchronous and Synchronous Machine Learning for Real-Time Event-based Spatio-Temporal Data

要約

我々は、イベントベースのセンサーによって生成された連続的な超スパース時空間データを、高密度の機械学習モデルで古典的に処理できるようにすることを目指している。我々は、いくつかのアイデアを組み合わせた、非同期センシングと同期処理からなる新しいハイブリッドパイプラインを提案する:(1)リーケージメカニズムにより、新しいイベントと古いイベントを継続的に統合できる、PointNetモデルに基づくエンベッディング(ALERTモジュール)、(2)どのようなサンプリングレートでも常に最新の特徴を下流のモデルに与えることができる、エンベッディングデータの柔軟な読み出し、(3)手法の効率を最適化するために、Vision Transformerにインスパイアされたパッチベースのアプローチで入力のスパース性を利用する。これらの埋め込みは、物体認識とジェスチャー認識のために訓練された変換モデルによって処理される。このアプローチを用いることで、競合他社よりも低いレイテンシで、最先端の性能を達成する。また、我々の非同期モデルが任意のサンプリングレートで動作可能であることも実証する。

要約(オリジナル)

We seek to enable classic processing of continuous ultra-sparse spatiotemporal data generated by event-based sensors with dense machine learning models. We propose a novel hybrid pipeline composed of asynchronous sensing and synchronous processing that combines several ideas: (1) an embedding based on PointNet models — the ALERT module — that can continuously integrate new and dismiss old events thanks to a leakage mechanism, (2) a flexible readout of the embedded data that allows to feed any downstream model with always up-to-date features at any sampling rate, (3) exploiting the input sparsity in a patch-based approach inspired by Vision Transformer to optimize the efficiency of the method. These embeddings are then processed by a transformer model trained for object and gesture recognition. Using this approach, we achieve performances at the state-of-the-art with a lower latency than competitors. We also demonstrate that our asynchronous model can operate at any desired sampling rate.

arxiv情報

著者 Carmen Martin-Turrero,Maxence Bouvier,Manuel Breitenstein,Pietro Zanuttigh,Vincent Parret
発行日 2024-02-02 13:17:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 68T05, cs.CV, cs.LG, cs.NE, I.2.10 パーマリンク