Event-based Vision for Early Prediction of Manipulation Actions

要約

ニューロモーフィック視覚センサーは、シーン内で明るさが変化したときに一連の非同期イベントを出力する人工網膜です。
これらのセンサーには、非常に高い時間解像度、モーション ブラーがないこと、リアルタイム処理に最適なスマート データ圧縮など、多くの利点があります。
この研究では、きめの細かい操作アクションに関するイベントベースのデータセットを導入し、イベントによるアクション予測のためのトランスフォーマーの使用に関する実験的研究を実行します。
人間の行動をできるだけ早く理解して予測することに関して、認知ロボット工学および人間とロボットのインタラクションの分野に大きな関心が寄せられています。
早期予測により、計画の複雑な段階を予測できるようになり、効果的でリアルタイムの対話が可能になります。
当社の Transformer ネットワークは、イベントを使用して、オンライン推論を使用して操作アクションが発生したときに予測します。
このモデルは、早い段階でアクションを予測することに成功し、時間の経過とともに信頼性を高め、最先端の分類を達成します。
さらに、注意ベースのトランスフォーマー アーキテクチャにより、モデルによって選択された時空間パターンの役割を研究することができます。
私たちの実験では、Transformer ネットワークがアクションの動的特徴をキャプチャし、ビデオベースのアプローチよりも優れたパフォーマンスを発揮し、アクション間の違いが非常に微妙な手がかりにあるシナリオで成功することがわかりました。
最後に、操作アクション認識に関する文献初となる新しいイベント データセットをリリースします。
コードは https://github.com/DaniDeniz/EventVisionTransformer で入手できます。

要約(オリジナル)

Neuromorphic visual sensors are artificial retinas that output sequences of asynchronous events when brightness changes occur in the scene. These sensors offer many advantages including very high temporal resolution, no motion blur and smart data compression ideal for real-time processing. In this study, we introduce an event-based dataset on fine-grained manipulation actions and perform an experimental study on the use of transformers for action prediction with events. There is enormous interest in the fields of cognitive robotics and human-robot interaction on understanding and predicting human actions as early as possible. Early prediction allows anticipating complex stages for planning, enabling effective and real-time interaction. Our Transformer network uses events to predict manipulation actions as they occur, using online inference. The model succeeds at predicting actions early on, building up confidence over time and achieving state-of-the-art classification. Moreover, the attention-based transformer architecture allows us to study the role of the spatio-temporal patterns selected by the model. Our experiments show that the Transformer network captures action dynamic features outperforming video-based approaches and succeeding with scenarios where the differences between actions lie in very subtle cues. Finally, we release the new event dataset, which is the first in the literature for manipulation action recognition. Code will be available at https://github.com/DaniDeniz/EventVisionTransformer.

arxiv情報

著者 Daniel Deniz,Cornelia Fermuller,Eduardo Ros,Manuel Rodriguez-Alvarez,Francisco Barranco
発行日 2023-07-26 17:50:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク