Co-designing a Sub-millisecond Latency Event-based Eye Tracking System with Submanifold Sparse CNN

要約

アイトラッキング技術は、特に仮想現実と拡張現実 (VR/AR) の領域において、数多くの家庭用電化製品アプリケーションに不可欠です。
これらのアプリケーションには、低遅延、低消費電力、精度という 3 つの重要な側面で優れたソリューションが求められます。
しかし、これらすべての面で最適なパフォーマンスを達成するには、高度なアルゴリズムと効率的なバックエンド ハードウェア実装との間のバランスが必要であり、困難な課題が存在します。
この研究では、イベント カメラを備えたシステムのソフトウェア/ハードウェアの相乗的な共同設計を通じて、この課題に取り組みます。
イベントベースの入力データの固有のスパース性を利用して、部分多様体スパース畳み込みニューラル ネットワーク (SCNN) 用にカスタマイズされた新しいスパース FPGA データフロー アクセラレータを統合します。
アクセラレータに実装された SCNN は、非ゼロのアクティベーションのみを処理することで、イベント スライスの各表現から埋め込み特徴ベクトルを効率的に抽出できます。
その後、これらのベクトルはゲート反復ユニット (GRU) とホスト CPU 上の完全接続層によってさらに処理され、目の中心が生成されます。
システムの導入と評価により、優れたパフォーマンス指標が明らかになります。
Event-based Eye-Tracking-AIS2024 データセットでは、当社のシステムは 81% の p5 精度、99.5% の p10 精度、0.7 ミリ秒の遅延で 3.71 の平均ユークリッド距離を達成しながら、推論あたりの消費電力はわずか 2.29 mJ です。
特に、当社のソリューションは将来の視線追跡システムの可能性を広げます。
コードは https://github.com/CASR-HKU/ESDA/tree/eye_tracking で入手できます。

要約(オリジナル)

Eye-tracking technology is integral to numerous consumer electronics applications, particularly in the realm of virtual and augmented reality (VR/AR). These applications demand solutions that excel in three crucial aspects: low-latency, low-power consumption, and precision. Yet, achieving optimal performance across all these fronts presents a formidable challenge, necessitating a balance between sophisticated algorithms and efficient backend hardware implementations. In this study, we tackle this challenge through a synergistic software/hardware co-design of the system with an event camera. Leveraging the inherent sparsity of event-based input data, we integrate a novel sparse FPGA dataflow accelerator customized for submanifold sparse convolution neural networks (SCNN). The SCNN implemented on the accelerator can efficiently extract the embedding feature vector from each representation of event slices by only processing the non-zero activations. Subsequently, these vectors undergo further processing by a gated recurrent unit (GRU) and a fully connected layer on the host CPU to generate the eye centers. Deployment and evaluation of our system reveal outstanding performance metrics. On the Event-based Eye-Tracking-AIS2024 dataset, our system achieves 81% p5 accuracy, 99.5% p10 accuracy, and 3.71 Mean Euclidean Distance with 0.7 ms latency while only consuming 2.29 mJ per inference. Notably, our solution opens up opportunities for future eye-tracking systems. Code is available at https://github.com/CASR-HKU/ESDA/tree/eye_tracking.

arxiv情報

著者 Baoheng Zhang,Yizhao Gao,Jingyuan Li,Hayden Kwok-Hay So
発行日 2024-04-22 15:28:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.CV パーマリンク