要約
この論文では、人間とコンピューターの対話からドライバー監視システムに至るまでのアプリケーションで極めて重要なタスクである視線ベクトル予測の複雑な課題に取り組みます。
当社の革新的なアプローチは、新しい一時イベント エンコーディング スキームと専用のニューラル ネットワーク アーキテクチャを活用し、極度の低照度条件の要求の厳しい設定向けに設計されています。
時間エンコード方式は、ダイナミック ビジョン センサー (DVS) イベントをグレースケール ガイド フレームとシームレスに統合し、ニューラル ネットワークへの入力用に連続的にエンコードされた画像を生成します。
このユニークなソリューションは、活動的な年齢層の参加者からの多様な視線反応を捕捉するだけでなく、低照度条件に合わせて調整された厳選されたデータセットも導入します。
私たちのネットワークと組み合わせたエンコードされた時間フレームは、予測における印象的な空間的位置特定と信頼性の高い視線方向を示します。
100% という驚異的な 100 ピクセル精度を達成した当社の研究は、時間的に連続するエンコードされた画像を処理して、困難な低照度ビデオで正確な視線ベクトルを予測するニューラル ネットワークの能力を強調し、視線予測技術の進歩に貢献します。
要約(オリジナル)
In this paper, we address the intricate challenge of gaze vector prediction, a pivotal task with applications ranging from human-computer interaction to driver monitoring systems. Our innovative approach is designed for the demanding setting of extremely low-light conditions, leveraging a novel temporal event encoding scheme, and a dedicated neural network architecture. The temporal encoding method seamlessly integrates Dynamic Vision Sensor (DVS) events with grayscale guide frames, generating consecutively encoded images for input into our neural network. This unique solution not only captures diverse gaze responses from participants within the active age group but also introduces a curated dataset tailored for low-light conditions. The encoded temporal frames paired with our network showcase impressive spatial localization and reliable gaze direction in their predictions. Achieving a remarkable 100-pixel accuracy of 100%, our research underscores the potency of our neural network to work with temporally consecutive encoded images for precise gaze vector predictions in challenging low-light videos, contributing to the advancement of gaze prediction technologies.
arxiv情報
著者 | Abeer Banerjee,Naval K. Mehta,Shyam S. Prasad,Himanshu,Sumeet Saurav,Sanjay Singh |
発行日 | 2024-03-05 12:18:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google