Modeling State Shifting via Local-Global Distillation for Event-Frame Gaze Tracking

要約

この論文では、イベント データとフレーム データの両方を使用して受動的視線推定の問題に取り組みます。
本質的に異なる生理学的構造を考慮すると、純粋に特定の状態に基づいて視線を正確に推定することは困難です。
したがって、現在の状態からいくつかの以前に登録されたアンカー状態に移行する状態の定量化として視線推定を再定式化します。
具体的には、視線推定プロセス全体を、アンカー状態の選択と最終的な視線位置を含む粗いアプローチから細かいアプローチに分割する、2 段階の学習ベースの視線推定フレームワークを提案します。
さらに、一般化能力を向上させるために、大規模な視線推定ネットワークを直接学習する代わりに、地元の専門家のグループと学生ネットワークを連携させます。そこでは、新しいノイズ除去蒸留アルゴリズムが導入され、ノイズ除去拡散技術を利用してイベント内に固有のノイズを繰り返し除去します。
データ。
広範な実験により、提案された方法の有効性が実証され、最先端の方法を 15$\%$ も大幅に上回りました。
コードは https://github.com/jdjdli/Denoise_distill_EF_gazetracker で公開されます。

要約(オリジナル)

This paper tackles the problem of passive gaze estimation using both event and frame data. Considering the inherently different physiological structures, it is intractable to accurately estimate gaze purely based on a given state. Thus, we reformulate gaze estimation as the quantification of the state shifting from the current state to several prior registered anchor states. Specifically, we propose a two-stage learning-based gaze estimation framework that divides the whole gaze estimation process into a coarse-to-fine approach involving anchor state selection and final gaze location. Moreover, to improve the generalization ability, instead of learning a large gaze estimation network directly, we align a group of local experts with a student network, where a novel denoising distillation algorithm is introduced to utilize denoising diffusion techniques to iteratively remove inherent noise in event data. Extensive experiments demonstrate the effectiveness of the proposed method, which surpasses state-of-the-art methods by a large margin of 15$\%$. The code will be publicly available at https://github.com/jdjdli/Denoise_distill_EF_gazetracker.

arxiv情報

著者 Jiading Li,Zhiyu Zhu,Jinhui Hou,Junhui Hou,Jinjian Wu
発行日 2024-06-28 14:13:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク