要約
Hoigazeを提示します – 拡張現実(XR)におけるハンドオブジェクト相互作用(HOI)中の視線推定のための新しい学習ベースのアプローチ。
Hoigazeは、1つの重要な洞察に基づいて構築することにより、挑戦的なHOIの設定に対処します。目、手、および頭の動きはHOIS中に密接に調整されます。この調整は、視線推定器トレーニングに最も役立つサンプルを識別するために悪用されます。そのため、トレーニングデータを効果的に除去します。
この除去アプローチは、すべてのトレーニングサンプルを等しく扱った以前の視線推定方法とはまったく対照的です。
具体的には、次の提案を提案します。1)現在視覚的に視覚的に出席している手に最初に認識し、次に参加した手に基づいて視線の方向を推定する新しい階層的なフレームワーク。
2)クロスモーダル変圧器を使用して、畳み込みニューラルネットワークと空間的グラフ畳み込みネットワークを使用して抽出されたヘッドとハンドオブジェクトの特徴を融合する新しい視線推定器。
3)調整された眼の動きに属するトレーニングサンプルをアップグレードする新しい眼の頭の協調喪失。
Hot3DおよびAria Digital Twin(ADT)データセットでHoigazeを評価し、最先端の方法を大幅に上回り、平均角度誤差でHOT3Dで15.6%、ADTで6.0%の平均改善を達成することを示しています。
私たちの方法の可能性を実証するために、ADTでの眼に基づく活動認識のサンプル下流タスクの大幅なパフォーマンスの改善をさらに報告します。
まとめると、我々の結果は、目のハンドヘッドの調整で利用可能な重要な情報コンテンツを強調し、そのため、学習ベースの視線の推定のためのエキサイティングな新しい方向性を開きます。
要約(オリジナル)
We present HOIGaze – a novel learning-based approach for gaze estimation during hand-object interactions (HOI) in extended reality (XR). HOIGaze addresses the challenging HOI setting by building on one key insight: The eye, hand, and head movements are closely coordinated during HOIs and this coordination can be exploited to identify samples that are most useful for gaze estimator training – as such, effectively denoising the training data. This denoising approach is in stark contrast to previous gaze estimation methods that treated all training samples as equal. Specifically, we propose: 1) a novel hierarchical framework that first recognises the hand currently visually attended to and then estimates gaze direction based on the attended hand; 2) a new gaze estimator that uses cross-modal Transformers to fuse head and hand-object features extracted using a convolutional neural network and a spatio-temporal graph convolutional network; and 3) a novel eye-head coordination loss that upgrades training samples belonging to the coordinated eye-head movements. We evaluate HOIGaze on the HOT3D and Aria digital twin (ADT) datasets and show that it significantly outperforms state-of-the-art methods, achieving an average improvement of 15.6% on HOT3D and 6.0% on ADT in mean angular error. To demonstrate the potential of our method, we further report significant performance improvements for the sample downstream task of eye-based activity recognition on ADT. Taken together, our results underline the significant information content available in eye-hand-head coordination and, as such, open up an exciting new direction for learning-based gaze estimation.
arxiv情報
著者 | Zhiming Hu,Daniel Haeufle,Syn Schmitt,Andreas Bulling |
発行日 | 2025-04-28 14:31:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google