要約
本研究では、SLYKLatentを発表する。SLYKLatentは、アレータの不確実性、共変量シフト、およびテスト領域の汎化に起因するデータセットにおける外観の不安定性の課題に対処することで、視線推定を強化するための新しいアプローチである。SLYKLatentは、表情データセットによる初期学習に自己教師あり学習を利用し、その後、パッチベースの3分岐ネットワークと逆説明分散重み付け学習損失関数による改良を行います。ベンチマークデータセットでの評価では、Gaze360で8.7%の改善を達成し、MPIIFaceGazeのトップ結果に匹敵し、ETH-XGazeのサブセットでは13%リードし、既存の手法を大きく上回る。RAF-DBとAffectnetの適応性テストでは、それぞれ86.4%と60.9%の精度を示した。アブレーション研究により、SLYKLatentの新しい構成要素の有効性が確認された。このアプローチは、人間とロボットの相互作用において強い可能性を秘めている。
要約(オリジナル)
In this research, we present SLYKLatent, a novel approach for enhancing gaze estimation by addressing appearance instability challenges in datasets due to aleatoric uncertainties, covariant shifts, and test domain generalization. SLYKLatent utilizes Self-Supervised Learning for initial training with facial expression datasets, followed by refinement with a patch-based tri-branch network and an inverse explained variance-weighted training loss function. Our evaluation on benchmark datasets achieves an 8.7% improvement on Gaze360, rivals top MPIIFaceGaze results, and leads on a subset of ETH-XGaze by 13%, surpassing existing methods by significant margins. Adaptability tests on RAF-DB and Affectnet show 86.4% and 60.9% accuracies, respectively. Ablation studies confirm the effectiveness of SLYKLatent’s novel components. This approach has strong potential in human-robot interaction.
arxiv情報
著者 | Samuel Adebayo,Joost C. Dessing,Seán McLoone |
発行日 | 2024-02-02 16:47:18+00:00 |
arxivサイト | arxiv_id(pdf) |