要約
我々は、視線ターゲット検出のためのエンドツーエンドのアプローチ、つまり個人と彼らが見ているターゲット画像領域との間の頭部とターゲットの関係を予測することを提案します。
既存の方法のほとんどは、既製の頭部検出器などの独立したコンポーネントを使用しているか、頭部と注視ターゲットの間の関連付けを確立する際に問題を抱えています。
対照的に、私たちは、入力シーン画像のみに基づいて複数の頭部ターゲットのインスタンスを予測する、Heads and Targets Association (GazeHTA) を使用したエンドツーエンドの複数人の視線ターゲット検出フレームワークを調査します。
GazeHTA は、(1) 事前トレーニング済みの拡散モデルを活用してシーンの特徴を抽出し、意味論を豊かに理解する、(2) 頭部の特徴を再注入して頭部の事前分布を強化し、頭部の理解を向上させる、(3) という方法で視線ターゲット検出の課題に対処します。
頭と視線ターゲットの間の明示的な視覚的関連付けとして接続マップを学習します。
私たちの広範な実験結果は、GazeHTA が最先端の視線ターゲット検出方法と、2 つの標準データセットに適用された 2 つの拡散ベースのベースラインよりも優れていることを示しています。
要約(オリジナル)
We propose an end-to-end approach for gaze target detection: predicting a head-target connection between individuals and the target image regions they are looking at. Most of the existing methods use independent components such as off-the-shelf head detectors or have problems in establishing associations between heads and gaze targets. In contrast, we investigate an end-to-end multi-person Gaze target detection framework with Heads and Targets Association (GazeHTA), which predicts multiple head-target instances based solely on input scene image. GazeHTA addresses challenges in gaze target detection by (1) leveraging a pre-trained diffusion model to extract scene features for rich semantic understanding, (2) re-injecting a head feature to enhance the head priors for improved head understanding, and (3) learning a connection map as the explicit visual associations between heads and gaze targets. Our extensive experimental results demonstrate that GazeHTA outperforms state-of-the-art gaze target detection methods and two adapted diffusion-based baselines on two standard datasets.
arxiv情報
著者 | Zhi-Yi Lin,Jouh Yeong Chew,Jan van Gemert,Xucong Zhang |
発行日 | 2024-04-16 16:51:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google