要約
視線ターゲットの検出は、人が見ている画像の位置と視線がシーンの外にある確率を予測することを目的としています。
いくつかの研究では、注視位置を中心とした注視ヒートマップを回帰することでこのタスクに取り組んできましたが、人々と注視されたオブジェクトとの関係の解読を見落としていました。
この論文では、シーン内のオブジェクト (頭を含む) を自動的に検出して、すべての頭と注視される頭/オブジェクト間の関連性を構築し、その結果、注視ターゲット領域、注視ピクセルで構成される包括的で説明可能な注視分析を実現する、Transformer ベースのアーキテクチャを提案します。
注目オブジェクトのポイント、クラス、画像の位置。
実際のベンチマークを評価すると、私たちの手法はすべての指標で最先端の結果を達成しました (AUC で最大 2.91% の向上、視線距離で 50% の短縮、屋外でのベンチマークでの 9% の向上)。
フレーム平均精度)により注視ターゲットの検出が向上し、注視対象の分類と位置特定の平均精度が 11 ~ 13% 向上しました。
提案手法のコードは公開されています。
要約(オリジナル)
Gaze target detection aims to predict the image location where the person is looking and the probability that a gaze is out of the scene. Several works have tackled this task by regressing a gaze heatmap centered on the gaze location, however, they overlooked decoding the relationship between the people and the gazed objects. This paper proposes a Transformer-based architecture that automatically detects objects (including heads) in the scene to build associations between every head and the gazed-head/object, resulting in a comprehensive, explainable gaze analysis composed of: gaze target area, gaze pixel point, the class and the image location of the gazed-object. Upon evaluation of the in-the-wild benchmarks, our method achieves state-of-the-art results on all metrics (up to 2.91% gain in AUC, 50% reduction in gaze distance, and 9% gain in out-of-frame average precision) for gaze target detection and 11-13% improvement in average precision for the classification and the localization of the gazed-objects. The code of the proposed method is publicly available.
arxiv情報
著者 | Francesco Tonini,Nicola Dall’Asen,Cigdem Beyan,Elisa Ricci |
発行日 | 2023-09-27 13:08:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google