Diffusion-Refined VQA Annotations for Semi-Supervised Gaze Following

要約

視線追跡モデルをトレーニングするには、人間のアノテーターによって注釈が付けられた視線ターゲット座標を含む多数の画像が必要ですが、これは手間がかかり、本質的に曖昧なプロセスです。
我々は、タスクに 2 つの新しい事前条件を導入することにより、視線追跡のための最初の半教師あり方法を提案します。
大規模な事前トレーニング済みの Visual Question Answering (VQA) モデルを使用して 1 次事前分布を取得します。このモデルでは、注視に続く質問で VQA モデルに「プロンプト」を発行することで Grad-CAM ヒートマップを計算します。
これらのヒートマップはノイズが多いため、トレーニングでの使用には適していません。
これらのノイズの多い注釈を改良する必要があるため、2 番目の事前確率を組み込む必要があります。
限られた人間によるアノテーションでトレーニングされた拡散モデルを利用し、逆サンプリング プロセスを変更して Grad-CAM ヒートマップを改良します。
拡散プロセスを調整することで、事前の人間によるアノテーションと事前の VQA ヒートマップとの間のトレードオフが実現され、トレーニング データの分布と同様の特性を示しながら、有用な VQA の事前情報が保持されます。
私たちの方法は、GazeFollow 画像データセットに対する単純な疑似アノテーション生成ベースラインよりも優れたパフォーマンスを発揮します。
さらに重要なのは、私たちの疑似アノテーション戦略は、広く使用されている教師あり視線追従モデル (VAT) に適用され、アノテーションの必要性が 50% 削減されることです。
私たちのメソッドは、VideoAttendantTarget データセットでも最高のパフォーマンスを発揮します。

要約(オリジナル)

Training gaze following models requires a large number of images with gaze target coordinates annotated by human annotators, which is a laborious and inherently ambiguous process. We propose the first semi-supervised method for gaze following by introducing two novel priors to the task. We obtain the first prior using a large pretrained Visual Question Answering (VQA) model, where we compute Grad-CAM heatmaps by `prompting’ the VQA model with a gaze following question. These heatmaps can be noisy and not suited for use in training. The need to refine these noisy annotations leads us to incorporate a second prior. We utilize a diffusion model trained on limited human annotations and modify the reverse sampling process to refine the Grad-CAM heatmaps. By tuning the diffusion process we achieve a trade-off between the human annotation prior and the VQA heatmap prior, which retains the useful VQA prior information while exhibiting similar properties to the training data distribution. Our method outperforms simple pseudo-annotation generation baselines on the GazeFollow image dataset. More importantly, our pseudo-annotation strategy, applied to a widely used supervised gaze following model (VAT), reduces the annotation need by 50%. Our method also performs the best on the VideoAttentionTarget dataset.

arxiv情報

著者 Qiaomu Miao,Alexandros Graikos,Jingwei Zhang,Sounak Mondal,Minh Hoai,Dimitris Samaras
発行日 2024-07-18 16:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク