Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders

要約

シーン内のどこを見ているのかを予測することを目的とした視線ターゲット推定の問題に取り組みます。
人の視線のターゲットを予測するには、その人の外見とシーンの内容の両方について推論する必要があります。
これまでの研究では、別々のシーン エンコーダ、ヘッド エンコーダ、および深度やポーズなどの信号の補助モデルからの機能を慎重に融合する、視線ターゲット推定用のますます複雑な手作りのパイプラインが開発されました。
さまざまな視覚タスクにおける汎用特徴抽出器の成功を動機として、凍結された DINOv2 エンコーダの特徴を活用して視線ターゲットの推定を合理化する新しい変換フレームワークである Gaze-LLE を提案します。
シーンの単一の特徴表現を抽出し、人物固有の位置プロンプトを適用して、軽量モジュールで視線をデコードします。
当社は、いくつかの視線ベンチマークにわたって最先端のパフォーマンスを実証し、設計の選択を検証するための広範な分析を提供します。
私たちのコードは http://github.com/fkryan/gazelle で入手できます。

要約(オリジナル)

We address the problem of gaze target estimation, which aims to predict where a person is looking in a scene. Predicting a person’s gaze target requires reasoning both about the person’s appearance and the contents of the scene. Prior works have developed increasingly complex, hand-crafted pipelines for gaze target estimation that carefully fuse features from separate scene encoders, head encoders, and auxiliary models for signals like depth and pose. Motivated by the success of general-purpose feature extractors on a variety of visual tasks, we propose Gaze-LLE, a novel transformer framework that streamlines gaze target estimation by leveraging features from a frozen DINOv2 encoder. We extract a single feature representation for the scene, and apply a person-specific positional prompt to decode gaze with a lightweight module. We demonstrate state-of-the-art performance across several gaze benchmarks and provide extensive analysis to validate our design choices. Our code is available at: http://github.com/fkryan/gazelle .

arxiv情報

著者 Fiona Ryan,Ajay Bati,Sangmin Lee,Daniel Bolya,Judy Hoffman,James M. Rehg
発行日 2024-12-12 18:55:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク