要約
私たちは、視線推定および視線追跡技術の進歩における、視覚基盤モデルである SAM 2 の変革の可能性を探ります。
SAM 2 は、アノテーション時間を大幅に短縮し、導入の容易さによって技術的な障壁を低くし、セグメンテーションの精度を向上させることにより、研究者や専門家が直面する重要な課題に対処します。
最小限のユーザー入力 (ビデオごとに 1 回クリックするだけ) でゼロショット セグメンテーション機能を利用して、仮想現実セットアップやウェアラブル アイ トラッカーを使用して記録された世界最大の統合データセットなど、さまざまなデータセットからの 1,400 万を超える目の画像で SAM 2 をテストしました。
注目すべきことに、瞳孔セグメンテーションタスクでは、SAM 2 は目の画像のみでトレーニングされたドメイン固有モデルのパフォーマンスと同等であり、微調整なしで最大 93% の競合平均交差オーバーユニオン (mIoU) スコアを達成します。
さらに、さらなる研究を促進するために、これらの広く使用されているデータセット用のコードとセグメンテーション マスクを提供します。
要約(オリジナル)
We explore the transformative potential of SAM 2, a vision foundation model, in advancing gaze estimation and eye tracking technologies. By significantly reducing annotation time, lowering technical barriers through its ease of deployment, and enhancing segmentation accuracy, SAM 2 addresses critical challenges faced by researchers and practitioners. Utilizing its zero-shot segmentation capabilities with minimal user input-a single click per video-we tested SAM 2 on over 14 million eye images from diverse datasets, including virtual reality setups and the world’s largest unified dataset recorded using wearable eye trackers. Remarkably, in pupil segmentation tasks, SAM 2 matches the performance of domain-specific models trained solely on eye images, achieving competitive mean Intersection over Union (mIoU) scores of up to 93% without fine-tuning. Additionally, we provide our code and segmentation masks for these widely used datasets to promote further research.
arxiv情報
著者 | Virmarie Maquiling,Sean Anthony Byrne,Diederick C. Niehorster,Marco Carminati,Enkelejda Kasneci |
発行日 | 2024-10-11 15:50:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google