要約
基礎モデルの出現は、人工知能の新時代の到来を告げています。
Segment Anything Model (SAM) は、画像セグメンテーションの最初の基礎モデルです。
この研究では、仮想現実設定で記録された目の画像から特徴をセグメント化する SAM の能力を評価します。
注釈付きの目の画像データセットに対する要件が高まっていることは、SAM にとって視線推定におけるデータ注釈の状況を再定義する重要な機会をもたらしています。
私たちの調査は、SAM のゼロショット学習能力と、バウンディング ボックスやポイント クリックなどのプロンプトの有効性に焦点を当てています。
私たちの結果は他の分野の研究と一致しており、SAM のセグメンテーションの有効性が機能に応じて特殊なモデルと同等になり、パフォーマンスの向上を促すことが実証されており、これは 1 つのデータセットにおける瞳孔セグメンテーションの IoU が 93.34% であることが証明しています。
SAM のような基盤モデルは、画像のセグメンテーションを迅速かつ簡単に可能にし、特殊なモデルや広範な手動アノテーションへの依存を軽減することで、視線推定に革命を起こす可能性があります。
要約(オリジナル)
The advent of foundation models signals a new era in artificial intelligence. The Segment Anything Model (SAM) is the first foundation model for image segmentation. In this study, we evaluate SAM’s ability to segment features from eye images recorded in virtual reality setups. The increasing requirement for annotated eye-image datasets presents a significant opportunity for SAM to redefine the landscape of data annotation in gaze estimation. Our investigation centers on SAM’s zero-shot learning abilities and the effectiveness of prompts like bounding boxes or point clicks. Our results are consistent with studies in other domains, demonstrating that SAM’s segmentation effectiveness can be on-par with specialized models depending on the feature, with prompts improving its performance, evidenced by an IoU of 93.34% for pupil segmentation in one dataset. Foundation models like SAM could revolutionize gaze estimation by enabling quick and easy image segmentation, reducing reliance on specialized models and extensive manual annotation.
arxiv情報
著者 | Virmarie Maquiling,Sean Anthony Byrne,Diederick C. Niehorster,Marcus Nyström,Enkelejda Kasneci |
発行日 | 2024-04-08 13:23:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google