要約
多くの場合、アノテーターグループとエンドユーザーグループ間でニーズと視覚能力が異なります。
ブラインドおよび低ビジョン(BLV)ユーザーの詳細な図の説明を生成することは、そのような挑戦的なドメインの1つです。
視覚視力は視覚を簡単に説明できますが、既存の研究では、直接世代は費用がかかり、バイアスが発生しやすく、BLV標準によってやや欠けていることが示されています。
この研究では、目撃した個人に、マルチパス推論を介して潜在的な監督に導かれたビジョン言語モデル(VLM)によって生成された図の説明を評価するように依頼します。
目撃された評価は、自分自身がBLVであり、視覚障害のある学習者を教える専門家教育者にとって効果的で有用であることが証明されています。
視覚、図の説明データセットのコレクション、5K図と137Kサンプルの完了、好み、検索、質問応答、および推論トレーニングの目的で、さまざまな下流タスクで微調整の可能性を示します。
要約(オリジナル)
Often, the needs and visual abilities differ between the annotator group and the end user group. Generating detailed diagram descriptions for blind and low-vision (BLV) users is one such challenging domain. Sighted annotators could describe visuals with ease, but existing studies have shown that direct generations by them are costly, bias-prone, and somewhat lacking by BLV standards. In this study, we ask sighted individuals to assess — rather than produce — diagram descriptions generated by vision-language models (VLM) that have been guided with latent supervision via a multi-pass inference. The sighted assessments prove effective and useful to professional educators who are themselves BLV and teach visually impaired learners. We release Sightation, a collection of diagram description datasets spanning 5k diagrams and 137k samples for completion, preference, retrieval, question answering, and reasoning training purposes and demonstrate their fine-tuning potential in various downstream tasks.
arxiv情報
著者 | Wan Ju Kang,Eunki Kim,Na Min An,Sangryul Kim,Haemin Choi,Ki Hoon Kwak,James Thorne |
発行日 | 2025-03-17 16:52:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google