要約
視覚障害者から収集された最初のエゴセントリックビデオデータセットであるegoblindを提示し、現代のマルチモーダル大手言語モデル(MLLM)の支援能力を評価します。
EgoBlind comprises 1,392 videos that record the daily lives of real blind users from a first-person perspective.
また、さまざまなシナリオの下で視覚援助のための摂取ニーズを反映するために、視覚障害者によって直接提起または生成および検証された5,311の質問を特徴としています。
主観的評価を軽減するために、各質問を平均3つの参照回答と提供します。
egoblindを使用して、16の高度なMLLMを包括的に評価し、すべてのモデルが苦労していることがわかります。最高のパフォーマンスは、60 \%近くで正確さを達成し、87.4 \%の人間のパフォーマンスにはるかに遅れています。
将来の進歩を導くために、盲人のためのエゴセントリックな視覚援助における既存のMLLMの主要な制限を特定し、要約し、改善のためのヒューリスティックソリューションを探求します。
これらの努力により、egoblindが盲目の個人の生活の独立を強化するために、より効果的なAIアシスタントを開発するための貴重な基盤として役立つことを願っています。
データと評価コードはhttps://github.com/doc-doc/egoblindで入手できます。
要約(オリジナル)
We present EgoBlind, the first egocentric VideoQA dataset collected from blind individuals to evaluate the assistive capabilities of contemporary multimodal large language models (MLLMs). EgoBlind comprises 1,392 videos that record the daily lives of real blind users from a first-person perspective. It also features 5,311 questions directly posed or generated and verified by blind individuals to reflect their in-situation needs for visual assistance under various scenarios. We provide each question with an average of 3 reference answers to alleviate subjective evaluation. Using EgoBlind, we comprehensively evaluate 16 advanced MLLMs and find that all models struggle, with the best performers achieving accuracy near 60\%, far behind human performance of 87.4\%. To guide future advancements, we identify and summarize major limitations of existing MLLMs in egocentric visual assistance for the blind and explore heuristic solutions for improvement. With these efforts, we hope EgoBlind can serve as a valuable foundation for developing more effective AI assistants to enhance the independence of the blind individuals’ lives. Data and evaluation code are available at https://github.com/doc-doc/EgoBlind.
arxiv情報
著者 | Junbin Xiao,Nanxin Huang,Hao Qiu,Zhulin Tao,Xun Yang,Richang Hong,Meng Wang,Angela Yao |
発行日 | 2025-06-18 15:03:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google