要約
視覚障害のある人口、特に重度の視覚障害者は現在大きく、日々の活動は彼らにとって大きな課題をもたらします。
多くの研究では、大規模な言語および視覚言語モデルを使用して盲目を支援しますが、ほとんどが静的なコンテンツに焦点を当て、日常の活動などの動的および複雑な環境でリアルタイムの認識ニーズを満たすことができません。
より効果的なインテリジェントな支援を提供するには、高度な視覚理解技術を組み込むことが不可欠です。
リアルタイムのビジョンと音声相互作用ビデオオルムは強力なリアルタイムの視覚的理解を示していますが、視覚障害者を支援する際の有効性を体系的に評価した事前の研究はありません。
この作業では、最初のそのような評価を実施します。
まず、ベンチマークデータセット(VisassistDaily)を構築し、視覚障害のある個人向けの3つのカテゴリの支援タスクをカバーします:基本的なスキル、ホームライフタスク、ソーシャルライフタスク。
結果は、GPT-4oが最高のタスクの成功率を達成することを示しています。
次に、閉じたワールドとオープンワールドの両方のシナリオの両方でモデルを評価するためにユーザー調査を実施し、AssistiveコンテキストでVideollmsを適用するという実際的な課題をさらに調査します。
私たちが特定する重要な問題の1つは、動的環境での潜在的な危険性を知覚する上で現在のモデルが直面する難易度です。
これに対処するために、Safevidという名前の環境認識データセットを構築し、モデルが環境リスクを積極的に検出できるようにするポーリングメカニズムを導入します。
この作品が、この分野での将来の研究のための貴重な洞察とインスピレーションを提供することを願っています。
要約(オリジナル)
The visually impaired population, especially the severely visually impaired, is currently large in scale, and daily activities pose significant challenges for them. Although many studies use large language and vision-language models to assist the blind, most focus on static content and fail to meet real-time perception needs in dynamic and complex environments, such as daily activities. To provide them with more effective intelligent assistance, it is imperative to incorporate advanced visual understanding technologies. Although real-time vision and speech interaction VideoLLMs demonstrate strong real-time visual understanding, no prior work has systematically evaluated their effectiveness in assisting visually impaired individuals. In this work, we conduct the first such evaluation. First, we construct a benchmark dataset (VisAssistDaily), covering three categories of assistive tasks for visually impaired individuals: Basic Skills, Home Life Tasks, and Social Life Tasks. The results show that GPT-4o achieves the highest task success rate. Next, we conduct a user study to evaluate the models in both closed-world and open-world scenarios, further exploring the practical challenges of applying VideoLLMs in assistive contexts. One key issue we identify is the difficulty current models face in perceiving potential hazards in dynamic environments. To address this, we build an environment-awareness dataset named SafeVid and introduce a polling mechanism that enables the model to proactively detect environmental risks. We hope this work provides valuable insights and inspiration for future research in this field.
arxiv情報
著者 | Ziyi Zhang,Zhen Sun,Zongmin Zhang,Zifan Peng,Yuemeng Zhao,Zichun Wang,Zeren Luo,Ruiting Zuo,Xinlei He |
発行日 | 2025-05-07 15:03:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google