Evaluating Multimodal Language Models as Visual Assistants for Visually Impaired Users

要約

このペーパーでは、視覚障害のある個人の支援技術としてのマルチモーダル大手言語モデル(MLLMS)の有効性を探ります。
ユーザー調査を実施して、採用パターンとユーザーが直面する重要な課題を特定します。
これらのモデルの採用率が高いにもかかわらず、我々の調査結果は、特に視覚的解釈のためだけに頼ることができる個人にとって、文脈的理解、文化的感受性、複雑なシーンの理解に関連する懸念を強調しています。
これらの結果から通知されて、光字点字認識に関する新しいタスクを含む、画像とビデオの入力を含む5つのユーザー中心のタスクを照合します。
12のMLLMの体系的な評価は、文化的文脈、多言語サポート、点字読解力、支援オブジェクト認識、幻覚に関連する制限を克服するためにさらなる進歩が必要であることを明らかにしています。
この作業は、アクセシビリティのためのマルチモーダルAIの将来の方向性に関する重要な洞察を提供し、より包括的で堅牢で信頼できる視覚援助技術の必要性を強調しています。

要約(オリジナル)

This paper explores the effectiveness of Multimodal Large Language models (MLLMs) as assistive technologies for visually impaired individuals. We conduct a user survey to identify adoption patterns and key challenges users face with such technologies. Despite a high adoption rate of these models, our findings highlight concerns related to contextual understanding, cultural sensitivity, and complex scene understanding, particularly for individuals who may rely solely on them for visual interpretation. Informed by these results, we collate five user-centred tasks with image and video inputs, including a novel task on Optical Braille Recognition. Our systematic evaluation of twelve MLLMs reveals that further advancements are necessary to overcome limitations related to cultural context, multilingual support, Braille reading comprehension, assistive object recognition, and hallucinations. This work provides critical insights into the future direction of multimodal AI for accessibility, underscoring the need for more inclusive, robust, and trustworthy visual assistance technologies.

arxiv情報

著者 Antonia Karamolegkou,Malvina Nikandrou,Georgios Pantazopoulos,Danae Sanchez Villegas,Phillip Rust,Ruchira Dhar,Daniel Hershcovich,Anders Søgaard
発行日 2025-03-28 16:54:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC, cs.LG パーマリンク