要約
視覚言語モデル (VLM) が進歩するにつれて、視覚障害者 (PVI) を支援するための人間中心の支援技術 (AT) は、複数のタスクを同時に実行できるジェネラリストへと進化しています。
ただし、AT 用の VLM のベンチマークはまだ調査されていません。
このギャップを埋めるために、まず新しい AT ベンチマーク (@Bench) を作成します。
PVI を使用した設計前のユーザー調査に基づいて、当社のベンチマークには、パノプティック セグメンテーション、深度推定、光学式文字認識 (OCR)、画像キャプション、および視覚的質問応答 (VQA) という 5 つの最も重要な視覚言語タスクが含まれています。
さらに、すべてのタスクに同時に対処し、PVI を支援するためのより支援的な機能に拡張できる新しい AT モデル (@Model) を提案します。
当社のフレームワークは、マルチモーダル情報を統合することでタスク全体で優れたパフォーマンスを発揮し、PVI により包括的な支援を提供します。
広範な実験により、私たちのフレームワークの有効性と一般化可能性が証明されています。
要約(オリジナル)
As Vision-Language Models (VLMs) advance, human-centered Assistive Technologies (ATs) for helping People with Visual Impairments (PVIs) are evolving into generalists, capable of performing multiple tasks simultaneously. However, benchmarking VLMs for ATs remains under-explored. To bridge this gap, we first create a novel AT benchmark (@Bench). Guided by a pre-design user study with PVIs, our benchmark includes the five most crucial vision-language tasks: Panoptic Segmentation, Depth Estimation, Optical Character Recognition (OCR), Image Captioning, and Visual Question Answering (VQA). Besides, we propose a novel AT model (@Model) that addresses all tasks simultaneously and can be expanded to more assistive functions for helping PVIs. Our framework exhibits outstanding performance across tasks by integrating multi-modal information, and it offers PVIs a more comprehensive assistance. Extensive experiments prove the effectiveness and generalizability of our framework.
arxiv情報
著者 | Xin Jiang,Junwei Zheng,Ruiping Liu,Jiahang Li,Jiaming Zhang,Sven Matthiesen,Rainer Stiefelhagen |
発行日 | 2024-11-25 15:36:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google