Long-Form Answers to Visual Questions from Blind and Low Vision People

要約

ビジョン言語モデルは、画像に関する質問に対する長い形式の回答、つまり長い形式のビジュアル質問回答 (LFVQA) を生成できるようになりました。
私たちは、視覚障害者およびロービジョン (BLV) ユーザーからの視覚的な質問に対する長い形式の回答のデータセットである VizWiz-LF を提供しています。
VizWiz-LF には、人間の専門記述者と 6 つの VQA モデルから収集された、600 の視覚的な質問に対する 4.2k の長い形式の回答が含まれています。
私たちは、LFVQA の文の機能的役割を開発して注釈を付け、長い形式の回答には説明や提案など、質問の回答を超えた情報が含まれていることを実証します。
さらに、BLV と晴眼者による自動評価と人間による評価を実施して、長文の回答を評価します。
BLV の人々は、人間が書いた回答と生成された長い形式の回答の両方がもっともらしいと認識しますが、生成された回答は、特に回答できない視覚的な質問 (例: ぼやけた画像や無関係な画像) の場合、不正確な視覚的詳細を幻覚することがよくあります。
幻覚を減らすために、複数のプロンプト戦略にわたって、答えられない質問への回答を控える VQA モデルの能力を評価します。

要約(オリジナル)

Vision language models can now generate long-form answers to questions about images – long-form visual question answers (LFVQA). We contribute VizWiz-LF, a dataset of long-form answers to visual questions posed by blind and low vision (BLV) users. VizWiz-LF contains 4.2k long-form answers to 600 visual questions, collected from human expert describers and six VQA models. We develop and annotate functional roles of sentences of LFVQA and demonstrate that long-form answers contain information beyond the question answer such as explanations and suggestions. We further conduct automatic and human evaluations with BLV and sighted people to evaluate long-form answers. BLV people perceive both human-written and generated long-form answers to be plausible, but generated answers often hallucinate incorrect visual details, especially for unanswerable visual questions (e.g., blurry or irrelevant images). To reduce hallucinations, we evaluate the ability of VQA models to abstain from answering unanswerable questions across multiple prompting strategies.

arxiv情報

著者 Mina Huh,Fangyuan Xu,Yi-Hao Peng,Chongyan Chen,Hansika Murugu,Danna Gurari,Eunsol Choi,Amy Pavel
発行日 2024-08-12 17:15:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク