Vision-Language Models under Cultural and Inclusive Considerations

要約

大規模視覚言語モデル (VLM) は、視覚障害のある人々の日常生活の画像を説明することによって支援できます。
現在の評価データセットは、ユーザーの多様な文化的背景やこのユースケースの状況背景を反映していない可能性があります。
この問題に対処するために、私たちはキャプションの好みを決定するための調査を作成し、視覚障害者が撮影した画像を含む既存のデータセットである VizWiz をフィルタリングすることによって文化中心の評価ベンチマークを提案します。
次に、いくつかの VLM を評価し、文化的に多様な環境における視覚アシスタントとしての信頼性を調査します。
最先端のモデルの結果は有望ですが、幻覚や自動評価基準と人間の判断の不一致などの課題も特定しています。
私たちは調査、データ、コード、モデルの出力を一般に公開しています。

要約(オリジナル)

Large vision-language models (VLMs) can assist visually impaired people by describing images from their daily lives. Current evaluation datasets may not reflect diverse cultural user backgrounds or the situational context of this use case. To address this problem, we create a survey to determine caption preferences and propose a culture-centric evaluation benchmark by filtering VizWiz, an existing dataset with images taken by people who are blind. We then evaluate several VLMs, investigating their reliability as visual assistants in a culturally diverse setting. While our results for state-of-the-art models are promising, we identify challenges such as hallucination and misalignment of automatic evaluation metrics with human judgment. We make our survey, data, code, and model outputs publicly available.

arxiv情報

著者 Antonia Karamolegkou,Phillip Rust,Yong Cao,Ruixiang Cui,Anders Søgaard,Daniel Hershcovich
発行日 2024-07-08 17:50:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.CY パーマリンク