A Multi-Modal Foundation Model to Assist People with Blindness and Low Vision in Environmental Interaction

要約

視覚障害者(pBLV)は、不慣れな環境での包括的なシーン認識と正確な物体識別に関して大きな課題に直面します。
さらに、視力喪失のため、pBLV は潜在的なつまずきの危険に自らアクセスして特定することが困難です。
この論文では、大規模な視覚言語モデルを活用して pBLV の視覚認識を強化し、周囲の環境の詳細かつ包括的な説明を提供し、潜在的なリスクについての警告を提供する先駆的なアプローチを紹介します。
私たちの方法は、大規模な画像タグ付けモデル (つまり、Recognize Anything (RAM)) を利用して、キャプチャされた画像内に存在するすべての一般的なオブジェクトを識別することから始まります。
認識結果とユーザーのクエリは、プロンプト エンジニアリングを使用して pBLV 専用に調整されたプロンプトに統合されます。
プロンプトと入力画像を組み合わせることで、大規模なビジョン言語モデル (つまり、InstructBLIP) が環境の詳細かつ包括的な説明を生成し、プロンプトに関連する環境オブジェクトやシーンを分析することで環境内の潜在的なリスクを特定します。
私たちは屋内と屋外の両方のデータセットで実施した実験を通じてアプローチを評価します。
私たちの結果は、私たちの方法が物体を正確に認識し、pBLVの環境の洞察力に富んだ説明と分析を提供できることを示しています。

要約(オリジナル)

People with blindness and low vision (pBLV) encounter substantial challenges when it comes to comprehensive scene recognition and precise object identification in unfamiliar environments. Additionally, due to the vision loss, pBLV have difficulty in accessing and identifying potential tripping hazards on their own. In this paper, we present a pioneering approach that leverages a large vision-language model to enhance visual perception for pBLV, offering detailed and comprehensive descriptions of the surrounding environments and providing warnings about the potential risks. Our method begins by leveraging a large image tagging model (i.e., Recognize Anything (RAM)) to identify all common objects present in the captured images. The recognition results and user query are then integrated into a prompt, tailored specifically for pBLV using prompt engineering. By combining the prompt and input image, a large vision-language model (i.e., InstructBLIP) generates detailed and comprehensive descriptions of the environment and identifies potential risks in the environment by analyzing the environmental objects and scenes, relevant to the prompt. We evaluate our approach through experiments conducted on both indoor and outdoor datasets. Our results demonstrate that our method is able to recognize objects accurately and provide insightful descriptions and analysis of the environment for pBLV.

arxiv情報

著者 Yu Hao,Fan Yang,Hao Huang,Shuaihang Yuan,Sundeep Rangan,John-Ross Rizzo,Yao Wang,Yi Fang
発行日 2024-04-29 11:53:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク