Space-Aware Instruction Tuning: Dataset and Benchmark for Guide Dog Robots Assisting the Visually Impaired

要約

盲導犬ロボットは、視覚障害のある個人のモビリティと安全性を高めるための有望なソリューションを提供し、特に知覚とコミュニケーションにおいて、伝統的な盲導犬の限界に対処します。
ビジョン言語モデル(VLM)の出現により、ロボットは周囲の自然言語の説明を生成し、より安全な意思決定を支援することができます。
ただし、既存のVLMは、空間的関係を正確に解釈して伝えるのに苦労しています。これは、街路交差点などの複雑な環境でのナビゲーションに重要です。
スペースアウェア命令チューニング(SAIT)データセットとスペースアウェアベンチマーク(SAベンチ)を紹介して、物理的環境を理解する際の現在のVLMの制限に対処します。
自動化されたデータ生成パイプラインは、3Dスペースと周囲の目的地への仮想パスに焦点を当てており、環境理解を高め、VLMが視覚障害のある個人により正確なガイダンスを提供できるようにします。
また、ウォーキングガイダンスの提供におけるVLMの有効性を評価するための評価プロトコルも提案します。
比較実験は、私たちの宇宙認識命令チューニングモデルが最先端のアルゴリズムよりも優れていることを示しています。
https://github.com/byungokhan/space-awarevlmで、関連コードとともにSAITデータセットとSAベンチを完全にオープンソースしました。

要約(オリジナル)

Guide dog robots offer promising solutions to enhance mobility and safety for visually impaired individuals, addressing the limitations of traditional guide dogs, particularly in perceptual intelligence and communication. With the emergence of Vision-Language Models (VLMs), robots are now capable of generating natural language descriptions of their surroundings, aiding in safer decision-making. However, existing VLMs often struggle to accurately interpret and convey spatial relationships, which is crucial for navigation in complex environments such as street crossings. We introduce the Space-Aware Instruction Tuning (SAIT) dataset and the Space-Aware Benchmark (SA-Bench) to address the limitations of current VLMs in understanding physical environments. Our automated data generation pipeline focuses on the virtual path to the destination in 3D space and the surroundings, enhancing environmental comprehension and enabling VLMs to provide more accurate guidance to visually impaired individuals. We also propose an evaluation protocol to assess VLM effectiveness in delivering walking guidance. Comparative experiments demonstrate that our space-aware instruction-tuned model outperforms state-of-the-art algorithms. We have fully open-sourced the SAIT dataset and SA-Bench, along with the related code, at https://github.com/byungokhan/Space-awareVLM

arxiv情報

著者 ByungOk Han,Woo-han Yun,Beom-Su Seo,Jaehong Kim
発行日 2025-02-12 09:07:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク