要約
視覚障害者 (PVI) にとって、ナビゲーションは大きな課題となります。
白杖や盲導犬などの従来の補助具は非常に貴重ですが、詳細な空間情報を提供したり、目的の場所に正確に誘導したりするには不十分です。
大規模言語モデル (LLM) とビジョン言語モデル (VLM) の最近の開発は、支援ナビゲーションを強化するための新しい手段を提供します。
このペーパーでは、PVI が大規模な屋内環境をナビゲートできるように設計された、具体化された LLM ベースのエージェントである Guide-LLM を紹介します。
私たちのアプローチは、LLM が簡素化された環境表現を使用してグローバル パスを計画できるようにする新しいテキストベースのトポロジ マップを特徴とし、ナビゲーションを容易にするために直線パスと直角ターンに焦点を当てます。
さらに、LLM の常識的な推論を利用して危険を検出し、ユーザーの好みに基づいてパーソナライズされた経路計画を作成します。
模擬実験では、PVI の誘導におけるシステムの有効性が実証され、支援技術の大幅な進歩としての可能性が強調されています。
この結果は、Guide-LLM が効率的で適応性のあるパーソナライズされたナビゲーション支援を提供できる能力を強調しており、この分野における有望な進歩を示しています。
要約(オリジナル)
Navigation presents a significant challenge for persons with visual impairments (PVI). While traditional aids such as white canes and guide dogs are invaluable, they fall short in delivering detailed spatial information and precise guidance to desired locations. Recent developments in large language models (LLMs) and vision-language models (VLMs) offer new avenues for enhancing assistive navigation. In this paper, we introduce Guide-LLM, an embodied LLM-based agent designed to assist PVI in navigating large indoor environments. Our approach features a novel text-based topological map that enables the LLM to plan global paths using a simplified environmental representation, focusing on straight paths and right-angle turns to facilitate navigation. Additionally, we utilize the LLM’s commonsense reasoning for hazard detection and personalized path planning based on user preferences. Simulated experiments demonstrate the system’s efficacy in guiding PVI, underscoring its potential as a significant advancement in assistive technology. The results highlight Guide-LLM’s ability to offer efficient, adaptive, and personalized navigation assistance, pointing to promising advancements in this field.
arxiv情報
著者 | Sangmim Song,Sarath Kodagoda,Amal Gunatilake,Marc G. Carmichael,Karthick Thiyagarajan,Jodi Martin |
発行日 | 2024-10-28 01:58:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google