Sign Language: Towards Sign Understanding for Robot Autonomy

要約

標識は人間の環境においてどこにでもある要素であり、シーンの理解とナビゲーションの両方において重要な役割を果たしている。自律システムが人間の環境を完全に解釈するためには、標識を効果的に解析し理解することが不可欠である。我々は、シーンに関する象徴的な空間情報を伝える標識からナビゲーションの手がかりを抽出することを目的とした、ナビゲーショナル標識理解のタスクを紹介する。具体的には、遠くの場所を指し示す方向の手がかりと、特定の場所を特定する位置の手がかりを捉えた標識に焦点を当てる。このタスクの性能をベンチマークするために、包括的なテストセットを作成し、適切な評価指標を提案し、ベースラインアプローチを確立する。我々のテストセットは160以上の画像から構成され、病院、ショッピングモール、交通ハブなど、幅広い公共空間における様々な複雑さとデザインの標識を捉えている。我々のベースラインアプローチは、視覚言語モデル(VLM)を活用し、このような高度な変動性の下でナビゲーション標識を解析する。実験により、VLMがこのタスクにおいて有望な性能を発揮することが示され、ロボット工学における下流への応用の動機付けとなる可能性がある。コードとデータセットはGithubで公開されている。

要約(オリジナル)

Signage is an ubiquitous element of human environments, playing a critical role in both scene understanding and navigation. For autonomous systems to fully interpret human environments, effectively parsing and understanding signs is essential. We introduce the task of navigational sign understanding, aimed at extracting navigational cues from signs that convey symbolic spatial information about the scene. Specifically, we focus on signs capturing directional cues that point toward distant locations and locational cues that identify specific places. To benchmark performance on this task, we curate a comprehensive test set, propose appropriate evaluation metrics, and establish a baseline approach. Our test set consists of over 160 images, capturing signs with varying complexity and design across a wide range of public spaces, such as hospitals, shopping malls, and transportation hubs. Our baseline approach harnesses Vision-Language Models (VLMs) to parse navigational signs under these high degrees of variability. Experiments show that VLMs offer promising performance on this task, potentially motivating downstream applications in robotics. The code and dataset are available on Github.

arxiv情報

著者 Ayush Agrawal,Joel Loo,Nicky Zimmerman,David Hsu
発行日 2025-06-03 07:44:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO パーマリンク