Text to Blind Motion

要約

視覚障害者は、晴眼者とは世界の認識が異なるため、動作特性が明確になる場合があります。
たとえば、交差点を横断するとき、視覚障害者は、直線の道からさらに逸れたり、縁石や障害物の周囲をタッチベースで探索したりするなど、さまざまな行動パターンを持つ可能性があります。
これらの動作は、自動運転車などの技術に組み込まれた動作モデルでは予測しにくいように見える場合があります。
しかし、3D 人間の動作に関する既存のデータセットは現在多様性に欠けており、晴眼者に偏っているため、そのような動作を捕捉する 3D 動作モデルの能力はこれまで研究されていませんでした。
この研究では、目の見えない歩行者のための初のマルチモーダル モーション ベンチマークである BlindWays を紹介します。
ウェアラブル センサーを使用して 3D モーション データを収集し、11 人の視覚障害のある参加者が現実世界の都市設定で 8 つの異なるルートを移動します。
さらに、視覚障害者の特有の動きの特徴や、歩行補助具 (白杖や盲導犬など) や環境との相互作用を捉えた豊富なテキストによる説明も提供します。
私たちは最先端の 3D 人間予測モデルをベンチマークし、新しいタスクに対して既製の事前トレーニングベースの方法ではパフォーマンスが低いことを発見しました。
環境内での人間の多様な動きをシームレスに推論できる、より安全で信頼性の高いシステムの実現に貢献するために、当社のテキストとモーションのベンチマークは https://blindways.github.io で入手できます。

要約(オリジナル)

People who are blind perceive the world differently than those who are sighted, which can result in distinct motion characteristics. For instance, when crossing at an intersection, blind individuals may have different patterns of movement, such as veering more from a straight path or using touch-based exploration around curbs and obstacles. These behaviors may appear less predictable to motion models embedded in technologies such as autonomous vehicles. Yet, the ability of 3D motion models to capture such behavior has not been previously studied, as existing datasets for 3D human motion currently lack diversity and are biased toward people who are sighted. In this work, we introduce BlindWays, the first multimodal motion benchmark for pedestrians who are blind. We collect 3D motion data using wearable sensors with 11 blind participants navigating eight different routes in a real-world urban setting. Additionally, we provide rich textual descriptions that capture the distinctive movement characteristics of blind pedestrians and their interactions with both the navigation aid (e.g., a white cane or a guide dog) and the environment. We benchmark state-of-the-art 3D human prediction models, finding poor performance with off-the-shelf and pre-training-based methods for our novel task. To contribute toward safer and more reliable systems that can seamlessly reason over diverse human movements in their environments, our text-and-motion benchmark is available at https://blindways.github.io.

arxiv情報

著者 Hee Jae Kim,Kathakoli Sengupta,Masaki Kuribayashi,Hernisa Kacorri,Eshed Ohn-Bar
発行日 2024-12-06 18:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク