StairNet: Visual Recognition of Stairs for Human-Robot Locomotion

要約

義足や外骨格を装着した人間とロボットの歩行、特に階段などの複雑な地形上での歩行は依然として大きな課題です。
自己中心的な視覚には、物理​​的な相互作用の前に歩行環境を検出する独自の可能性があり、階段への出入りを改善することができます。
このため、オンボードのリアルタイム推論のための軽量で効率的なニューラル ネットワークに重点を置き、階段の視覚センシングと認識のための新しい深層学習モデルの開発をサポートする StairNet イニシアチブを作成する動機になりました。
この研究では、515,000 を超える手動でラベル付けされた画像を含む大規模なデータセットの開発の概要と、さまざまな深層学習モデル (2D および 3D CNN、ハイブリッド CNN と LSTM、ViT ネットワークなど) の開発の概要を示します。
)と新しいデータセットを使用したトレーニング方法(時間データを使用した教師あり学習やラベルなし画像を使用した半教師あり学習など)を説明します。
私たちは、モデルの精度とサイズの間のトレードオフを提供しながら、さまざまな設計で高い分類精度 (つまり、最大 98.8%) を一貫して達成しました。
GPU および NPU アクセラレータを備えたモバイル デバイスに展開すると、当社の深層学習モデルは最大 2.8 ミリ秒の推論速度を達成しました。
また、カスタム設計の CPU 搭載スマート グラスにもモデルを展開しました。
ただし、組み込みハードウェアの制限により推論速度が 1.5 秒遅くなり、人間中心の設計とパフォーマンスの間にトレードオフが生じました。
全体として、我々は、StairNet が、外骨格や義足の制御に応用できる、人間とロボットの移動のための新しい視覚認識システムを開発および研究するための効果的なプラットフォームとなり得ることを示しました。

要約(オリジナル)

Human-robot walking with prosthetic legs and exoskeletons, especially over complex terrains such as stairs, remains a significant challenge. Egocentric vision has the unique potential to detect the walking environment prior to physical interactions, which can improve transitions to and from stairs. This motivated us to create the StairNet initiative to support the development of new deep learning models for visual sensing and recognition of stairs, with an emphasis on lightweight and efficient neural networks for onboard real-time inference. In this study, we present an overview of the development of our large-scale dataset with over 515,000 manually labeled images, as well as our development of different deep learning models (e.g., 2D and 3D CNN, hybrid CNN and LSTM, and ViT networks) and training methods (e.g., supervised learning with temporal data and semi-supervised learning with unlabeled images) using our new dataset. We consistently achieved high classification accuracy (i.e., up to 98.8%) with different designs, offering trade-offs between model accuracy and size. When deployed on mobile devices with GPU and NPU accelerators, our deep learning models achieved inference speeds up to 2.8 ms. We also deployed our models on custom-designed CPU-powered smart glasses. However, limitations in the embedded hardware yielded slower inference speeds of 1.5 seconds, presenting a trade-off between human-centered design and performance. Overall, we showed that StairNet can be an effective platform to develop and study new visual perception systems for human-robot locomotion with applications in exoskeleton and prosthetic leg control.

arxiv情報

著者 Andrew Garrett Kurbis,Dmytro Kuzmenko,Bogdan Ivanyuk-Skulskiy,Alex Mihailidis,Brokoslaw Laschowski
発行日 2023-10-31 17:30:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク