HumanoidPano: Hybrid Spherical Panoramic-LiDAR Cross-Modal Perception for Humanoid Robots

要約

ヒューマノイドロボットの知覚システム設計は、深刻な自己閉塞と限られた視野(FOV)を引き起こす固有の構造的制約のために、独特の課題をもたらします。
これらの限界を克服するためにパノラマビジョンとライダーセンシングを相乗的に統合する新しいハイブリッドクロスモーダル知覚フレームワークであるヒューマノイドパノを提示します。
単眼カメラや標準的なマルチセンサー構成に依存する従来のロボット認識システムとは異なり、この方法は、球面視覚変圧器を介して幾何学的に認識されたモダリティアライメントを確立し、Lidarの正確な深さ測定と360の視覚的コンテキストのシームレスな融合を可能にします。
第一に、球状の幾何学的制約(SGC)パノラマカメラレイプロパティを活用して、幾何学的アライメントのための歪み正規化サンプリングオフセットを導きます。
第二に、空間変形可能な注意(SDA)は、球形のオフセットを介して階層3D機能を集約し、幾何学的に完全なオブジェクト表現と効率的な360 {\ deg}からfusionを有効にします。
第三に、パノラマの増強(AUG)は、データ増強中のBEVパノラマの特徴の一貫性を強化するために、クロスビュー変換とセマンティックアライメントを組み合わせています。
広範な評価は、360Bev-Matterportベンチマークで最先端のパフォーマンスを示しています。
ヒューマノイドプラットフォームでの実際の展開は、システムの機能を検証して、複雑な環境でのダウンストリームナビゲーションタスクを直接有効にするパノラマライダーの共同認知を通じて、正確なBEVセグメンテーションマップを生成します。
私たちの仕事は、ヒューマノイドロボット工学における具体化された知覚のための新しいパラダイムを確立します。

要約(オリジナル)

The perceptual system design for humanoid robots poses unique challenges due to inherent structural constraints that cause severe self-occlusion and limited field-of-view (FOV). We present HumanoidPano, a novel hybrid cross-modal perception framework that synergistically integrates panoramic vision and LiDAR sensing to overcome these limitations. Unlike conventional robot perception systems that rely on monocular cameras or standard multi-sensor configurations, our method establishes geometrically-aware modality alignment through a spherical vision transformer, enabling seamless fusion of 360 visual context with LiDAR’s precise depth measurements. First, Spherical Geometry-aware Constraints (SGC) leverage panoramic camera ray properties to guide distortion-regularized sampling offsets for geometric alignment. Second, Spatial Deformable Attention (SDA) aggregates hierarchical 3D features via spherical offsets, enabling efficient 360{\deg}-to-BEV fusion with geometrically complete object representations. Third, Panoramic Augmentation (AUG) combines cross-view transformations and semantic alignment to enhance BEV-panoramic feature consistency during data augmentation. Extensive evaluations demonstrate state-of-the-art performance on the 360BEV-Matterport benchmark. Real-world deployment on humanoid platforms validates the system’s capability to generate accurate BEV segmentation maps through panoramic-LiDAR co-perception, directly enabling downstream navigation tasks in complex environments. Our work establishes a new paradigm for embodied perception in humanoid robotics.

arxiv情報

著者 Qiang Zhang,Zhang Zhang,Wei Cui,Jingkai Sun,Jiahang Cao,Yijie Guo,Gang Han,Wen Zhao,Jiaxu Wang,Chenghao Sun,Lingfeng Zhang,Hao Cheng,Yujie Chen,Lin Wang,Jian Tang,Renjing Xu
発行日 2025-03-13 03:42:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク