Simulator Ensembles for Trustworthy Autonomous Driving Testing

要約

運転シミュレータによるシナリオベースのテストは、自動運転支援システム(ADA)の故障条件を特定し、フィールド内の道路試験の量を減らすために広く使用されています。
ただし、既存の研究では、同じものと同様に異なるシミュレータでの繰り返しのテスト実行が異なる結果をもたらすことが示されています。これは、他の要因の中でも特に、物理学の異なる実装の原因に起因する可能性があります。
このホワイトペーパーでは、MultiSIMを紹介します。これは、シミュレーターのアンサンブルを活用して障害誘発性のシミュレーターと存在するテストシナリオを特定する検索ベースのテストアプローチに基づいた多サイムシミュレーションADASテストへの新しいアプローチです。
検索中、各シナリオは複数のシミュレータで共同で評価されます。
シミュレーター全体で一貫した結果を生成するシナリオは、さらなる調査のために優先順位を付けられますが、シミュレーターのサブセットのみで失敗するシナリオは、一般化可能な障害ではなくシミュレーター固有の問題を反映する可能性があるため、優先度が低くなります。
広く使用されている3つのシミュレータの異なるペアで深いニューラルネットワークベースのADAをテストすることを含む私たちのケーススタディは、マルチIMが平均してシミュレーターと存在する障害の割合が51%を達成することにより、単一シミュレーターテストを上回ることを示しています。
さまざまなシミュレーターで得られた独立したテスト生成キャンペーンの結果を組み合わせた最先端のマルチシミュレーターアプローチと比較して、マルチIMは、同等の妥当性率を示しながら、54%のシミュレーターに依存しない障害障害テストを識別します。
シミュレーターの意見の不一致を予測し、バイパス実行を予測するためにサロゲートモデルを活用するマルチシムの強化は、有効な障害の平均数を増やすだけでなく、最初の有効な障害を見つける効率を向上させます。

要約(オリジナル)

Scenario-based testing with driving simulators is extensively used to identify failing conditions of automated driving assistance systems (ADAS) and reduce the amount of in-field road testing. However, existing studies have shown that repeated test execution in the same as well as in distinct simulators can yield different outcomes, which can be attributed to sources of flakiness or different implementations of the physics, among other factors. In this paper, we present MultiSim, a novel approach to multi-simulation ADAS testing based on a search-based testing approach that leverages an ensemble of simulators to identify failure-inducing, simulator-agnostic test scenarios. During the search, each scenario is evaluated jointly on multiple simulators. Scenarios that produce consistent results across simulators are prioritized for further exploration, while those that fail on only a subset of simulators are given less priority, as they may reflect simulator-specific issues rather than generalizable failures. Our case study, which involves testing a deep neural network-based ADAS on different pairs of three widely used simulators, demonstrates that MultiSim outperforms single-simulator testing by achieving on average a higher rate of simulator-agnostic failures by 51%. Compared to a state-of-the-art multi-simulator approach that combines the outcome of independent test generation campaigns obtained in different simulators, MultiSim identifies 54% more simulator-agnostic failing tests while showing a comparable validity rate. An enhancement of MultiSim that leverages surrogate models to predict simulator disagreements and bypass executions does not only increase the average number of valid failures but also improves efficiency in finding the first valid failure.

arxiv情報

著者 Lev Sorokin,Matteo Biagiola,Andrea Stocco
発行日 2025-03-11 22:34:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SE | Simulator Ensembles for Trustworthy Autonomous Driving Testing はコメントを受け付けていません

FP3: A 3D Foundation Policy for Robotic Manipulation

要約

自然言語処理とコンピュータービジョンでの成功に続いて、大規模なマルチタスクデータセットで事前に訓練された基礎モデルも、ロボット工学の大きな可能性を示しています。
ただし、ほとんどの既存のロボットファンデーションモデルは、ロボットが3Dの世界について知覚し、推論するために不可欠な3D幾何情報情報を無視して、2D画像観測のみに依存しています。
この論文では、ロボット操作のための最初の大規模な3DファンデーションポリシーモデルであるFP3を紹介します。
FP3は、スケーラブルな拡散トランスアーキテクチャに基づいて構築されており、ポイントクラウドの観測を伴う60Kの軌跡で事前に訓練されています。
モデル設計と多様なトレーニング前のデータにより、FP3は、強力な一般化機能を示しながら、下流のタスクに効率的に微調整できます。
実際のロボットでの実験は、80のデモンストレーションのみで、FP3は目に見えないオブジェクトを持つ新しい環境で90%以上の成功率を持つ新しいタスクを学ぶことができ、既存のロボット基礎モデルを大幅に上回ることを示しています。

要約(オリジナル)

Following its success in natural language processing and computer vision, foundation models that are pre-trained on large-scale multi-task datasets have also shown great potential in robotics. However, most existing robot foundation models rely solely on 2D image observations, ignoring 3D geometric information, which is essential for robots to perceive and reason about the 3D world. In this paper, we introduce FP3, a first large-scale 3D foundation policy model for robotic manipulation. FP3 builds on a scalable diffusion transformer architecture and is pre-trained on 60k trajectories with point cloud observations. With the model design and diverse pre-training data, FP3 can be efficiently fine-tuned for downstream tasks while exhibiting strong generalization capabilities. Experiments on real robots demonstrate that with only 80 demonstrations, FP3 is able to learn a new task with over 90% success rates in novel environments with unseen objects, significantly surpassing existing robot foundation models.

arxiv情報

著者 Rujia Yang,Geng Chen,Chuan Wen,Yang Gao
発行日 2025-03-11 23:01:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | FP3: A 3D Foundation Policy for Robotic Manipulation はコメントを受け付けていません

Object-Pose Estimation With Neural Population Codes

要約

ロボットアセンブリタスクには、特に費用のかかる機械的制約を回避するタスクの場合、オブジェクトポーズの推定が必要です。
オブジェクトの対称性は、回転が曖昧になり、独自のトレーニングターゲットが欠けているため、オブジェクトの回転への感覚入力の直接マッピングを複雑にします。
提案されたソリューションには、入力に対する複数のポーズ仮説を評価するか、確率分布を予測することが含まれますが、これらのアプローチは重要な計算オーバーヘッドに悩まされています。
ここでは、神経集団コードでオブジェクトの回転を表すことがこれらの制限を克服し、回転とエンドツーエンドの学習への直接マッピングを可能にすることを示します。
その結果、人口コードは迅速かつ正確なポーズ推定を促進します。
T-Lessデータセットでは、Apple M1 CPUの3.2ミリ秒で推論を達成し、グレースケールの画像入力のみを使用して、直接マッピングにポーズをとると69.7%の精度と比較して、84.7%の最大対称性表面距離精度を84.7%に達成します。

要約(オリジナル)

Robotic assembly tasks require object-pose estimation, particularly for tasks that avoid costly mechanical constraints. Object symmetry complicates the direct mapping of sensory input to object rotation, as the rotation becomes ambiguous and lacks a unique training target. Some proposed solutions involve evaluating multiple pose hypotheses against the input or predicting a probability distribution, but these approaches suffer from significant computational overhead. Here, we show that representing object rotation with a neural population code overcomes these limitations, enabling a direct mapping to rotation and end-to-end learning. As a result, population codes facilitate fast and accurate pose estimation. On the T-LESS dataset, we achieve inference in 3.2 milliseconds on an Apple M1 CPU and a Maximum Symmetry-Aware Surface Distance accuracy of 84.7% using only gray-scale image input, compared to 69.7% accuracy when directly mapping to pose.

arxiv情報

著者 Heiko Hoffmann,Richard Hoffmann
発行日 2025-03-11 23:24:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Object-Pose Estimation With Neural Population Codes はコメントを受け付けていません

Guide-LLM: An Embodied LLM Agent and Text-Based Topological Map for Robotic Guidance of People with Visual Impairments

要約

ナビゲーションは、視覚障害のある人(PVI)に大きな課題を提示します。
白い杖や盲導犬などの伝統的な援助は非常に貴重ですが、それらは、希望の場所に詳細な空間情報と正確なガイダンスを提供するのが不足しています。
大規模な言語モデル(LLMS)およびビジョン言語モデル(VLM)の最近の開発は、支援ナビゲーションを強化するための新しい道を提供します。
この論文では、PVIが大きな屋内環境のナビゲートを支援するように設計された具体化されたLLMベースのエージェントであるGuide-LLMを紹介します。
私たちのアプローチは、LLMが単純化された環境表現を使用してグローバルパスを計画できるようにする新しいテキストベースのトポロジマップを特徴としています。
さらに、ユーザーの好みに基づいて、ハザード検出とパーソナライズされたパス計画のためのLLMの常識的な理由を利用しています。
シミュレートされた実験は、PVIの指導におけるシステムの有効性を示しており、支援技術の重要な進歩としての可能性を強調しています。
この結果は、この分野での有望な進歩を指摘して、効率的で適応的でパーソナライズされたナビゲーション支援を提供するガイド-LLMの能力を強調しています。

要約(オリジナル)

Navigation presents a significant challenge for persons with visual impairments (PVI). While traditional aids such as white canes and guide dogs are invaluable, they fall short in delivering detailed spatial information and precise guidance to desired locations. Recent developments in large language models (LLMs) and vision-language models (VLMs) offer new avenues for enhancing assistive navigation. In this paper, we introduce Guide-LLM, an embodied LLM-based agent designed to assist PVI in navigating large indoor environments. Our approach features a novel text-based topological map that enables the LLM to plan global paths using a simplified environmental representation, focusing on straight paths and right-angle turns to facilitate navigation. Additionally, we utilize the LLM’s commonsense reasoning for hazard detection and personalized path planning based on user preferences. Simulated experiments demonstrate the system’s efficacy in guiding PVI, underscoring its potential as a significant advancement in assistive technology. The results highlight Guide-LLM’s ability to offer efficient, adaptive, and personalized navigation assistance, pointing to promising advancements in this field.

arxiv情報

著者 Sangmim Song,Sarath Kodagoda,Amal Gunatilake,Marc G. Carmichael,Karthick Thiyagarajan,Jodi Martin
発行日 2025-03-11 23:45:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.RO | Guide-LLM: An Embodied LLM Agent and Text-Based Topological Map for Robotic Guidance of People with Visual Impairments はコメントを受け付けていません

ExBody2: Advanced Expressive Humanoid Whole-Body Control

要約

この論文は、全体的な安定性と堅牢性を維持しながら、現実世界のヒューマノイドロボットが表現力豊かで動的な全身の動きを実行できるようにするという課題に取り組んでいます。
高度な表現力豊かな全身制御(Exbody2)を提案します。これは、人間のモーションキャプチャとシミュレーションデータの両方でトレーニングされ、現実世界に転送される全身追跡コントローラーを生産する方法です。
体全体の速度追跡をボディランドマークの追跡から切り離す手法を紹介します。
教師ポリシーを使用して、ロボットの運動学によりよく適合し、実行不可能な全身の動きを自動的に除去する中間データを作成します。
この2段階のアプローチにより、歩き、しゃがみ、踊ることができるロボットに展開できる学生ポリシーを作成することができました。
また、汎用性と特定の動きの追跡性能とのトレードオフに関する洞察を提供します。
他のデータを犠牲にして、少量のデータを微調整した後、追跡パフォーマンスの大幅な改善が観察されました。

要約(オリジナル)

This paper tackles the challenge of enabling real-world humanoid robots to perform expressive and dynamic whole-body motions while maintaining overall stability and robustness. We propose Advanced Expressive Whole-Body Control (Exbody2), a method for producing whole-body tracking controllers that are trained on both human motion capture and simulated data and then transferred to the real world. We introduce a technique for decoupling the velocity tracking of the entire body from tracking body landmarks. We use a teacher policy to produce intermediate data that better conforms to the robot’s kinematics and to automatically filter away infeasible whole-body motions. This two-step approach enabled us to produce a student policy that can be deployed on the robot that can walk, crouch, and dance. We also provide insight into the trade-off between versatility and the tracking performance on specific motions. We observed significant improvement of tracking performance after fine-tuning on a small amount of data, at the expense of the others.

arxiv情報

著者 Mazeyu Ji,Xuanbin Peng,Fangchen Liu,Jialong Li,Ge Yang,Xuxin Cheng,Xiaolong Wang
発行日 2025-03-12 00:40:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | ExBody2: Advanced Expressive Humanoid Whole-Body Control はコメントを受け付けていません

TetraGrip: Sensor-Driven Multi-Suction Reactive Object Manipulation in Cluttered Scenes

要約

真空グリッパーを備えた倉庫ロボットシステムは、密集した棚から多様なオブジェクトを確実に把握する必要があります。
ただし、これらの環境には、閉塞、多様なオブジェクトの向き、積み重ねられた閉塞アイテム、吸引が困難な表面など、重要な課題があります。
線形アクチュエーターに取り付けられた4つの吸引カップを特徴とする新しい真空ベースの把握戦略である\ Tetraを紹介します。
各アクチュエータには、光学時間(TOF)近接センサーが装備されており、反応性の握りが可能になります。
倉庫スタイルの設定で\ tetraを評価し、積み重ねられた構成と妨害された構成でオブジェクトを操作する能力を実証します。
私たちの結果は、RLベースのポリシーが、積み上げられたオブジェクトシナリオでの成功を改善し、単一サクショングリッパーと比較して22.86 \%であることを示しています。
さらに、Tetragripは、特に2つのケースで、物理的な制限のために単一サンショングリッパーが失敗するシナリオでオブジェクトを正常に把握できることを実証します。
これらの調査結果は、構造化されていない倉庫環境でのマルチ作用型の吸引ベースの把握の利点を強調しています。
プロジェクトWebサイトは、\ href {https://tetragrip.github.io/} {https://tetragrip.github.io/}で入手できます。

要約(オリジナル)

Warehouse robotic systems equipped with vacuum grippers must reliably grasp a diverse range of objects from densely packed shelves. However, these environments present significant challenges, including occlusions, diverse object orientations, stacked and obstructed items, and surfaces that are difficult to suction. We introduce \tetra, a novel vacuum-based grasping strategy featuring four suction cups mounted on linear actuators. Each actuator is equipped with an optical time-of-flight (ToF) proximity sensor, enabling reactive grasping. We evaluate \tetra in a warehouse-style setting, demonstrating its ability to manipulate objects in stacked and obstructed configurations. Our results show that our RL-based policy improves picking success in stacked-object scenarios by 22.86\% compared to a single-suction gripper. Additionally, we demonstrate that TetraGrip can successfully grasp objects in scenarios where a single-suction gripper fails due to physical limitations, specifically in two cases: (1) picking an object occluded by another object and (2) retrieving an object in a complex scenario. These findings highlight the advantages of multi-actuated, suction-based grasping in unstructured warehouse environments. The project website is available at: \href{https://tetragrip.github.io/}{https://tetragrip.github.io/}.

arxiv情報

著者 Paolo Torrado,Joshua Levin,Markus Grotz,Joshua Smith
発行日 2025-03-12 00:53:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY | TetraGrip: Sensor-Driven Multi-Suction Reactive Object Manipulation in Cluttered Scenes はコメントを受け付けていません

Hierarchical Contact-Rich Trajectory Optimization for Multi-Modal Manipulation using Tight Convex Relaxations

要約

接触による操作のための軌跡の設計は、オブジェクト\&ロボットの軌跡と複雑な接触シーケンスの推論が同時に必要であるため、困難です。
この論文では、ロボット、オブジェクト、連絡先の軌跡を同時に設計するための新しいフレームワークを紹介し、接触が豊富な操作のために効率的に紹介します。
混合整数線形プログラム(MILP)が、近似動的制約を使用してロボット\&オブジェクト間で最適な接点を選択し、非線形プログラム(NLP)がロボットの軌道を最適化し、完全な非線形制約を想定するオブジェクトを最適化する階層最適化フレームワークを提案します。
MILPがより緊密なソリューションをより緊密な計算の複雑さで提供できるように、バイナリエンコーディング技術を使用して、双線形制約の凸緩和を提示します。
提案されたフレームワークは、計算上の利点を提供しながら、複雑なマルチコンタクト相互作用について推論できるさまざまな操作タスクで評価されます。
また、両手ロボットシステムを使用して、ハードウェア実験のフレームワークを実証します。
このペーパーとハードウェアの実験を要約するビデオは、https://youtu.be/s2s1eg5rsre?si=chpkftz_a3nahxlqにあります

要約(オリジナル)

Designing trajectories for manipulation through contact is challenging as it requires reasoning of object \& robot trajectories as well as complex contact sequences simultaneously. In this paper, we present a novel framework for simultaneously designing trajectories of robots, objects, and contacts efficiently for contact-rich manipulation. We propose a hierarchical optimization framework where Mixed-Integer Linear Program (MILP) selects optimal contacts between robot \& object using approximate dynamical constraints, and then a NonLinear Program (NLP) optimizes trajectory of the robot(s) and object considering full nonlinear constraints. We present a convex relaxation of bilinear constraints using binary encoding technique such that MILP can provide tighter solutions with better computational complexity. The proposed framework is evaluated on various manipulation tasks where it can reason about complex multi-contact interactions while providing computational advantages. We also demonstrate our framework in hardware experiments using a bimanual robot system. The video summarizing this paper and hardware experiments is found https://youtu.be/s2S1Eg5RsRE?si=chPkftz_a3NAHxLq

arxiv情報

著者 Yuki Shirai,Arvind Raghunathan,Devesh K. Jha
発行日 2025-03-12 01:43:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY | Hierarchical Contact-Rich Trajectory Optimization for Multi-Modal Manipulation using Tight Convex Relaxations はコメントを受け付けていません

Unified Locomotion Transformer with Simultaneous Sim-to-Real Transfer for Quadrupeds

要約

四足動物は、複雑な地形を横断する能力を急速に進歩させてきました。
ディープ補強学習(RL)、変圧器、およびさまざまな知識移転手法の採用により、SIMからリアルのギャップを大幅に減らすことができます。
ただし、既存の移動ポリシーで一般的に使用される古典的な教師と学生のフレームワークには、事前に訓練された教師が必要であり、学生ポリシーを導くために特権情報を活用します。
ロボット工学コントローラー、特に変圧器ベースのモデルに大規模なモデルが実装されているため、この知識蒸留技術は、複数の監視段階の要件により、効率の弱さを示し始めます。
このホワイトペーパーでは、特権情報を利用しながら、単一のネットワークでの知識移転とポリシーの最適化のプロセスを統合するための新しい変圧器ベースのフレームワークである統一された移動トランス(ULT)を提案します。
ポリシーは、強化学習、次の状態アクション予測、およびアクション模倣で最適化され、すべてが1つのトレーニング段階で、ゼロショットの展開を実現します。
評価の結果は、ULT、最適な教師と学生のポリシーを同時に取得できることを示しており、複雑な変圧器ベースのモデルであっても、知識移転の難しさを大幅に緩和することを示しています。

要約(オリジナル)

Quadrupeds have gained rapid advancement in their capability of traversing across complex terrains. The adoption of deep Reinforcement Learning (RL), transformers and various knowledge transfer techniques can greatly reduce the sim-to-real gap. However, the classical teacher-student framework commonly used in existing locomotion policies requires a pre-trained teacher and leverages the privilege information to guide the student policy. With the implementation of large-scale models in robotics controllers, especially transformers-based ones, this knowledge distillation technique starts to show its weakness in efficiency, due to the requirement of multiple supervised stages. In this paper, we propose Unified Locomotion Transformer (ULT), a new transformer-based framework to unify the processes of knowledge transfer and policy optimization in a single network while still taking advantage of privilege information. The policies are optimized with reinforcement learning, next state-action prediction, and action imitation, all in just one training stage, to achieve zero-shot deployment. Evaluation results demonstrate that with ULT, optimal teacher and student policies can be obtained at the same time, greatly easing the difficulty in knowledge transfer, even with complex transformer-based models.

arxiv情報

著者 Dikai Liu,Tianwei Zhang,Jianxiong Yin,Simon See
発行日 2025-03-12 02:15:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Unified Locomotion Transformer with Simultaneous Sim-to-Real Transfer for Quadrupeds はコメントを受け付けていません

Masked Sensory-Temporal Attention for Sensor Generalization in Quadruped Locomotion

要約

四足動物に焦点が当てられているため、さまざまなロボットモデルとセンサー入力を処理できる一般化ポリシーが非常に有益になります。
さまざまな形態に対処するためのいくつかの方法が提案されていますが、固有受容情報のさまざまな組み合わせを管理するための学習ベースのポリシーにとって課題のままです。
このペーパーでは、四足運動のためのマスキングを伴う新しい変圧器ベースのメカニズムであるマスクされた感覚的注意(MSTA)を紹介します。
センサーレベルの直接的な注意を採用して、感覚と時点の理解を高め、センサーデータのさまざまな組み合わせを処理し、目に見えない情報を組み込むための基盤として機能します。
MSTAは、不足している情報の大部分でも状態を効果的に理解でき、長い入力シーケンスにもかかわらず物理システムに展開するのに十分な柔軟性があります。

要約(オリジナル)

With the rising focus on quadrupeds, a generalized policy capable of handling different robot models and sensor inputs becomes highly beneficial. Although several methods have been proposed to address different morphologies, it remains a challenge for learning-based policies to manage various combinations of proprioceptive information. This paper presents Masked Sensory-Temporal Attention (MSTA), a novel transformer-based mechanism with masking for quadruped locomotion. It employs direct sensor-level attention to enhance the sensory-temporal understanding and handle different combinations of sensor data, serving as a foundation for incorporating unseen information. MSTA can effectively understand its states even with a large portion of missing information, and is flexible enough to be deployed on physical systems despite the long input sequence.

arxiv情報

著者 Dikai Liu,Tianwei Zhang,Jianxiong Yin,Simon See
発行日 2025-03-12 02:28:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Masked Sensory-Temporal Attention for Sensor Generalization in Quadruped Locomotion はコメントを受け付けていません

HumanoidPano: Hybrid Spherical Panoramic-LiDAR Cross-Modal Perception for Humanoid Robots

要約

ヒューマノイドロボットの知覚システム設計は、深刻な自己閉塞と限られた視野(FOV)を引き起こす固有の構造的制約のために、独特の課題をもたらします。
これらの限界を克服するためにパノラマビジョンとライダーセンシングを相乗的に統合する新しいハイブリッドクロスモーダル知覚フレームワークであるヒューマノイドパノを提示します。
単眼カメラや標準的なマルチセンサー構成に依存する従来のロボット認識システムとは異なり、この方法は、球面視覚変圧器を介して幾何学的に認識されたモダリティアライメントを確立し、Lidarの正確な深さ測定と360の視覚的コンテキストのシームレスな融合を可能にします。
第一に、球状の幾何学的制約(SGC)パノラマカメラレイプロパティを活用して、幾何学的アライメントのための歪み正規化サンプリングオフセットを導きます。
第二に、空間変形可能な注意(SDA)は、球形のオフセットを介して階層3D機能を集約し、幾何学的に完全なオブジェクト表現と効率的な360 {\ deg}からfusionを有効にします。
第三に、パノラマの増強(AUG)は、データ増強中のBEVパノラマの特徴の一貫性を強化するために、クロスビュー変換とセマンティックアライメントを組み合わせています。
広範な評価は、360Bev-Matterportベンチマークで最先端のパフォーマンスを示しています。
ヒューマノイドプラットフォームでの実際の展開は、システムの機能を検証して、複雑な環境でのダウンストリームナビゲーションタスクを直接有効にするパノラマライダーの共同認知を通じて、正確なBEVセグメンテーションマップを生成します。
私たちの仕事は、ヒューマノイドロボット工学における具体化された知覚のための新しいパラダイムを確立します。

要約(オリジナル)

The perceptual system design for humanoid robots poses unique challenges due to inherent structural constraints that cause severe self-occlusion and limited field-of-view (FOV). We present HumanoidPano, a novel hybrid cross-modal perception framework that synergistically integrates panoramic vision and LiDAR sensing to overcome these limitations. Unlike conventional robot perception systems that rely on monocular cameras or standard multi-sensor configurations, our method establishes geometrically-aware modality alignment through a spherical vision transformer, enabling seamless fusion of 360 visual context with LiDAR’s precise depth measurements. First, Spherical Geometry-aware Constraints (SGC) leverage panoramic camera ray properties to guide distortion-regularized sampling offsets for geometric alignment. Second, Spatial Deformable Attention (SDA) aggregates hierarchical 3D features via spherical offsets, enabling efficient 360{\deg}-to-BEV fusion with geometrically complete object representations. Third, Panoramic Augmentation (AUG) combines cross-view transformations and semantic alignment to enhance BEV-panoramic feature consistency during data augmentation. Extensive evaluations demonstrate state-of-the-art performance on the 360BEV-Matterport benchmark. Real-world deployment on humanoid platforms validates the system’s capability to generate accurate BEV segmentation maps through panoramic-LiDAR co-perception, directly enabling downstream navigation tasks in complex environments. Our work establishes a new paradigm for embodied perception in humanoid robotics.

arxiv情報

著者 Qiang Zhang,Zhang Zhang,Wei Cui,Jingkai Sun,Jiahang Cao,Yijie Guo,Gang Han,Wen Zhao,Jiaxu Wang,Chenghao Sun,Lingfeng Zhang,Hao Cheng,Yujie Chen,Lin Wang,Jian Tang,Renjing Xu
発行日 2025-03-12 02:59:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | HumanoidPano: Hybrid Spherical Panoramic-LiDAR Cross-Modal Perception for Humanoid Robots はコメントを受け付けていません