ARS548_ros. An ARS 548 RDI radar driver for ROS

要約

ARS 548 RDIレーダーは、デジタルビーム形成を提供する新しいRFアンテナアレイを備えた77 GHzの長距離レーダーセンサーの第5世代のプレミアムモデルです。
このレーダーは、新しい周波数変調を伴うパルス圧縮に基づいて、1つの測定サイクルに反射装置のないオブジェクトの距離、速度、角度を独立して測定します。
残念ながら、私たちの知る限り、ユーザーがセンサーによって取得されたデータを分析できるようにLinuxシステムが利用できるオープンソースドライバーはありません。
このペーパーでは、ARS 548 RDIセンサーのデータを解釈し、ロボットオペレーティングシステムバージョン1および2(ROSおよびROS2)で利用できるようにするドライバーを紹介します。
したがって、これらのデータは、ROSが提供する強力なツールを使用して、保存、表現、分析することができます。
さらに、ドライバーは、各オブジェクトの相対的な推定速度と加速度、その方向、角速度など、センサーが提供する高度なオブジェクト機能を提供します。
センサーの構成と、そのフィルタリングおよび表現ツールを含むドライバーの使用に焦点を当てます。
また、構成プロセスを支援するビデオチュートリアルを提供しています。
最後に、このセンサーとOSTER OS1-32 LIDARセンサーで取得したデータセットがベースライン測定を行い、ユーザーがドライバーの正確性を確認できるようにします。

要約(オリジナル)

The ARS 548 RDI Radar is a premium model of the fifth generation of 77 GHz long range radar sensors with new RF antenna arrays, which offer digital beam forming. This radar measures independently the distance, speed and angle of objects without any reflectors in one measurement cycle based on Pulse Compression with New Frequency Modulation. Unfortunately, to the best of our knowledge, there are no open source drivers available for Linux systems to enable users to analyze the data acquired by the sensor. In this paper, we present a driver that can interpret the data from the ARS 548 RDI sensor and make it available over the Robot Operating System versions 1 and 2 (ROS and ROS2). Thus, these data can be stored, represented, and analyzed using the powerful tools offered by ROS. Besides, our driver offers advanced object features provided by the sensor, such as relative estimated velocity and acceleration of each object, its orientation and angular velocity. We focus on the configuration of the sensor and the use of our driver including its filtering and representation tools. Besides, we offer a video tutorial to help in its configuration process. Finally, a dataset acquired with this sensor and an Ouster OS1-32 LiDAR sensor, to have baseline measurements, is available, so that the user can check the correctness of our driver.

arxiv情報

著者 Fernando Fernández-Calatayud,Lucía Coto-Elena,David Alejo,José J. Carpio-Jiménez,Fernando Caballero,Luis Merino
発行日 2025-02-10 10:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | ARS548_ros. An ARS 548 RDI radar driver for ROS はコメントを受け付けていません

A New Framework for Nonlinear Kalman Filters

要約

Kalman Filter(KF)は、システムの知識と測定を最適に組み合わせて推定状態の平均2乗誤差を最小限に抑える状態推定アルゴリズムです。
KFは最初は線形システム用に設計されていましたが、拡張カルマンフィルター(EKF)、無濃縮カルマンフィルター(UKF)、キューバチャカルマンフィルター(CKF)など、その多数の拡張機能が最後の60年間で非線形システム用に提案されています。
年。
異なるタイプの非線形KFには長所と短所が異なりますが、それらはすべて、線形KFの同じフレームワークを使用しています。
しかし、私たちの理論的および経験的分析によれば、このフレームワークは、測定関数が非線形である場合、過剰自信と正確な状態推定を与える傾向があります。
したがって、この研究では、既存のタイプの非線形KFと組み合わせることができる新しいフレームワークを設計し、新しいフレームワークが州と共分散を古いものよりも正確に推定することを理論的および経験的に示しました。
新しいフレームワークは、4つの異なる非線形KFと5つの異なるタスクでテストされ、低測定型条件で推定エラーを数桁減らす能力を示しました。

要約(オリジナル)

The Kalman filter (KF) is a state estimation algorithm that optimally combines system knowledge and measurements to minimize the mean squared error of the estimated states. While KF was initially designed for linear systems, numerous extensions of it, such as extended Kalman filter (EKF), unscented Kalman filter (UKF), cubature Kalman filter (CKF), etc., have been proposed for nonlinear systems over the last sixty years. Although different types of nonlinear KFs have different pros and cons, they all use the same framework of linear KF. Yet, according to our theoretical and empirical analysis, the framework tends to give overconfident and less accurate state estimations when the measurement functions are nonlinear. Therefore, in this study, we designed a new framework that can be combined with any existing type of nonlinear KFs and showed theoretically and empirically that the new framework estimates the states and covariance more accurately than the old one. The new framework was tested on four different nonlinear KFs and five different tasks, showcasing its ability to reduce estimation errors by several orders of magnitude in low-measurement-noise conditions.

arxiv情報

著者 Shida Jiang,Junzhe Shi,Scott Moura
発行日 2025-02-10 11:04:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SP, eess.SY | A New Framework for Nonlinear Kalman Filters はコメントを受け付けていません

Occlusion-Aware Contingency Safety-Critical Planning for Autonomous Vehicles

要約

動的および閉塞された環境で自動運転車の旅行効率を維持しながら安全な運転を確保することは、重大な課題です。
このペーパーでは、このような環境でのリアルタイムの自律運転のための咬合を意識した偶発的偶発性安全性の批判的な計画アプローチを提案します。
リスク評価のリーチビリティ分析を活用し、閉塞性ファントム車両の前方に到達可能なセットが計算され、動的速度境界が定量化されます。
これらの速度境界は、バイコンベックスの非線形プログラミング(NLP)の定式化に組み込まれ、後退地平線計画フレームワーク内で探査とフォールバックの軌跡の同時最適化を可能にします。
リアルタイムの最適化を促進し、軌道間の調整を確保するために、コンセンサス交互方向の乗数(ADMM)を使用して、バイコンベックスNLP問題を低次元の凸のサブ問題に分解します。
提案されたアプローチの有効性は、閉塞された交差点でのシミュレーション研究と実際の実験を通じて検証されます。
実験結果は、安全性の向上と移動効率の向上を示し、さまざまな障害物条件下での動的閉塞交差でリアルタイムの安全な軌道生成を可能にします。
実験結果を紹介するビデオは、https://youtu.be/chayg7nchqmで入手できます。

要約(オリジナル)

Ensuring safe driving while maintaining travel efficiency for autonomous vehicles in dynamic and occluded environments is a critical challenge. This paper proposes an occlusion-aware contingency safety-critical planning approach for real-time autonomous driving in such environments. Leveraging reachability analysis for risk assessment, forward reachable sets of occluded phantom vehicles are computed to quantify dynamic velocity boundaries. These velocity boundaries are incorporated into a biconvex nonlinear programming (NLP) formulation, enabling simultaneous optimization of exploration and fallback trajectories within a receding horizon planning framework. To facilitate real-time optimization and ensure coordination between trajectories, we employ the consensus alternating direction method of multipliers (ADMM) to decompose the biconvex NLP problem into low-dimensional convex subproblems. The effectiveness of the proposed approach is validated through simulation studies and real-world experiments in occluded intersections. Experimental results demonstrate enhanced safety and improved travel efficiency, enabling real-time safe trajectory generation in dynamic occluded intersections under varying obstacle conditions. A video showcasing the experimental results is available at https://youtu.be/CHayG7NChqM.

arxiv情報

著者 Lei Zheng,Rui Yang,Minzhe Zheng,Zengqi Peng,Michael Yu Wang,Jun Ma
発行日 2025-02-10 11:20:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Occlusion-Aware Contingency Safety-Critical Planning for Autonomous Vehicles はコメントを受け付けていません

Weld n’Cut: Automated fabrication of inflatable fabric actuators

要約

軽量で耐久性のある繊維ベースのインフレータブルソフトアクチュエーターは、特にリハビリテーションのウェアラブルロボットや、要求の厳しい仕事で人間のパフォーマンスを向上させるために、ソフトロボット工学で広く使用されています。
これらのアクチュエーターを製造するには、通常、複数のステップが含まれます。ヒートシールファブリックはヒートプレスと融合し、非焦げたマスキング層が内部チャンバーを定義します。
これらのレイヤーは、事前に慎重に除去する必要があり、多くの場合、プロセスが労働集約的でエラーが発生しやすくなります。
これらの課題に対処し、インフレータブルアクチュエーターの精度とパフォーマンスを向上させるために、溶接n’cutプラットフォーム – オープンソースの自動製造プロセスを紹介します。
複雑なインフレータブル構造の。
任意に複雑な幾何学を備えたさまざまな材料と設計にわたるマシンのパフォーマンスを示します。

要約(オリジナル)

Lightweight, durable textile-based inflatable soft actuators are widely used in soft robotics, particularly for wearable robots in rehabilitation and in enhancing human performance in demanding jobs. Fabricating these actuators typically involves multiple steps: heat-sealable fabrics are fused with a heat press, and non-stick masking layers define internal chambers. These layers must be carefully removed post-fabrication, often making the process labor-intensive and prone to errors. To address these challenges and improve the accuracy and performance of inflatable actuators, we introduce the Weld n’Cut platform-an open-source, automated manufacturing process that combines ultrasonic welding for fusing textile layers with an oscillating knife for precise cuts, enabling the creation of complex inflatable structures. We demonstrate the machine’s performance across various materials and designs with arbitrarily complex geometries.

arxiv情報

著者 Arman Goshtasbi,Burcu Seyidoğlu,Saravana Prashanth Murali Babu,Aida Parvaresh,Cao Danh Do,Ahmad Rafsanjani
発行日 2025-02-10 11:25:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Weld n’Cut: Automated fabrication of inflatable fabric actuators はコメントを受け付けていません

Proprioceptive Origami Manipulator

要約

折り紙は、折り畳みのジオメトリを活用することにより、形成可能な構造とソフトロボットを設計するための多目的なフレームワークを提供します。
管状折り紙構造は、柔軟性と強度のバランスをとる連続操作剤として機能します。
ただし、このようなマニピュレーターの正確な制御には、複雑で乱雑な環境でのアプリケーションを制限する視覚ベースのシステムに依存する必要があります。
ここでは、柔軟性を損なうことなく、固有受容腱駆動型の折り紙マニピュレーターを提案します。
導電性スレッドを作動する腱として使用して、固有受容センシング能力でそれらを多重化します。
腱の活性長の変化は、単純な回路で測定できる有効抵抗に反映されます。
耐性の変化は、腱の長さに対する変化を相関させました。
この情報をフォワードキネマティックモデルに入力して、マニピュレーターの構成とエンドエフェクターの位置を再構築します。
このプラットフォームは、固有の柔軟性を維持しながら、連続折り紙マニピュレーターの閉ループ制御の基礎を提供します。

要約(オリジナル)

Origami offers a versatile framework for designing morphable structures and soft robots by exploiting the geometry of folds. Tubular origami structures can act as continuum manipulators that balance flexibility and strength. However, precise control of such manipulators often requires reliance on vision-based systems that limit their application in complex and cluttered environments. Here, we propose a proprioceptive tendon-driven origami manipulator without compromising its flexibility. Using conductive threads as actuating tendons, we multiplex them with proprioceptive sensing capabilities. The change in the active length of the tendons is reflected in their effective resistance, which can be measured with a simple circuit. We correlated the change in the resistance to the lengths of the tendons. We input this information into a forward kinematic model to reconstruct the manipulator configuration and end-effector position. This platform provides a foundation for the closed-loop control of continuum origami manipulators while preserving their inherent flexibility.

arxiv情報

著者 Aida Parvaresh,Arman Goshtasbi,Jonathan Andres Tirado Rosero,Ahmad Rafsanjani
発行日 2025-02-10 11:29:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Proprioceptive Origami Manipulator はコメントを受け付けていません

RESC: A Reinforcement Learning Based Search-to-Control Framework for Quadrotor Local Planning in Dense Environments

要約

複雑な環境でのアジャイル飛行は、現在のモーション計画方法に大きな課題をもたらします。多くの場合、四肢装置の動的ポテンシャルを完全に活用できず、積極的な操作中にパフォーマンスの障害と効率の低下につながります。
、積極的で実行可能な動きを生成する能力をさらに制限します。これらの課題に対処するために、視認性パス検索と補強学習(RL)制御生成を統合する強化された検索対制御計画フレームワークを導入し、ダイナミクスとギャップのブリッジを直接説明します。
計画と制御の間。私の方法は、提案されたヒューリスティック検索を使用して衝突のないパスから最初にコントロールポイントを抽出します。これは、RLポリシーによって洗練され、象限コントローラーの低レベルのコントロールコマンドを生成し、効率的な次元障害物観測を利用して効率的な障害物観測を利用します。
軽量のニューラルネットワークへの推論。シミュレーションと実際の実験を通じてフレームワークを検証し、既存の方法と比較して時間の効率と動的操作性の向上を実証し、その堅牢性と適用性を確認します。

要約(オリジナル)

Agile flight in complex environments poses significant challenges to current motion planning methods, as they often fail to fully leverage the quadrotor dynamic potential, leading to performance failures and reduced efficiency during aggressive maneuvers.Existing approaches frequently decouple trajectory optimization from control generation and neglect the dynamics, further limiting their ability to generate aggressive and feasible motions.To address these challenges, we introduce an enhanced Search-to-Control planning framework that integrates visibility path searching with reinforcement learning (RL) control generation, directly accounting for dynamics and bridging the gap between planning and control.Our method first extracts control points from collision-free paths using a proposed heuristic search, which are then refined by an RL policy to generate low-level control commands for the quadrotor controller, utilizing reduced-dimensional obstacle observations for efficient inference with lightweight neural networks.We validate the framework through simulations and real-world experiments, demonstrating improved time efficiency and dynamic maneuverability compared to existing methods, while confirming its robustness and applicability.

arxiv情報

著者 Zhaohong Liu,Wenxuan Gao,Yinshuai Sun,Peng Dong
発行日 2025-02-10 12:11:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | RESC: A Reinforcement Learning Based Search-to-Control Framework for Quadrotor Local Planning in Dense Environments はコメントを受け付けていません

An Automated Machine Learning Framework for Surgical Suturing Action Detection under Class Imbalance

要約

腹腔鏡検査の外科的トレーニングと評価では、解釈可能な出力による外科的作用のリアルタイム検出は、自動化されたリアルタイムの教育フィードバックとスキル開発に不可欠です。
このような機能により、マシンガイド付きトレーニングシステムの開発が可能になります。
このペーパーでは、経験豊富な外科医と研修生の両方から収集された外科的行動データに基づいて、自動化された機械学習方法を利用した迅速な展開アプローチを紹介します。
提案されたアプローチは、非常に不均衡なクラス分布の課題に効果的に取り組み、さまざまなスキルレベルの外科医にわたって堅牢な予測を確保します。
さらに、この方法にはモデルの透明性が部分的に組み込まれており、医療用途の信頼性要件に対処します。
ディープラーニングアプローチと比較して、従来の機械学習モデルは、効率的な迅速な展開を促進するだけでなく、解釈可能性にも大きな利点を提供します。
実験を通じて、この研究は、外科訓練環境で迅速で信頼性の高い効果的なリアルタイム検出を提供するこのアプローチの可能性を示しています

要約(オリジナル)

In laparoscopy surgical training and evaluation, real-time detection of surgical actions with interpretable outputs is crucial for automated and real-time instructional feedback and skill development. Such capability would enable development of machine guided training systems. This paper presents a rapid deployment approach utilizing automated machine learning methods, based on surgical action data collected from both experienced and trainee surgeons. The proposed approach effectively tackles the challenge of highly imbalanced class distributions, ensuring robust predictions across varying skill levels of surgeons. Additionally, our method partially incorporates model transparency, addressing the reliability requirements in medical applications. Compared to deep learning approaches, traditional machine learning models not only facilitate efficient rapid deployment but also offer significant advantages in interpretability. Through experiments, this study demonstrates the potential of this approach to provide quick, reliable and effective real-time detection in surgical training environments

arxiv情報

著者 Baobing Zhang,Paul Sullivan,Benjie Tang,Ghulam Nabi,Mustafa Suphi Erden
発行日 2025-02-10 12:47:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | An Automated Machine Learning Framework for Surgical Suturing Action Detection under Class Imbalance はコメントを受け付けていません

Occ-LLM: Enhancing Autonomous Driving with Occupancy-Based Large Language Models

要約

大規模な言語モデル(LLM)は、ロボットおよび自律運転の分野で実質的な進歩を遂げました。
この研究では、LLMを重要な表現と統合するための先駆的な努力を表す、最初の占有ベースの大手言語モデル(OCC-LLM)を紹介します。
LLMの入力として占有率を効果的にエンコードし、占有に関連するカテゴリの不均衡に対処するために、モーション分離変分変異自動エンコーダー(MS-VAE)を提案します。
この革新的なアプローチは、前の知識を利用して、動的なオブジェクトを静的シーンと区別する前に、調整された変異オートエンコーダー(VAE)に入力します。
この分離は、静的シーンを効果的に再構築しながら、動的な軌跡に集中するモデルの能力を高めます。
OCC-LLMの有効性は、4D占有予測、自己エゴ計画、占有ベースのシーンの質問応答など、重要なタスク全体で検証されています。
包括的な評価は、OCC-LLMが既存の最先端の方法論を大幅に上回り、4Dのタスクのために組合(IOU)上の交差点(IOU)で約6 \%、ユニオン上の平均交差(MIOU)で4 \%の利益を達成することを示しています。
占有予測。
これらの発見は、ロボットおよび自律運転内の現在のパラダイムを再構築する際のOCC-LLMの変革の可能性を強調しています。

要約(オリジナル)

Large Language Models (LLMs) have made substantial advancements in the field of robotic and autonomous driving. This study presents the first Occupancy-based Large Language Model (Occ-LLM), which represents a pioneering effort to integrate LLMs with an important representation. To effectively encode occupancy as input for the LLM and address the category imbalances associated with occupancy, we propose Motion Separation Variational Autoencoder (MS-VAE). This innovative approach utilizes prior knowledge to distinguish dynamic objects from static scenes before inputting them into a tailored Variational Autoencoder (VAE). This separation enhances the model’s capacity to concentrate on dynamic trajectories while effectively reconstructing static scenes. The efficacy of Occ-LLM has been validated across key tasks, including 4D occupancy forecasting, self-ego planning, and occupancy-based scene question answering. Comprehensive evaluations demonstrate that Occ-LLM significantly surpasses existing state-of-the-art methodologies, achieving gains of about 6\% in Intersection over Union (IoU) and 4\% in mean Intersection over Union (mIoU) for the task of 4D occupancy forecasting. These findings highlight the transformative potential of Occ-LLM in reshaping current paradigms within robotic and autonomous driving.

arxiv情報

著者 Tianshuo Xu,Hao Lu,Xu Yan,Yingjie Cai,Bingbing Liu,Yingcong Chen
発行日 2025-02-10 12:55:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Occ-LLM: Enhancing Autonomous Driving with Occupancy-Based Large Language Models はコメントを受け付けていません

SIGMA: Sheaf-Informed Geometric Multi-Agent Pathfinding

要約

Multi-Agent Path Finding(MAPF)問題は、既知の潜在的に障害物に満ちた環境で、複数のエージェントの最短かつ衝突のないパスを決定することを目的としています。
これは、大規模なロジスティクスと輸送におけるロボット展開の中心的な課題です。
分散化された学習ベースのアプローチは、MAPFの問題に対処するための大きな可能性を示しており、より反応的でスケーラブルなソリューションを提供します。
ただし、既存の学習ベースのMAPFメソッドは、通常、限られた視野(FOV)に基づいて意思決定を行うエージェントに依存しており、複雑なシナリオで近視のポリシーと非効率的な協力をもたらします。
そこで、重要な課題は、限られた観測と通信に基づいて、エージェント間の潜在的な動きに関するコンセンサスを達成することです。
この課題に取り組むために、Sheaf理論を分散型の深い強化学習に適用する新しいフレームワークを紹介し、エージェントが地元のコンセンサスを通じて互いの間の幾何学的相互依存性を学び、緊密に協力的な意思決定のためにそれらを利用できるようにします。
特に、束の理論は、局所的な観察を通じてグローバルなコンセンサスを達成するための数学的な条件の証明を提供します。
これに触発されて、ニューラルネットワークを組み込み、束の理論に基づいて潜在空間のコンセンサスをほぼモデル化し、自己教師の学習を通じて訓練します。
タスク中、以前の作品のようにMAPFの通常の機能に加えて、各エージェントは学習したコンセンサス機能について分配されています。
その結果、提案された方法は、特に比較的大きく複雑なシナリオで、最先端の学習ベースのMAPFプランナーよりも大幅な改善を実証し、さまざまなシミュレーションや実世界のロボット実験のベースラインに対する優位性を示しています。

要約(オリジナル)

The Multi-Agent Path Finding (MAPF) problem aims to determine the shortest and collision-free paths for multiple agents in a known, potentially obstacle-ridden environment. It is the core challenge for robotic deployments in large-scale logistics and transportation. Decentralized learning-based approaches have shown great potential for addressing the MAPF problems, offering more reactive and scalable solutions. However, existing learning-based MAPF methods usually rely on agents making decisions based on a limited field of view (FOV), resulting in short-sighted policies and inefficient cooperation in complex scenarios. There, a critical challenge is to achieve consensus on potential movements between agents based on limited observations and communications. To tackle this challenge, we introduce a new framework that applies sheaf theory to decentralized deep reinforcement learning, enabling agents to learn geometric cross-dependencies between each other through local consensus and utilize them for tightly cooperative decision-making. In particular, sheaf theory provides a mathematical proof of conditions for achieving global consensus through local observation. Inspired by this, we incorporate a neural network to approximately model the consensus in latent space based on sheaf theory and train it through self-supervised learning. During the task, in addition to normal features for MAPF as in previous works, each agent distributedly reasons about a learned consensus feature, leading to efficient cooperation on pathfinding and collision avoidance. As a result, our proposed method demonstrates significant improvements over state-of-the-art learning-based MAPF planners, especially in relatively large and complex scenarios, demonstrating its superiority over baselines in various simulations and real-world robot experiments.

arxiv情報

著者 Shuhao Liao,Weihang Xia,Yuhong Cao,Weiheng Dai,Chengyang He,Wenjun Wu,Guillaume Sartoretti
発行日 2025-02-10 13:17:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO | SIGMA: Sheaf-Informed Geometric Multi-Agent Pathfinding はコメントを受け付けていません

EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation

要約

具体化された空間を構築および解釈する生成的ロボティクスファンデーションモデルであるEnerverseを紹介します。
Enerverseは、長期的な推論のためにまばらなコンテキストメモリによって強化された、指示から将来の具体化された空間を予測するために、自動網性ビデオ拡散フレームワークを採用しています。
3Dロボットの世界をモデル化するために、無料のアンカービュー(FAV)を提案します。これは、モーションのあいまいさや環境制約などの課題に対処するための柔軟でタスクに適した視点を提供するマルチビュービデオ表現です。
さらに、生成モデルと4Dガウスのスプラッティングを組み合わせたデータエンジンパイプラインであるEnerverse-Dを提示し、SIMからRealのギャップを減らすために自己強化データループを形成します。
これらの革新を活用して、Enerverseは4Dの世界表現をポリシーヘッド(Enerverse-A)を介して物理的行動に変換し、ロボットがタスク命令を実行できるようにします。
Enerverse-Aは、シミュレーションと現実世界の両方の設定の両方で最先端のパフォーマンスを実現します。

要約(オリジナル)

We introduce EnerVerse, a generative robotics foundation model that constructs and interprets embodied spaces. EnerVerse employs an autoregressive video diffusion framework to predict future embodied spaces from instructions, enhanced by a sparse context memory for long-term reasoning. To model the 3D robotics world, we propose Free Anchor Views (FAVs), a multi-view video representation offering flexible, task-adaptive perspectives to address challenges like motion ambiguity and environmental constraints. Additionally, we present EnerVerse-D, a data engine pipeline combining the generative model with 4D Gaussian Splatting, forming a self-reinforcing data loop to reduce the sim-to-real gap. Leveraging these innovations, EnerVerse translates 4D world representations into physical actions via a policy head (EnerVerse-A), enabling robots to execute task instructions. EnerVerse-A achieves state-of-the-art performance in both simulation and real-world settings.

arxiv情報

著者 Siyuan Huang,Liliang Chen,Pengfei Zhou,Shengcong Chen,Zhengkai Jiang,Yue Hu,Yue Liao,Peng Gao,Hongsheng Li,Maoqing Yao,Guanghui Ren
発行日 2025-02-10 13:36:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation はコメントを受け付けていません