Dynamic High-Order Control Barrier Functions with Diffuser for Safety-Critical Trajectory Planning at Signal-Free Intersections

要約

信号のない交差点を介した安全で効率的な軌道を計画することは、特に予測不可能な相互作用と紛争の可能性が高まる動的なマルチタスク環境で、自律車(AVS)に重大な課題をもたらします。
この研究の目的は、3つの異なる交差点の動きにわたる安全性と効率性を確保するために、統一された堅牢な適応型フレームワークを開発することにより、これらの課題に対処することを目的としています。
既存の方法は、安全性を確保し、そのような環境でのデモンストレーションからマルチタスクの動作を効果的に学習するために、しばしば苦労しています。
この研究は、動的な高次制御バリア関数(DHOCBF)を、動的安全性批判ディフューザー(DSC-Diffuser)と呼ばれる拡散ベースのモデルと統合する安全性批判的な計画方法を提案します。
DSC-Diffuserは、効率を向上させるためにタスク誘導計画を活用し、実際の専門家デモンストレーションから複数の運転タスクの同時学習を可能にします。
さらに、目標指向の制約を組み込むと、変位エラーが大幅に減少し、正確な軌跡の実行が確保されます。
動的環境での安全性をさらに確保するために、提案されたDHOCBFフレームワークは、周囲の車両の動きを説明するように動的に調整され、従来の制御バリア機能と比較して適応性が向上し、保守主義を減らします。
数値シミュレーションを通じて実施されるDHOCBFの妥当性評価は、障害物の速度、サイズ、不確実性、および場所の変動に適応する際にその堅牢性を示し、幅広い複雑で不確実なシナリオの運転安全性を効果的に維持します。
包括的なパフォーマンス評価は、DSC-Diffuserが現実的で安定した一般化可能なポリシーを生成し、複雑なマルチタスク運転シナリオで柔軟性と信頼できる安全保証を提供することを示しています。

要約(オリジナル)

Planning safe and efficient trajectories through signal-free intersections presents significant challenges for autonomous vehicles (AVs), particularly in dynamic, multi-task environments with unpredictable interactions and an increased possibility of conflicts. This study aims to address these challenges by developing a unified, robust, adaptive framework to ensure safety and efficiency across three distinct intersection movements: left-turn, right-turn, and straight-ahead. Existing methods often struggle to reliably ensure safety and effectively learn multi-task behaviors from demonstrations in such environments. This study proposes a safety-critical planning method that integrates Dynamic High-Order Control Barrier Functions (DHOCBF) with a diffusion-based model, called Dynamic Safety-Critical Diffuser (DSC-Diffuser). The DSC-Diffuser leverages task-guided planning to enhance efficiency, allowing the simultaneous learning of multiple driving tasks from real-world expert demonstrations. Moreover, the incorporation of goal-oriented constraints significantly reduces displacement errors, ensuring precise trajectory execution. To further ensure driving safety in dynamic environments, the proposed DHOCBF framework dynamically adjusts to account for the movements of surrounding vehicles, offering enhanced adaptability and reduce the conservatism compared to traditional control barrier functions. Validity evaluations of DHOCBF, conducted through numerical simulations, demonstrate its robustness in adapting to variations in obstacle velocities, sizes, uncertainties, and locations, effectively maintaining driving safety across a wide range of complex and uncertain scenarios. Comprehensive performance evaluations demonstrate that DSC-Diffuser generates realistic, stable, and generalizable policies, providing flexibility and reliable safety assurance in complex multi-task driving scenarios.

arxiv情報

著者 Di Chen,Ruiguo Zhong,Kehua Chen,Zhiwei Shang,Meixin Zhu,Edward Chung
発行日 2025-03-31 08:57:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY | Dynamic High-Order Control Barrier Functions with Diffuser for Safety-Critical Trajectory Planning at Signal-Free Intersections はコメントを受け付けていません

GenSwarm: Scalable Multi-Robot Code-Policy Generation and Deployment via Language Models

要約

マルチロボットシステムの制御ポリシーの開発は、従来、複雑で労働集約的なプロセスに従っており、多くの場合、動的タスクに適応する柔軟性が欠けています。
これにより、制御ポリシーを自動的に作成する方法に関する研究が動機付けられています。
ただし、これらの方法では、手動で客観的機能を作成および改良するための反復プロセスが必要であり、それにより開発サイクルが長くなります。
この作業では、大規模な言語モデルを活用して自然言語の単純なユーザー命令に基づいてマルチロボットタスクの制御ポリシーを自動的に生成および展開するエンドツーエンドシステムである\ textit {genswarm}を導入します。
多言語のエージェントシステムとして、Genswarmはゼロショット学習を達成し、変更または目に見えないタスクに迅速に適応できるようにします。
コードポリシーのホワイトボックスの性質により、強い再現性と解釈可能性が保証されます。
スケーラブルなソフトウェアとハ​​ードウェアアーキテクチャにより、Genswarmは、シミュレートされたマルチロボットシステムと実世界の両方のマルチロボットシステムの効率的なポリシー展開をサポートし、ロボット工学の専門家と非専門家にとって価値があることを証明できるエンドツーエンドの機能を実現します。

要約(オリジナル)

The development of control policies for multi-robot systems traditionally follows a complex and labor-intensive process, often lacking the flexibility to adapt to dynamic tasks. This has motivated research on methods to automatically create control policies. However, these methods require iterative processes of manually crafting and refining objective functions, thereby prolonging the development cycle. This work introduces \textit{GenSwarm}, an end-to-end system that leverages large language models to automatically generate and deploy control policies for multi-robot tasks based on simple user instructions in natural language. As a multi-language-agent system, GenSwarm achieves zero-shot learning, enabling rapid adaptation to altered or unseen tasks. The white-box nature of the code policies ensures strong reproducibility and interpretability. With its scalable software and hardware architectures, GenSwarm supports efficient policy deployment on both simulated and real-world multi-robot systems, realizing an instruction-to-execution end-to-end functionality that could prove valuable for robotics specialists and non-specialists alike.The code of the proposed GenSwarm system is available online: https://github.com/WindyLab/GenSwarm.

arxiv情報

著者 Wenkang Ji,Huaben Chen,Mingyang Chen,Guobin Zhu,Lufeng Xu,Roderich Groß,Rui Zhou,Ming Cao,Shiyu Zhao
発行日 2025-03-31 09:26:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO | GenSwarm: Scalable Multi-Robot Code-Policy Generation and Deployment via Language Models はコメントを受け付けていません

ZeroMimic: Distilling Robotic Manipulation Skills from Web Videos

要約

ロボット操作における最近の多くの進歩は、模倣学習を通じてもたらされていますが、これらは主に特に困難な形のデモンストレーションを模倣することに依存しています。訓練されたポリシーと同じオブジェクトを持つ同じ部屋の同じロボットで収集されたものは、テスト時に処理する必要があります。
対照的に、ロボットの貴重な情報を含む、野生の操作スキルを示す、大規模な事前に記録された人間のビデオデータセットがすでに存在しています。
ロボット固有のデモや探索に関する追加要件なしに、そのようなデータから有用なロボットスキルポリシーのリポジトリを蒸留することは可能ですか?
最初のシステムゼロミミックを提示します。これは、多様なオブジェクトに作用し、多様な目に見えないタスクセットアップ全体に作用できる、いくつかの一般的なカテゴリの操作タスク(開閉、閉鎖、注入、ピック、および攪拌)のために、すぐに展開可能な画像の目標条件付けされたスキルポリシーを生成します。
Zeromimicは、最新の把握アフォーダンス検出器と模倣ポリシークラスとともに、人間のビデオのセマンティックおよび幾何学的な視覚的理解における最近の進歩を活用するように慎重に設計されています。
自我中心の人間のビデオの人気のエピキッチンデータセットでゼロミミックをトレーニングした後、さまざまな現実世界とシミュレートされたキッチン設定でのすぐにボックスのパフォーマンスを評価し、2つの異なるロボット実施形態を備えたシミュレートされたキッチン設定を評価し、これらのさまざまなタスクを処理する印象的な能力を示します。
他のタスクのセットアップやロボットでゼロミミックポリシーをプラグアンドプレイ再利用できるようにするために、スキルポリシーのソフトウェアおよびポリシーチェックポイントをリリースします。

要約(オリジナル)

Many recent advances in robotic manipulation have come through imitation learning, yet these rely largely on mimicking a particularly hard-to-acquire form of demonstrations: those collected on the same robot in the same room with the same objects as the trained policy must handle at test time. In contrast, large pre-recorded human video datasets demonstrating manipulation skills in-the-wild already exist, which contain valuable information for robots. Is it possible to distill a repository of useful robotic skill policies out of such data without any additional requirements on robot-specific demonstrations or exploration? We present the first such system ZeroMimic, that generates immediately deployable image goal-conditioned skill policies for several common categories of manipulation tasks (opening, closing, pouring, pick&place, cutting, and stirring) each capable of acting upon diverse objects and across diverse unseen task setups. ZeroMimic is carefully designed to exploit recent advances in semantic and geometric visual understanding of human videos, together with modern grasp affordance detectors and imitation policy classes. After training ZeroMimic on the popular EpicKitchens dataset of ego-centric human videos, we evaluate its out-of-the-box performance in varied real-world and simulated kitchen settings with two different robot embodiments, demonstrating its impressive abilities to handle these varied tasks. To enable plug-and-play reuse of ZeroMimic policies on other task setups and robots, we release software and policy checkpoints of our skill policies.

arxiv情報

著者 Junyao Shi,Zhuolun Zhao,Tianyou Wang,Ian Pedroza,Amy Luo,Jie Wang,Jason Ma,Dinesh Jayaraman
発行日 2025-03-31 09:27:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | ZeroMimic: Distilling Robotic Manipulation Skills from Web Videos はコメントを受け付けていません

Less is More: Contextual Sampling for Nonlinear Data-Enabled Predictive Control

要約

データ対応予測制御(DEEPC)は、明示的なシステムモデルを必要とせずに、予測制御のための強力なデータ駆動型アプローチです。
ただし、その高い計算コストは​​、リアルタイムロボットシステムへの適用性を制限します。
モーション計画や軌道追跡などのロボットアプリケーションの場合、リアルタイム制御が重要です。
非線形DEEPCは、大規模なデータセットに依存するか、非線形性を学習して予測精度を確保し、高い計算の複雑さにつながります。
この作業では、各時間ステップで最も関連性の高いデータを動的に選択することにより、DEEPCの非線形性を処理するための新しいデータ選択戦略であるコンテキストサンプリングを紹介します。
予測精度を維持しながらデータセットサイズを削減することにより、当社の方法は、リアルタイムロボットアプリケーションのDEEPCの計算効率を改善します。
自律的な車両モーションプランニングのアプローチを検証します。
100のサブトレジェクションのデータセットサイズの場合、コンテキストサンプリングDEEPCは、レバレッジスコアサンプリングと比較して、追跡エラーを53.2%減少させます。
さらに、コンテキストサンプリングは、同等の追跡パフォーマンスを達成しながら、491サブトレジェクションの完全なデータセットを使用する場合と比較して、最大計算時間を87.2%削減します。
これらの結果は、ロボットシステムのリアルタイムのデータ駆動型制御を可能にするコンテキストサンプリングの可能性を強調しています。

要約(オリジナル)

Data-enabled Predictive Control (DeePC) is a powerful data-driven approach for predictive control without requiring an explicit system model. However, its high computational cost limits its applicability to real-time robotic systems. For robotic applications such as motion planning and trajectory tracking, real-time control is crucial. Nonlinear DeePC either relies on large datasets or learning the nonlinearities to ensure predictive accuracy, leading to high computational complexity. This work introduces contextual sampling, a novel data selection strategy to handle nonlinearities for DeePC by dynamically selecting the most relevant data at each time step. By reducing the dataset size while preserving prediction accuracy, our method improves computational efficiency, of DeePC for real-time robotic applications. We validate our approach for autonomous vehicle motion planning. For a dataset size of 100 sub-trajectories, Contextual sampling DeePC reduces tracking error by 53.2 % compared to Leverage Score sampling. Additionally, Contextual sampling reduces max computation time by 87.2 % compared to using the full dataset of 491 sub-trajectories while achieving comparable tracking performance. These results highlight the potential of Contextual sampling to enable real-time, data-driven control for robotic systems.

arxiv情報

著者 Julius Beerwerth,Bassam Alrifaee
発行日 2025-03-31 09:41:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Less is More: Contextual Sampling for Nonlinear Data-Enabled Predictive Control はコメントを受け付けていません

Fast Online Learning of CLiFF-maps in Changing Environments

要約

ダイナミクスのマップは、以前の観察から学んだモーションパターンの効果的な表現であり、最近の研究では、人間を認識したロボットナビゲーション、長期人間の動き予測、ロボットのローカリゼーションなど、さまざまな下流タスクを強化する能力が実証されています。
現在の進歩は、主に、流れが静的な環境、つまり時間の経過とともに変化すると想定されていない環境での人間の流れの地図を学習する方法に集中しています。
このペーパーでは、人間の流れの変化を積極的に検出し、適応するために、クリフマップのオンライン更新方法(モーションパターンを速度と方向の混合物としてモデル化する高度なダイナミクスタイプの高度なマップ)を提案します。
新しい観察結果が収集されると、私たちの目標は、関連する歴史的な動きパターンを保持しながら、崖のマップを効果的かつ正確に統合することです。
提案されたオンライン更新方法は、観測された各位置で確率表現を維持し、十分な統計を継続的に追跡することによりパラメーターを更新します。
合成データセットと実世界の両方のデータセットの両方を使用した実験では、私たちの方法が人間の動きのダイナミクスの正確な表現を維持できることを示しており、高性能の流れに準拠した計画下流タスクに貢献しながら、同等のベースラインよりも大きさが速いことを示しています。

要約(オリジナル)

Maps of dynamics are effective representations of motion patterns learned from prior observations, with recent research demonstrating their ability to enhance various downstream tasks such as human-aware robot navigation, long-term human motion prediction, and robot localization. Current advancements have primarily concentrated on methods for learning maps of human flow in environments where the flow is static, i.e., not assumed to change over time. In this paper we propose an online update method of the CLiFF-map (an advanced map of dynamics type that models motion patterns as velocity and orientation mixtures) to actively detect and adapt to human flow changes. As new observations are collected, our goal is to update a CLiFF-map to effectively and accurately integrate them, while retaining relevant historic motion patterns. The proposed online update method maintains a probabilistic representation in each observed location, updating parameters by continuously tracking sufficient statistics. In experiments using both synthetic and real-world datasets, we show that our method is able to maintain accurate representations of human motion dynamics, contributing to high performance flow-compliant planning downstream tasks, while being orders of magnitude faster than the comparable baselines.

arxiv情報

著者 Yufei Zhu,Andrey Rudenko,Luigi Palmieri,Lukas Heuer,Achim J. Lilienthal,Martin Magnusson
発行日 2025-03-31 09:49:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Fast Online Learning of CLiFF-maps in Changing Environments はコメントを受け付けていません

MAER-Nav: Bidirectional Motion Learning Through Mirror-Augmented Experience Replay for Robot Navigation

要約

Deep Rehnection Learning(DRL)ベースのナビゲーション方法は、モバイルロボットの有望な結果を実証していますが、限られたスペースでのアクションの柔軟性は限られています。
従来のDRLアプローチは、主に前方モーションポリシーを学習し、回復に後方操作が必要な複雑な環境にロボットが閉じ込められます。
このホワイトペーパーでは、明示的な障害駆動型の後知恵体験リプレイまたは報酬機能の変更を必要とせずに双方向の動き学習を可能にする新しいフレームワークであるMaer-Nav(ロボットナビゲーションの鏡濃縮エクスペリエンスリプレイ)を紹介します。
私たちのアプローチでは、鏡編みのエクスペリエンスリプレイメカニズムとカリキュラムの学習を統合して、成功した軌跡から合成後方ナビゲーションエクスペリエンスを生成します。
シミュレーションと現実世界の両方の環境での実験結果は、MAER-NAVが強力なフォワードナビゲーション機能を維持しながら、最先端の方法を大幅に上回ることを示しています。
このフレームワークは、従来の計画方法の包括的なアクション空間利用と学習ベースのアプローチの環境適応性との間のギャップを効果的に橋渡しし、従来のDRLメソッドが一貫して失敗するシナリオで堅牢なナビゲーションを可能にします。

要約(オリジナル)

Deep Reinforcement Learning (DRL) based navigation methods have demonstrated promising results for mobile robots, but suffer from limited action flexibility in confined spaces. Conventional DRL approaches predominantly learn forward-motion policies, causing robots to become trapped in complex environments where backward maneuvers are necessary for recovery. This paper presents MAER-Nav (Mirror-Augmented Experience Replay for Robot Navigation), a novel framework that enables bidirectional motion learning without requiring explicit failure-driven hindsight experience replay or reward function modifications. Our approach integrates a mirror-augmented experience replay mechanism with curriculum learning to generate synthetic backward navigation experiences from successful trajectories. Experimental results in both simulation and real-world environments demonstrate that MAER-Nav significantly outperforms state-of-the-art methods while maintaining strong forward navigation capabilities. The framework effectively bridges the gap between the comprehensive action space utilization of traditional planning methods and the environmental adaptability of learning-based approaches, enabling robust navigation in scenarios where conventional DRL methods consistently fail.

arxiv情報

著者 Shanze Wang,Mingao Tan,Zhibo Yang,Biao Huang,Xiaoyu Shen,Hailong Huang,Wei Zhang
発行日 2025-03-31 09:58:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | MAER-Nav: Bidirectional Motion Learning Through Mirror-Augmented Experience Replay for Robot Navigation はコメントを受け付けていません

A Benchmark for Vision-Centric HD Mapping by V2I Systems

要約

自律運転は、グローバルな視点の欠如と、ベクトル化された高解像度(HD)マップの意味情報のために安全上の課題に直面しています。
道端のカメラからの情報は、車両間(V2I)通信を通じて、マップ認識範囲を大幅に拡大できます。
ただし、車両間界面の協力のシナリオに基づいて、マップベクトル化に関するマップベクトル化に関する調査に利用できる現実世界からのデータセットはまだありません。
車両間層の協同的自律運転(VICAD)のオンラインHDマッピングに関する研究を繁栄させるために、車両と路傍インフラストラクチャの両方からの共同カメラフレームを含む現実世界のデータセットをリリースし、HDマップ要素の人間の注釈を提供します。
また、ベクトル化されたマップを構築するための視力中心のV2Iシステムを活用するエンドツーエンドのニューラルフレームワーク(つまり、V2I-HD)を提示します。
計算コストを削減し、自律車両にV2I-HDをさらに展開するために、V2I-HDに方向性的に分離された自己触媒メカニズムを導入します。
広範な実験では、V2I-HDが実際のデータセットでテストされているように、リアルタイムの推論速度で優れた性能を持っていることが示されています。
豊富な定性的結果は、複雑でさまざまな運転シーンで低コストの安定した堅牢なマップ構造品質を示しています。
ベンチマークとして、ソースコードとデータセットの両方が、さらなる研究の目的でOneDriveでリリースされています。

要約(オリジナル)

Autonomous driving faces safety challenges due to a lack of global perspective and the semantic information of vectorized high-definition (HD) maps. Information from roadside cameras can greatly expand the map perception range through vehicle-to-infrastructure (V2I) communications. However, there is still no dataset from the real world available for the study on map vectorization onboard under the scenario of vehicle-infrastructure cooperation. To prosper the research on online HD mapping for Vehicle-Infrastructure Cooperative Autonomous Driving (VICAD), we release a real-world dataset, which contains collaborative camera frames from both vehicles and roadside infrastructures, and provides human annotations of HD map elements. We also present an end-to-end neural framework (i.e., V2I-HD) leveraging vision-centric V2I systems to construct vectorized maps. To reduce computation costs and further deploy V2I-HD on autonomous vehicles, we introduce a directionally decoupled self-attention mechanism to V2I-HD. Extensive experiments show that V2I-HD has superior performance in real-time inference speed, as tested by our real-world dataset. Abundant qualitative results also demonstrate stable and robust map construction quality with low cost in complex and various driving scenes. As a benchmark, both source codes and the dataset have been released at OneDrive for the purpose of further study.

arxiv情報

著者 Miao Fan,Shanshan Yu,Shengtong Xu,Kun Jiang,Haoyi Xiong,Xiangzeng Liu
発行日 2025-03-31 11:24:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | A Benchmark for Vision-Centric HD Mapping by V2I Systems はコメントを受け付けていません

Video-based Traffic Light Recognition by Rockchip RV1126 for Autonomous Driving

要約

リアルタイムの信号機の認識は、都市環境における自律運転の安全性と航海の基本です。
既存のアプローチは、オンボードカメラからの単一フレーム分析に依存していますが、閉塞と有害な照明条件を含む複雑なシナリオと格闘しています。
複数の連続したフレームを処理して堅牢な信号機の検出と状態分類を実現する新しいビデオベースのエンドツーエンドニューラルネットワークである\ textit {vitlr}を提示します。
アーキテクチャは、Rockchip RV1126エンメッドプラットフォームでの展開に特に最適化された畳み込みの自己触媒モジュールを備えたトランス状態の設計を活用しています。
2つの実際のデータセットでの広範な評価は、\ textit {vitlr}がRV1126のNPUでリアルタイム処理機能(> 25 fps)を維持しながら、最先端のパフォーマンスを達成することを示しています。
このシステムは、既存の単一フレームアプローチと比較して、時間的安定性、ターゲット距離の変化、挑戦的な環境条件にわたる優れた堅牢性を示しています。
自律運転アプリケーションにHDマップを使用して、\ textit {vitlr}をエゴレーンの信号機認識システムに統合しました。
ソースコードやデータセットを含む完全な実装は、このドメインでのさらなる研究を促進するために公開されています。

要約(オリジナル)

Real-time traffic light recognition is fundamental for autonomous driving safety and navigation in urban environments. While existing approaches rely on single-frame analysis from onboard cameras, they struggle with complex scenarios involving occlusions and adverse lighting conditions. We present \textit{ViTLR}, a novel video-based end-to-end neural network that processes multiple consecutive frames to achieve robust traffic light detection and state classification. The architecture leverages a transformer-like design with convolutional self-attention modules, which is optimized specifically for deployment on the Rockchip RV1126 embedded platform. Extensive evaluations on two real-world datasets demonstrate that \textit{ViTLR} achieves state-of-the-art performance while maintaining real-time processing capabilities (>25 FPS) on RV1126’s NPU. The system shows superior robustness across temporal stability, varying target distances, and challenging environmental conditions compared to existing single-frame approaches. We have successfully integrated \textit{ViTLR} into an ego-lane traffic light recognition system using HD maps for autonomous driving applications. The complete implementation, including source code and datasets, is made publicly available to facilitate further research in this domain.

arxiv情報

著者 Miao Fan,Xuxu Kong,Shengtong Xu,Haoyi Xiong,Xiangzeng Liu
発行日 2025-03-31 11:27:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Video-based Traffic Light Recognition by Rockchip RV1126 for Autonomous Driving はコメントを受け付けていません

A Reactive Framework for Whole-Body Motion Planning of Mobile Manipulators Combining Reinforcement Learning and SDF-Constrained Quadratic Programmi

要約

具体化された人工知能の重要な分野として、モバイルマニピュレーターはインテリジェントサービスにますます適用されていますが、その冗長な自由度は、散らかった環境での効率的なモーション計画も制限しています。
この問題に対処するために、このペーパーでは、モバイルマニピュレーターの反応性全身モーション計画のためのハイブリッド学習と最適化フレームワークを提案します。
ベイジアン分布のソフト俳優 – クリティック(ベイズ-DSAC)アルゴリズムを開発して、価値推定の品質と学習の収束性能を向上させます。
さらに、障害物回避運動の安全性を高めるために、署名された距離フィールドに制約された2次プログラミング方法を導入します。
実験を実施し、標準ベンチマークと比較します。
実験結果は、提案されたフレームワークが、反応性全身運動計画の効率を大幅に改善し、計画時間を短縮し、モーション計画の成功率を改善することを確認します。
さらに、提案された強化学習方法により、全身計画タスクの迅速な学習プロセスが保証されます。
新しいフレームワークにより、モバイルマニピュレーターは複雑な環境により安全かつ効率的に適応することができます。

要約(オリジナル)

As an important branch of embodied artificial intelligence, mobile manipulators are increasingly applied in intelligent services, but their redundant degrees of freedom also limit efficient motion planning in cluttered environments. To address this issue, this paper proposes a hybrid learning and optimization framework for reactive whole-body motion planning of mobile manipulators. We develop the Bayesian distributional soft actor-critic (Bayes-DSAC) algorithm to improve the quality of value estimation and the convergence performance of the learning. Additionally, we introduce a quadratic programming method constrained by the signed distance field to enhance the safety of the obstacle avoidance motion. We conduct experiments and make comparison with standard benchmark. The experimental results verify that our proposed framework significantly improves the efficiency of reactive whole-body motion planning, reduces the planning time, and improves the success rate of motion planning. Additionally, the proposed reinforcement learning method ensures a rapid learning process in the whole-body planning task. The novel framework allows mobile manipulators to adapt to complex environments more safely and efficiently.

arxiv情報

著者 Chenyu Zhang,Shiying Sun,Kuan Liu,Chuanbao Zhou,Xiaoguang Zhao,Min Tan,Yanlong Huang
発行日 2025-03-31 11:37:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A Reactive Framework for Whole-Body Motion Planning of Mobile Manipulators Combining Reinforcement Learning and SDF-Constrained Quadratic Programmi はコメントを受け付けていません

SALT: A Flexible Semi-Automatic Labeling Tool for General LiDAR Point Clouds with Cross-Scene Adaptability and 4D Consistency

要約

クロスセーンの適応性と4D一貫性を備えた一般的なライダーポイント雲のための柔軟な半自動ラベリングツール(塩)を提案します。
カメラの蒸留に依存している最近のアプローチとは異なり、塩は生のライダーデータで直接動作し、自動的にセグメンテーション前の結果を生成します。
これを達成するために、Vision Foundationモデルのトレーニング分布と整合することにより、LIDARデータを擬似イメージに変換するデータアライメントと呼ばれる新しいゼロショット学習パラダイムを提案します。
さらに、SAM2を強化するために、4D無意味のプロンプト戦略と4D非最大抑制モジュールを設計し、高品質で時間的に一貫した前置換を確保します。
Saltは、Semantickittiで最新のゼロショット方法を18.4%PQで超え、新しく収集された低解像度LIDARデータと3つのLIDARタイプからの複合データで、ヒトアノテーターパフォーマンスのほぼ40〜50%を達成し、注釈効率を大幅に向上させます。
塩のオープンソーシングにより、現在のLIDARデータセットの大幅な拡張が促進され、Lidar Foundationモデルの将来の開発の基礎が築かれると予想されます。
コードはhttps://github.com/cavendish518/saltで入手できます。

要約(オリジナル)

We propose a flexible Semi-Automatic Labeling Tool (SALT) for general LiDAR point clouds with cross-scene adaptability and 4D consistency. Unlike recent approaches that rely on camera distillation, SALT operates directly on raw LiDAR data, automatically generating pre-segmentation results. To achieve this, we propose a novel zero-shot learning paradigm, termed data alignment, which transforms LiDAR data into pseudo-images by aligning with the training distribution of vision foundation models. Additionally, we design a 4D-consistent prompting strategy and 4D non-maximum suppression module to enhance SAM2, ensuring high-quality, temporally consistent presegmentation. SALT surpasses the latest zero-shot methods by 18.4% PQ on SemanticKITTI and achieves nearly 40-50% of human annotator performance on our newly collected low-resolution LiDAR data and on combined data from three LiDAR types, significantly boosting annotation efficiency. We anticipate that SALT’s open-sourcing will catalyze substantial expansion of current LiDAR datasets and lay the groundwork for the future development of LiDAR foundation models. Code is available at https://github.com/Cavendish518/SALT.

arxiv情報

著者 Yanbo Wang,Yongtao Chen,Chuan Cao,Tianchen Deng,Wentao Zhao,Jingchuan Wang,Weidong Chen
発行日 2025-03-31 11:46:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | SALT: A Flexible Semi-Automatic Labeling Tool for General LiDAR Point Clouds with Cross-Scene Adaptability and 4D Consistency はコメントを受け付けていません