Symbolic Runtime Verification and Adaptive Decision-Making for Robot-Assisted Dressing

要約

ランタイムモニタリングと正式な検証により、低レベルのハザード応答を増強するロボット支援ドレッシングのコントロールフレームワークを提示します。
パラメトリックディスクリートタイムマルコフチェーン(PDTMC)はドレッシングプロセスをモデル化し、ベイジアン推論は感覚とユーザーのフィードバックに基づいてこのPDTMCの遷移確率を動的に更新します。
ハザード分析からの安全上の制約は、確率的計算ツリー論理で表され、確率的モデルチェッカーを使用して象徴的に検証されます。
私たちは、衣料品の緩和とエスカレーションのための到達可能性、コスト、報酬のトレードオフを評価し、リアルタイムの適応を可能にします。
私たちのアプローチは、安全性を認識し、説明可能なロボット支援のための正式でありながら軽量な基盤を提供します。

要約(オリジナル)

We present a control framework for robot-assisted dressing that augments low-level hazard response with runtime monitoring and formal verification. A parametric discrete-time Markov chain (pDTMC) models the dressing process, while Bayesian inference dynamically updates this pDTMC’s transition probabilities based on sensory and user feedback. Safety constraints from hazard analysis are expressed in probabilistic computation tree logic, and symbolically verified using a probabilistic model checker. We evaluate reachability, cost, and reward trade-offs for garment-snag mitigation and escalation, enabling real-time adaptation. Our approach provides a formal yet lightweight foundation for safety-aware, explainable robotic assistance.

arxiv情報

著者 Yasmin Rafiq,Gricel Vázquez,Radu Calinescu,Sanja Dogramadzi,Robert M Hierons
発行日 2025-04-22 07:42:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Symbolic Runtime Verification and Adaptive Decision-Making for Robot-Assisted Dressing はコメントを受け付けていません

DWA-3D: A Reactive Planner for Robust and Efficient Autonomous UAV Navigation in Confined Environments

要約

さまざまな業界で無人航空機(UAV)の影響が高まっているにもかかわらず、現在の利用可能なソリューションのほとんどは、安全に障害物の外観に対処するための堅牢な自律ナビゲーションシステムを欠いています。
この作業は、乱雑な環境と移動する狭い部屋のために、安全で高い機動性が必要なシナリオで自律的なUAV計画とナビゲーションを実行するアプローチを提示します。
このシステムは、RRT*グローバルプランナーと、2Dロボットのよく知られているDWAメソッドの拡張である新たに提案されたリアクティブプランナーであるDWA-3Dを組み合わせています。
目的関数のパラメーターを最適化し、それらを調整するための古典的な困難を緩和するための理論的帝国の方法を提供します。
オンボードLIDARは、3Dポイントクラウドを提供します。これは、計画およびナビゲーションの決定が行われるOctomapに投影されます。
以前のマップはありません。
システムは、Octomapに含まれる現在および過去のLidar情報から、オンラインでマップを構築および更新します。
システムを検証し、関連するパラメーターの微調整を取得するために、広範な実世界の実験が実施されました。
これらの実験により、すべてのテストされたシナリオで安全な動作を保証する一連の価値を提供することができました。
2つのパラメーターを重み付けするだけで、水平パスアライメントまたは垂直(高さ)追跡のいずれかを優先して、それぞれ垂直または横方向の回避を強化します。
さらに、DWA-3Dの提案は、グローバルプランナーがいなくても、ドローンのサイズを考慮していないプランナーがいない場合でも、うまくナビゲートすることができます。
最後に、実施された実験では、提案されたパラメーターを使用した計算時間は境界が境界されているだけでなく、シナリオの複雑さに関係なく、40ミリ秒ほど安定したままであることが示されています。

要約(オリジナル)

Despite the growing impact of Unmanned Aerial Vehicles (UAVs) across various industries, most of current available solutions lack for a robust autonomous navigation system to deal with the appearance of obstacles safely. This work presents an approach to perform autonomous UAV planning and navigation in scenarios in which a safe and high maneuverability is required, due to the cluttered environment and the narrow rooms to move. The system combines an RRT* global planner with a newly proposed reactive planner, DWA-3D, which is the extension of the well known DWA method for 2D robots. We provide a theoretical-empirical method for adjusting the parameters of the objective function to optimize, easing the classical difficulty for tuning them. An onboard LiDAR provides a 3D point cloud, which is projected on an Octomap in which the planning and navigation decisions are made. There is not a prior map; the system builds and updates the map online, from the current and the past LiDAR information included in the Octomap. Extensive real-world experiments were conducted to validate the system and to obtain a fine tuning of the involved parameters. These experiments allowed us to provide a set of values that ensure safe operation across all the tested scenarios. Just by weighting two parameters, it is possible to prioritize either horizontal path alignment or vertical (height) tracking, resulting in enhancing vertical or lateral avoidance, respectively. Additionally, our DWA-3D proposal is able to navigate successfully even in absence of a global planner or with one that does not consider the drone’s size. Finally, the conducted experiments show that computation time with the proposed parameters is not only bounded but also remains stable around 40 ms, regardless of the scenario complexity.

arxiv情報

著者 Jorge Bes,Juan Dendarieta,Luis Riazuelo,Luis Montano
発行日 2025-04-22 07:45:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | DWA-3D: A Reactive Planner for Robust and Efficient Autonomous UAV Navigation in Confined Environments はコメントを受け付けていません

Convergent NMPC-based Reinforcement Learning Using Deep Expected Sarsa and Nonlinear Temporal Difference Learning

要約

この論文では、元の強化学習(RL)メソッドを使用して、学習ベースの非線形モデル予測コントローラー(NMPC)を提示して、2つの方法が提案されているNMPCスキームの最適な重みを学習します。
第一に、コントローラーは、通常二次NMPCで取得される後続のアクション値関数がニューラルネットワーク(NN)で近似される、予想される深いSARSAの現在のアクション値関数として使用されます。
既存のメソッドに関しては、NNの入力にNMPCの学習パラメーターの現在の値を追加して、ネットワークがアクション値関数を近似し、学習パフォーマンスを安定させることができます。
さらに、NNを使用すると、閉ループのパフォーマンスに影響を与えることなく、リアルタイムの計算負荷がほぼ半分になります。
第二に、関数近似に非線形性が存在する場合、潜在的なパラメーターの発散と不安定性の問題を克服するために、予想されるSARSA RLメソッドの関数近似値として、勾配の時間差法とパラメータ化されたNMPCを組み合わせます。
シミュレーション結果は、提案されたアプローチが不安定な問題のない局所的に最適なソリューションに収束することを示しています。

要約(オリジナル)

In this paper, we present a learning-based nonlinear model predictive controller (NMPC) using an original reinforcement learning (RL) method to learn the optimal weights of the NMPC scheme, for which two methods are proposed. Firstly, the controller is used as the current action-value function of a deep Expected Sarsa where the subsequent action-value function, usually obtained with a secondary NMPC, is approximated with a neural network (NN). With respect to existing methods, we add to the NN’s input the current value of the NMPC’s learned parameters so that the network is able to approximate the action-value function and stabilize the learning performance. Additionally, with the use of the NN, the real-time computational burden is approximately halved without affecting the closed-loop performance. Secondly, we combine gradient temporal difference methods with a parametrized NMPC as a function approximator of the Expected Sarsa RL method to overcome the potential parameters’ divergence and instability issues when nonlinearities are present in the function approximation. The simulation results show that the proposed approach converges to a locally optimal solution without instability problems.

arxiv情報

著者 Amine Salaje,Thomas Chevet,Nicolas Langlois
発行日 2025-04-22 07:46:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Convergent NMPC-based Reinforcement Learning Using Deep Expected Sarsa and Nonlinear Temporal Difference Learning はコメントを受け付けていません

Autonomous Control of Redundant Hydraulic Manipulator Using Reinforcement Learning with Action Feedback

要約

この記事では、油圧作動を伴う冗長マニピュレーターの自律制御のための完全にデータ駆動型のアプローチを紹介します。
このアプローチでは、シミュレーションモデルから継承される最小限のシステム情報のみが必要です。
非線形油圧作動ダイナミクスは、マニピュレーターの手動操作中に収集されたデータからのアクチュエータネットワークを使用して、シミュレーション環境で実際のシステムを効果的にエミュレートしてモデル化されます。
次に、効率的な探索のためにOrnstein-Uhlenbeckプロセスノイズ(OUNOISE)を使用して、補強学習(RL)を使用して、エンドエフェクター(EE)位置追跡に基づく自律制御のニューラルネットワーク制御ポリシーが学習されます。
また、RLエージェントは、探査から最適な適切なアクションを選択することを容易にする、フォワード運動学の監視された学習に基づいてフィードバックを受け取ります。
制御ポリシーは、システムのダイナミクスを考慮しながら、提供されたターゲットEE位置に基づいて出力として共同変数を直接提供します。
その後、ジョイント変数は油圧バルブコマンドにマッピングされ、さらに変更せずにシステムに供給されます。
提案されたアプローチは、3次元(3D)空間でEEの望ましい位置を追跡するために、3つの反転と1つのプリズムジョイントを備えたスケーリングされた油圧転送クレーンに実装されます。
エミュレートされたダイナミクスとシミュレーションの広範な学習により、結果は、実際のシステムに学習コントローラーを直接展開する可能性を示しています。

要約(オリジナル)

This article presents an entirely data-driven approach for autonomous control of redundant manipulators with hydraulic actuation. The approach only requires minimal system information, which is inherited from a simulation model. The non-linear hydraulic actuation dynamics are modeled using actuator networks from the data gathered during the manual operation of the manipulator to effectively emulate the real system in a simulation environment. A neural network control policy for autonomous control, based on end-effector (EE) position tracking is then learned using Reinforcement Learning (RL) with Ornstein-Uhlenbeck process noise (OUNoise) for efficient exploration. The RL agent also receives feedback based on supervised learning of the forward kinematics which facilitates selecting the best suitable action from exploration. The control policy directly provides the joint variables as outputs based on provided target EE position while taking into account the system dynamics. The joint variables are then mapped to the hydraulic valve commands, which are then fed to the system without further modifications. The proposed approach is implemented on a scaled hydraulic forwarder crane with three revolute and one prismatic joint to track the desired position of the EE in 3-Dimensional (3D) space. With the emulated dynamics and extensive learning in simulation, the results demonstrate the feasibility of deploying the learned controller directly on the real system.

arxiv情報

著者 Rohit Dhakate,Christian Brommer,Christoph Böhm,Stephan Weiss,Jan Steinbrener
発行日 2025-04-22 08:55:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Autonomous Control of Redundant Hydraulic Manipulator Using Reinforcement Learning with Action Feedback はコメントを受け付けていません

CaRoSaC: A Reinforcement Learning-Based Kinematic Control of Cable-Driven Parallel Robots by Addressing Cable Sag through Simulation

要約

このペーパーでは、ケーブル駆動型の並列ロボット(CDPRS)のモデルフリー強化学習制御方法論とシミュレーション環境を統合し、ケーブルSAGを考慮したケーブルロボットシミュレーションとコントロール(CAROSAC)フレームワークを紹介します。
私たちのアプローチでは、ケーブルのSAGの影響を含むCDPRの実際の動作をキャプチャするシミュレーションプラットフォームを確立することにより、ケーブルSAGや精密制御の必需品などの側面により、CDPRの複雑さの知識ギャップを埋めることを目指しています。
このフレームワークは、研究者と開発者に、特にケーブルのSAGが重要な複雑な操作で、パフォーマンスのニュアンスを理解および予測するためのシミュレーション内で推定戦略と制御戦略をさらに開発するツールを提供します。
このシミュレーションフレームワークを使用して、強化学習(RL)におけるモデルフリー制御ポリシーをトレーニングします。
このアプローチは、CDPRSの複雑なダイナミクスから適応的に学習する能力のために選択されています。
このポリシーは、最適なケーブル制御入力を識別するために訓練され、正確なエンドエフェクターの位置付けを確保します。
従来のフィードバックベースの制御方法とは異なり、当社のRL制御ポリシーは運動学的制御に焦点を当てており、事前定義された数学モデルにつながることなくケーブルSAGの問題に対処します。
また、柔軟なケーブルシミュレーションと相まって、RLベースのコントローラーが、特に動的な条件やワークスペースの境界領域の近くで、古典的な運動学アプローチを大幅に上回ることを実証します。
記載されたシミュレーションと制御アプローチの組み合わせ強度は、実験から証明されているように、従来のアプローチが失敗するワークスペースの境界条件でも、懸濁CDPRを操作する効果的なソリューションを提供し、CDPRSがさまざまなアプリケーションで最適に機能しながら、しばしば無視されますが重要なケーブルの垂れを説明します。

要約(オリジナル)

This paper introduces the Cable Robot Simulation and Control (CaRoSaC) Framework, which integrates a simulation environment with a model-free reinforcement learning control methodology for suspended Cable-Driven Parallel Robots (CDPRs), accounting for cable sag. Our approach seeks to bridge the knowledge gap of the intricacies of CDPRs due to aspects such as cable sag and precision control necessities by establishing a simulation platform that captures the real-world behaviors of CDPRs, including the impacts of cable sag. The framework offers researchers and developers a tool to further develop estimation and control strategies within the simulation for understanding and predicting the performance nuances, especially in complex operations where cable sag can be significant. Using this simulation framework, we train a model-free control policy in Reinforcement Learning (RL). This approach is chosen for its capability to adaptively learn from the complex dynamics of CDPRs. The policy is trained to discern optimal cable control inputs, ensuring precise end-effector positioning. Unlike traditional feedback-based control methods, our RL control policy focuses on kinematic control and addresses the cable sag issues without being tethered to predefined mathematical models. We also demonstrate that our RL-based controller, coupled with the flexible cable simulation, significantly outperforms the classical kinematics approach, particularly in dynamic conditions and near the boundary regions of the workspace. The combined strength of the described simulation and control approach offers an effective solution in manipulating suspended CDPRs even at workspace boundary conditions where traditional approach fails, as proven from our experiments, ensuring that CDPRs function optimally in various applications while accounting for the often neglected but critical factor of cable sag.

arxiv情報

著者 Rohit Dhakate,Thomas Jantos,Eren Allak,Stephan Weiss,Jan Steinbrener
発行日 2025-04-22 09:45:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | CaRoSaC: A Reinforcement Learning-Based Kinematic Control of Cable-Driven Parallel Robots by Addressing Cable Sag through Simulation はコメントを受け付けていません

Dynamic Intent Queries for Motion Transformer-based Trajectory Prediction

要約

自律運転では、他の交通参加者の動きを正確に予測することが重要です。これは、車両の計画プロセスに大きな影響を与えるためです。
現代の軌道予測モデルは、エージェントとマップデータからの複雑なパターンと依存関係を解釈するよう努めています。
モーショントランス(MTR)アーキテクチャとその後の作業は、WAYMOオープンモーションベンチマークなどの一般的なベンチマークで最も正確な方法を定義します。
MTRモデルは、軌道予測の初期目標ポイントとして、事前に生成された静的意図ポイントを採用しています。
ただし、これらのポイントの静的な性質は、特定のトラフィックシナリオのMAPデータとの不整列に頻繁に整列し、実行不可能または非現実的な目標ポイントをもたらします。
私たちの研究は、シーン固有の動的意図ポイントをMTRモデルに統合することにより、この制限に対処します。
MTRモデルのこの適応は、WAYMOオープンモーションデータセットで訓練および評価されました。
私たちの調査結果は、動的意図ポイントを組み込むことは、特に長期にわたる視野にわたる予測の軌跡予測の精度に大きなプラスの影響を与えることを示しています。
さらに、マップデータに準拠していない、または違法な操作であるグラウンドトゥルースの軌跡への影響を分析します。

要約(オリジナル)

In autonomous driving, accurately predicting the movements of other traffic participants is crucial, as it significantly influences a vehicle’s planning processes. Modern trajectory prediction models strive to interpret complex patterns and dependencies from agent and map data. The Motion Transformer (MTR) architecture and subsequent work define the most accurate methods in common benchmarks such as the Waymo Open Motion Benchmark. The MTR model employs pre-generated static intention points as initial goal points for trajectory prediction. However, the static nature of these points frequently leads to misalignment with map data in specific traffic scenarios, resulting in unfeasible or unrealistic goal points. Our research addresses this limitation by integrating scene-specific dynamic intention points into the MTR model. This adaptation of the MTR model was trained and evaluated on the Waymo Open Motion Dataset. Our findings demonstrate that incorporating dynamic intention points has a significant positive impact on trajectory prediction accuracy, especially for predictions over long time horizons. Furthermore, we analyze the impact on ground truth trajectories which are not compliant with the map data or are illegal maneuvers.

arxiv情報

著者 Tobias Demmler,Lennart Hartung,Andreas Tamke,Thao Dang,Alexander Hegai,Karsten Haug,Lars Mikelsons
発行日 2025-04-22 10:20:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Dynamic Intent Queries for Motion Transformer-based Trajectory Prediction はコメントを受け付けていません

Pose Optimization for Autonomous Driving Datasets using Neural Rendering Models

要約

自律運転システムは、実際の運転シナリオに挑戦する際の安全性と信頼性を確保するために、エゴカーの正確な認識とローカリゼーションに依存しています。
パブリックデータセットは、モデルの開発と評価のための標準化されたリソースを提供することにより、研究のベンチマークとガイドの進歩に重要な役割を果たします。
ただし、これらのデータセット内でのセンサーのキャリブレーションと車両のポーズの潜在的な不正確さは、ダウンストリームタスクの誤った評価につながり、自律システムの信頼性とパフォーマンスに悪影響を与える可能性があります。
この課題に対処するために、センサーのポーズとキャリブレーションパラメーターを改良し、データセットベンチマークの整合性を高めるために、ニューラル放射輝度フィールド(NERF)に基づく堅牢な最適化方法を提案します。
グラウンドトゥルースなしで最適化されたポーズの精度の改善を検証するために、徹底的な評価プロセスを提示し、再注入メトリック、新しいビューの合成の品質レンダリング、および幾何学的アライメントに依存します。
私たちの方法は、センサーのポーズ精度の大幅な改善を達成することを実証します。
これらの重要なパラメーターを最適化することにより、当社のアプローチは既存のデータセットの有用性を改善するだけでなく、より信頼性の高い自律運転モデル​​への道を開くこともできます。
この分野での継続的な進歩を促進するために、最適化されたセンサーポーズを公開され、研究コミュニティに貴重なリソースを提供します。

要約(オリジナル)

Autonomous driving systems rely on accurate perception and localization of the ego car to ensure safety and reliability in challenging real-world driving scenarios. Public datasets play a vital role in benchmarking and guiding advancement in research by providing standardized resources for model development and evaluation. However, potential inaccuracies in sensor calibration and vehicle poses within these datasets can lead to erroneous evaluations of downstream tasks, adversely impacting the reliability and performance of the autonomous systems. To address this challenge, we propose a robust optimization method based on Neural Radiance Fields (NeRF) to refine sensor poses and calibration parameters, enhancing the integrity of dataset benchmarks. To validate improvement in accuracy of our optimized poses without ground truth, we present a thorough evaluation process, relying on reprojection metrics, Novel View Synthesis rendering quality, and geometric alignment. We demonstrate that our method achieves significant improvements in sensor pose accuracy. By optimizing these critical parameters, our approach not only improves the utility of existing datasets but also paves the way for more reliable autonomous driving models. To foster continued progress in this field, we make the optimized sensor poses publicly available, providing a valuable resource for the research community.

arxiv情報

著者 Quentin Herau,Nathan Piasco,Moussab Bennehar,Luis Rolado,Dzmitry Tsishkou,Bingbing Liu,Cyrille Migniot,Pascal Vasseur,Cédric Demonceaux
発行日 2025-04-22 10:33:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Pose Optimization for Autonomous Driving Datasets using Neural Rendering Models はコメントを受け付けていません

A Graph-Based Reinforcement Learning Approach with Frontier Potential Based Reward for Safe Cluttered Environment Exploration

要約

乱雑な環境の自律的な調査には、未知のランダム障害との潜在的な衝突に対する安全性を保証する効率的な探索戦略が必要です。
このペーパーでは、グラフニューラルネットワークベースの探査貪欲なポリシーと安全シールドを組み合わせた新しいアプローチを紹介し、安全なナビゲーション目標の選択を確保します。
ネットワークは、強化学習と近位ポリシー最適化アルゴリズムを使用してトレーニングされ、安全シールドの介入を減らしながら探査効率を最大化します。
ただし、ポリシーが実行不可能なアクションを選択した場合、安全シールドが介入して最良の実行可能な代替品を選択し、システムの一貫性を確保します。
さらに、このホワイトペーパーでは、エージェントの未開の領域への近接性と、それらに到達することからの予想される情報が得られることに基づく潜在的なフィールドを含む報酬関数を提案します。
全体として、このペーパーで調査されたアプローチは、強化学習主導型探査ポリシーの適応性の利点と、明示的な安全メカニズムによって保証された保証を統合します。
シミュレートされた環境での広範な評価は、このアプローチが乱雑な環境で効率的かつ安全な探索を可能にすることを示しています。

要約(オリジナル)

Autonomous exploration of cluttered environments requires efficient exploration strategies that guarantee safety against potential collisions with unknown random obstacles. This paper presents a novel approach combining a graph neural network-based exploration greedy policy with a safety shield to ensure safe navigation goal selection. The network is trained using reinforcement learning and the proximal policy optimization algorithm to maximize exploration efficiency while reducing the safety shield interventions. However, if the policy selects an infeasible action, the safety shield intervenes to choose the best feasible alternative, ensuring system consistency. Moreover, this paper proposes a reward function that includes a potential field based on the agent’s proximity to unexplored regions and the expected information gain from reaching them. Overall, the approach investigated in this paper merges the benefits of the adaptability of reinforcement learning-driven exploration policies and the guarantee ensured by explicit safety mechanisms. Extensive evaluations in simulated environments demonstrate that the approach enables efficient and safe exploration in cluttered environments.

arxiv情報

著者 Gabriele Calzolari,Vidya Sumathy,Christoforos Kanellakis,George Nikolakopoulos
発行日 2025-04-22 12:15:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, I.2.9 | A Graph-Based Reinforcement Learning Approach with Frontier Potential Based Reward for Safe Cluttered Environment Exploration はコメントを受け付けていません

Embedded Safe Reactive Navigation for Multirotors Systems using Control Barrier Functions

要約

自律航空ロボットの安全フィルターの幅広い採用を促進することを目指して、このペーパーでは、広く使用されているオープンソースオートパイロットへのシームレスな統合のために設計された安全な制御アーキテクチャを紹介します。
一貫したローカリゼーションとマッピングを必要とする方法から離れると、オンラインのオンボード範囲測定からのみ構築された複合制御バリア関数として、障害物回避問題を形式化します。
提案されたフレームワークは安全フィルターとして機能し、公称位置/速度制御ループによって導出された加速参照を変更し、PX4オートパイロットスタックに統合されます。
小さなマルチローター航空ロボットを使用した実験的研究は、動的操作および未知の環境内でのソリューションの有効性とパフォーマンスを示しています。

要約(オリジナル)

Aiming to promote the wide adoption of safety filters for autonomous aerial robots, this paper presents a safe control architecture designed for seamless integration into widely used open-source autopilots. Departing from methods that require consistent localization and mapping, we formalize the obstacle avoidance problem as a composite control barrier function constructed only from the online onboard range measurements. The proposed framework acts as a safety filter, modifying the acceleration references derived by the nominal position/velocity control loops, and is integrated into the PX4 autopilot stack. Experimental studies using a small multirotor aerial robot demonstrate the effectiveness and performance of the solution within dynamic maneuvering and unknown environments.

arxiv情報

著者 Nazar Misyats,Marvin Harms,Morten Nissov,Martin Jacquet,Kostas Alexis
発行日 2025-04-22 12:45:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Embedded Safe Reactive Navigation for Multirotors Systems using Control Barrier Functions はコメントを受け付けていません

An Extended Horizon Tactical Decision-Making for Automated Driving Based on Monte Carlo Tree Search

要約

このペーパーでは、COR-MCTS(リソースの保全-MonteCarlo Tree Search)を紹介します。これは、拡張された視野を超える操作計画に焦点を当てた自動運転のための新しい戦術的な意思決定アプローチです。
従来の意思決定アルゴリズムは、特定のダイナミックドライビングシナリオでの適応性を制限する学習ベースの方法では、通常、固定計画の視野によって制約されます。
ただし、安全で効率的な操作を確保するために、高速道路、ラウンドアバウト、出口などの環境で事前に計画を立てる必要があります。
この課題に対処するために、モンテカルロツリー検索(MCT)と以前のユーティリティベースのフレームワークであるCOR-MP(操作計画のためのリソースモデルの保全モデル)を統合するハイブリッドメソッドを提案します。
この組み合わせにより、長期的なリアルタイムの意思決定が可能になり、拡張された視野を超えて一連の操作を計画する能力が大幅に向上します。
多様な運転シナリオ全体のシミュレーションを通じて、COR-MCTが拡張された視野にわたって計画の堅牢性と決定効率を効果的に改善することを実証します。

要約(オリジナル)

This paper introduces COR-MCTS (Conservation of Resources – Monte Carlo Tree Search), a novel tactical decision-making approach for automated driving focusing on maneuver planning over extended horizons. Traditional decision-making algorithms are often constrained by fixed planning horizons, typically up to 6 seconds for classical approaches and 3 seconds for learning-based methods limiting their adaptability in particular dynamic driving scenarios. However, planning must be done well in advance in environments such as highways, roundabouts, and exits to ensure safe and efficient maneuvers. To address this challenge, we propose a hybrid method integrating Monte Carlo Tree Search (MCTS) with our prior utility-based framework, COR-MP (Conservation of Resources Model for Maneuver Planning). This combination enables long-term, real-time decision-making, significantly enhancing the ability to plan a sequence of maneuvers over extended horizons. Through simulations across diverse driving scenarios, we demonstrate that COR-MCTS effectively improves planning robustness and decision efficiency over extended horizons.

arxiv情報

著者 Karim Essalmi,Fernando Garrido,Fawzi Nashashibi
発行日 2025-04-22 13:11:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | An Extended Horizon Tactical Decision-Making for Automated Driving Based on Monte Carlo Tree Search はコメントを受け付けていません