HAD-Gen: Human-like and Diverse Driving Behavior Modeling for Controllable Scenario Generation

要約

シミュレーションベースのテストは、自律車両(AVS)を検証および検証するための不可欠なツールとして浮上しています。
ただし、決定論的や模倣学習ベースのドライバーモデルなどの現代の方法論は、人間のような運転行動の変動性を捉えるのに苦労しています。
これらの課題を考慮して、私たちは、多様な人間のような運転行動をシミュレートする現実的なトラフィックシナリオ生成の一般的なフレームワークであるHas-Genを提案します。
フレームワークは、最初に、車両の軌道データを安全機能に応じてさまざまな運転スタイルに刻みます。
次に、各クラスターの最大エントロピー逆補強学習を使用して、各運転スタイルに対応する報酬機能を学習します。
これらの報酬機能を使用して、この方法は、オフラインの強化学習前およびマルチエージェントの強化学習アルゴリズムを統合して、一般的で堅牢な運転ポリシーを取得します。
マルチパーセンティックシミュレーション結果は、提案されたシナリオ生成フレームワークが、強力な一般化能力を備えた多様で人間のような運転行動をシミュレートできることを示しています。
提案されたフレームワークは、90.96%の目標到達率、2.08%のオフロードレート、一般化テストで6.91%の衝突率を達成し、目標到達パフォーマンスで以前のアプローチを20%以上上回っています。
ソースコードはhttps://github.com/robosafe-lab/sim4adでリリースされます。

要約(オリジナル)

Simulation-based testing has emerged as an essential tool for verifying and validating autonomous vehicles (AVs). However, contemporary methodologies, such as deterministic and imitation learning-based driver models, struggle to capture the variability of human-like driving behavior. Given these challenges, we propose HAD-Gen, a general framework for realistic traffic scenario generation that simulates diverse human-like driving behaviors. The framework first clusters the vehicle trajectory data into different driving styles according to safety features. It then employs maximum entropy inverse reinforcement learning on each of the clusters to learn the reward function corresponding to each driving style. Using these reward functions, the method integrates offline reinforcement learning pre-training and multi-agent reinforcement learning algorithms to obtain general and robust driving policies. Multi-perspective simulation results show that our proposed scenario generation framework can simulate diverse, human-like driving behaviors with strong generalization capability. The proposed framework achieves a 90.96% goal-reaching rate, an off-road rate of 2.08%, and a collision rate of 6.91% in the generalization test, outperforming prior approaches by over 20% in goal-reaching performance. The source code is released at https://github.com/RoboSafe-Lab/Sim4AD.

arxiv情報

著者 Cheng Wang,Lingxin Kong,Massimiliano Tamborski,Stefano V. Albrecht
発行日 2025-03-19 09:38:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO | HAD-Gen: Human-like and Diverse Driving Behavior Modeling for Controllable Scenario Generation はコメントを受け付けていません

RoomTour3D: Geometry-Aware Video-Instruction Tuning for Embodied Navigation

要約

ビジョンと言語のナビゲーション(VLN)は、既存のシミュレーターの手動キュレーションによって主に制約されている、限られた多様性とトレーニングデータの規模に苦しんでいます。
これに対処するために、実際の屋内スペースと人間のウォーキングデモンストレーションをキャプチャするWebベースのルームツアービデオから派生したビデオインストラクションデータセットであるroomtour3dを紹介します。
既存のVLNデータセットとは異なり、RoomTour3Dはオンラインビデオのスケールと多様性を活用して、オープンエンドの人間の歩行軌跡とオープンワールドの航行可能な指示を生成します。
オンラインビデオのナビゲーションデータの不足を補うために、3D再構成を実行し、部屋の種類、オブジェクトの場所、周囲のシーンの3D形状に関する追加情報で増強されたウォーキングパスの3D軌跡を取得します。
当社のデータセットには、$ \ SIM $ 100Kの説明範囲が記載された軌跡が含まれており、$ \ sim $ 200kの指示と、1847年のルームツアー環境からのアクションが豊富な軌跡が17kに含まれています。
RoomTour3Dは、CVDN、まもなくR2R、Reverieなどの複数のVLNタスクにわたって大幅な改善を可能にすることを実験的に実証します。
さらに、RoomTour3Dは、トレーニング可能なゼロショットVLNエージェントの開発を促進し、オープンワールドナビゲーションに向けて前進する可能性と課題を紹介します。

要約(オリジナル)

Vision-and-Language Navigation (VLN) suffers from the limited diversity and scale of training data, primarily constrained by the manual curation of existing simulators. To address this, we introduce RoomTour3D, a video-instruction dataset derived from web-based room tour videos that capture real-world indoor spaces and human walking demonstrations. Unlike existing VLN datasets, RoomTour3D leverages the scale and diversity of online videos to generate open-ended human walking trajectories and open-world navigable instructions. To compensate for the lack of navigation data in online videos, we perform 3D reconstruction and obtain 3D trajectories of walking paths augmented with additional information on the room types, object locations and 3D shape of surrounding scenes. Our dataset includes $\sim$100K open-ended description-enriched trajectories with $\sim$200K instructions, and 17K action-enriched trajectories from 1847 room tour environments. We demonstrate experimentally that RoomTour3D enables significant improvements across multiple VLN tasks including CVDN, SOON, R2R, and REVERIE. Moreover, RoomTour3D facilitates the development of trainable zero-shot VLN agents, showcasing the potential and challenges of advancing towards open-world navigation.

arxiv情報

著者 Mingfei Han,Liang Ma,Kamila Zhumakhanova,Ekaterina Radionova,Jingyi Zhang,Xiaojun Chang,Xiaodan Liang,Ivan Laptev
発行日 2025-03-19 10:05:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | RoomTour3D: Geometry-Aware Video-Instruction Tuning for Embodied Navigation はコメントを受け付けていません

StyleLoco: Generative Adversarial Distillation for Natural Humanoid Robot Locomotion

要約

ヒューマノイドロボットは、さまざまな速度や地形にわたる自然な動きを確保しながら、幅広い運動能力を獲得することが期待されています。
既存の方法では、人型の移動を学習する際の基本的なジレンマに遭遇します。手作りの報酬による強化学習は、アジャイルな移動を達成できますが、不自然な歩行を生成しますが、モーションキャプチャデータを備えた生成的敵対的模倣学習(ゲイル)は自然な動きをもたらしますが、不安定なトレーニングプロセスと抑制された俊敏性に苦しみます。
これらのアプローチを統合することは、専門家のポリシーと人間の動きデータセットの間に固有の不均一性のために挑戦的であることがわかります。
これに対処するために、生成的敵対的蒸留(GAD)プロセスを通してこのギャップを埋める新しい2段階のフレームワークであるStylelocoを紹介します。
私たちのフレームワークは、補強学習を使用してアジャイルでダイナミックな移動を達成するために教師ポリシーをトレーニングすることから始まります。
その後、マルチディスクリミネーターアーキテクチャを採用します。このアーキテクチャでは、異なる判別器が教師ポリシーとモーションキャプチャデータの両方からスキルを同時に抽出します。
このアプローチは、強化学習の俊敏性と、敵対的な訓練に一般的に関連する不安定性の問題を軽減しながら、人間のような動きの自然な流動性を効果的に組み合わせています。
広範なシミュレーションと現実世界の実験を通じて、Stylelocoにより、ヒューマノイドロボットが巧みに訓練されたポリシーの精度と人間の動きの自然な美学の精度で多様な移動タスクを実行できることを実証し、さまざまな動きの種類にわたってスタイルを正常に転送しながら、司令型の幅広いスペクトルの幅広いスペクトルにわたって安定した移動を維持します。

要約(オリジナル)

Humanoid robots are anticipated to acquire a wide range of locomotion capabilities while ensuring natural movement across varying speeds and terrains. Existing methods encounter a fundamental dilemma in learning humanoid locomotion: reinforcement learning with handcrafted rewards can achieve agile locomotion but produces unnatural gaits, while Generative Adversarial Imitation Learning (GAIL) with motion capture data yields natural movements but suffers from unstable training processes and restricted agility. Integrating these approaches proves challenging due to the inherent heterogeneity between expert policies and human motion datasets. To address this, we introduce StyleLoco, a novel two-stage framework that bridges this gap through a Generative Adversarial Distillation (GAD) process. Our framework begins by training a teacher policy using reinforcement learning to achieve agile and dynamic locomotion. It then employs a multi-discriminator architecture, where distinct discriminators concurrently extract skills from both the teacher policy and motion capture data. This approach effectively combines the agility of reinforcement learning with the natural fluidity of human-like movements while mitigating the instability issues commonly associated with adversarial training. Through extensive simulation and real-world experiments, we demonstrate that StyleLoco enables humanoid robots to perform diverse locomotion tasks with the precision of expertly trained policies and the natural aesthetics of human motion, successfully transferring styles across different movement types while maintaining stable locomotion across a broad spectrum of command inputs.

arxiv情報

著者 Le Ma,Ziyu Meng,Tengyu Liu,Yuhan Li,Ran Song,Wei Zhang,Siyuan Huang
発行日 2025-03-19 10:27:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | StyleLoco: Generative Adversarial Distillation for Natural Humanoid Robot Locomotion はコメントを受け付けていません

Intelligent Spatial Perception by Building Hierarchical 3D Scene Graphs for Indoor Scenarios with the Help of LLMs

要約

このペーパーでは、大規模な言語モデル(LLMS)の機能を活用して屋内シナリオ用の階層的な3Dシーングラフ(3DSG)を構築する新しいシステムを導入することにより、空間環境をより全体的に理解するために、高度なインテリジェントロボットナビゲーションの高い需要に対処します。
提案されたフレームワークは、豊富なメトリックセマンチックな情報を備えた基本層、オブジェクトノードの正確なポイントクラウド表現、視覚的記述子の表現、および部屋、床、構築ノードの高層層を備えたオブジェクト層で構成される3DSGを構築します。
LLMの革新的なアプリケーションのおかげで、オブジェクトノードだけでなく、高層のノード、たとえば部屋のノードも、インテリジェントで正確な方法で注釈が付けられます。
LLMSを使用した部屋分類のためのポーリングメカニズムは、部屋のノード注釈の精度と信頼性を高めるために提案されています。
徹底的な数値実験は、セマンティックの説明を幾何学的データと統合するシステムの能力を示し、コンテキストを認識したナビゲーションとタスク計画のための環境の正確かつ包括的な表現を作成します。

要約(オリジナル)

This paper addresses the high demand in advanced intelligent robot navigation for a more holistic understanding of spatial environments, by introducing a novel system that harnesses the capabilities of Large Language Models (LLMs) to construct hierarchical 3D Scene Graphs (3DSGs) for indoor scenarios. The proposed framework constructs 3DSGs consisting of a fundamental layer with rich metric-semantic information, an object layer featuring precise point-cloud representation of object nodes as well as visual descriptors, and higher layers of room, floor, and building nodes. Thanks to the innovative application of LLMs, not only object nodes but also nodes of higher layers, e.g., room nodes, are annotated in an intelligent and accurate manner. A polling mechanism for room classification using LLMs is proposed to enhance the accuracy and reliability of the room node annotation. Thorough numerical experiments demonstrate the system’s ability to integrate semantic descriptions with geometric data, creating an accurate and comprehensive representation of the environment instrumental for context-aware navigation and task planning.

arxiv情報

著者 Yao Cheng,Zhe Han,Fengyang Jiang,Huaizhen Wang,Fengyu Zhou,Qingshan Yin,Lei Wei
発行日 2025-03-19 10:40:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Intelligent Spatial Perception by Building Hierarchical 3D Scene Graphs for Indoor Scenarios with the Help of LLMs はコメントを受け付けていません

Long-horizon Locomotion and Manipulation on a Quadrupedal Robot with Large Language Models

要約

大規模な言語モデル(LLM)ベースのシステムを提示して、短期的な動きを超えた長老タスクの問題解決能力を備えたクアドルペダルロボットを強化します。
四足動物の長距離タスクは、タスク計画のための問題のセマンティクスの高レベルの理解と、環境と対話するための幅広い運動と操作スキルの両方を必要とするため、困難です。
当社のシステムは、大規模な言語モデルを備えた高レベルの推論レイヤーを構築し、タスクの説明からロボットコードとしてハイブリッドの離散的な連続計画を生成します。
複数のLLMエージェントで構成されています。プランをスケッチするセマンティックプランナー、プランの引数を予測するパラメーター計算機、プランを実行可能ロボットコードに変換するコードジェネレーター、および実行障害または人間の介入を処理するReplanner。
低レベルでは、強化学習を採用して、豊かな環境相互作用のための四足動物の柔軟性を解き放つために、一連の動きの計画と制御スキルを訓練します。
私たちのシステムは、1つのスキルを完了することができない長距離タスクでテストされています。
シミュレーションと現実世界の実験は、マルチステップ戦略を成功裏に把握し、ツールの構築や人間に助けを求めることを含む非自明の行動を実証することを示しています。
デモは、プロジェクトページ(https://sites.google.com/view/long-horizo​​n-robot)で入手できます。

要約(オリジナル)

We present a large language model (LLM) based system to empower quadrupedal robots with problem-solving abilities for long-horizon tasks beyond short-term motions. Long-horizon tasks for quadrupeds are challenging since they require both a high-level understanding of the semantics of the problem for task planning and a broad range of locomotion and manipulation skills to interact with the environment. Our system builds a high-level reasoning layer with large language models, which generates hybrid discrete-continuous plans as robot code from task descriptions. It comprises multiple LLM agents: a semantic planner that sketches a plan, a parameter calculator that predicts arguments in the plan, a code generator that converts the plan into executable robot code, and a replanner that handles execution failures or human interventions. At the low level, we adopt reinforcement learning to train a set of motion planning and control skills to unleash the flexibility of quadrupeds for rich environment interactions. Our system is tested on long-horizon tasks that are infeasible to complete with one single skill. Simulation and real-world experiments show that it successfully figures out multi-step strategies and demonstrates non-trivial behaviors, including building tools or notifying a human for help. Demos are available on our project page: https://sites.google.com/view/long-horizon-robot.

arxiv情報

著者 Yutao Ouyang,Jinhan Li,Yunfei Li,Zhongyu Li,Chao Yu,Koushil Sreenath,Yi Wu
発行日 2025-03-19 10:44:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Long-horizon Locomotion and Manipulation on a Quadrupedal Robot with Large Language Models はコメントを受け付けていません

VIPER: Visual Perception and Explainable Reasoning for Sequential Decision-Making

要約

大規模な言語モデル(LLM)は、テキストおよびビジョン言語モデル(VLM)の推論に優れていますが、視覚的な知覚に非常に効果的ですが、視覚的な指導に基づく計画にそれらのモデルを適用することは広く開かれた問題です。
このペーパーでは、VLMベースの認識をLLMベースの推論と統合するマルチモーダル指導ベースの計画の新しいフレームワークであるViperを紹介します。
私たちのアプローチでは、フローズンVLMが画像観測のテキストの説明を生成するモジュラーパイプラインを使用し、LLMポリシーによって処理され、タスク目標に基づいてアクションを予測します。
行動のクローニングと強化学習を使用して、推論モジュールを微調整し、エージェントの意思決定能力を向上させます。
Alfworldベンチマークでの実験は、Viperが純粋にテキストベースのオラクルでギャップを狭めながら、最先端の視覚的指導ベースのプランナーを大幅に上回ることを示しています。
テキストを中間表現として活用することにより、Viperは説明可能性も向上させ、知覚と推論コンポーネントのきめの細かい分析への道を開きます。

要約(オリジナル)

While Large Language Models (LLMs) excel at reasoning on text and Vision-Language Models (VLMs) are highly effective for visual perception, applying those models for visual instruction-based planning remains a widely open problem. In this paper, we introduce VIPER, a novel framework for multimodal instruction-based planning that integrates VLM-based perception with LLM-based reasoning. Our approach uses a modular pipeline where a frozen VLM generates textual descriptions of image observations, which are then processed by an LLM policy to predict actions based on the task goal. We fine-tune the reasoning module using behavioral cloning and reinforcement learning, improving our agent’s decision-making capabilities. Experiments on the ALFWorld benchmark show that VIPER significantly outperforms state-of-the-art visual instruction-based planners while narrowing the gap with purely text-based oracles. By leveraging text as an intermediate representation, VIPER also enhances explainability, paving the way for a fine-grained analysis of perception and reasoning components.

arxiv情報

著者 Mohamed Salim Aissi,Clemence Grislain,Mohamed Chetouani,Olivier Sigaud,Laure Soulier,Nicolas Thome
発行日 2025-03-19 11:05:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | VIPER: Visual Perception and Explainable Reasoning for Sequential Decision-Making はコメントを受け付けていません

A Comparative Study of Human Motion Models in Reinforcement Learning Algorithms for Social Robot Navigation

要約

ソーシャルロボットナビゲーションは、人間が住む動的環境を安全にナビゲートするための効率的な戦略を見つけることを目的とする進化する研究分野です。
このドメインの重要な課題は、ナビゲーションアルゴリズムの設計と評価に直接影響する人間の動きの正確なモデリングです。
このペーパーでは、ソーシャルロボットナビゲーションで使用される2つの一般的なカテゴリの人間の動きモデル、すなわち速度ベースのモデルと力ベースのモデルの比較研究を紹介します。
両方のモデルタイプのシステム理論表現が提示されており、異なる状態変数を使用していますが、それらの一般的なフィードバック構造を強調しています。
補強学習に基づいたいくつかのナビゲーションポリシーは、これらのアプローチでモデル化された歩行者の群衆を含むさまざまなシミュレートされた環境で訓練およびテストされています。
比較研究が実施され、人間の動きモデル、ナビゲーションポリシー、シナリオの複雑さ、群衆密度など、複数の要因にわたってパフォーマンスを評価します。
結果は、人間の行動をモデル化するためのさまざまなアプローチの利点と課題、および学習ベースのナビゲーションポリシーのトレーニングとテスト中の役割を強調しています。
この調査結果は、社会的に認識されているロボットナビゲーションシステムを設計する際に、適切な人間の動きモデルを選択するための貴重な洞察とガイドラインを提供します。

要約(オリジナル)

Social robot navigation is an evolving research field that aims to find efficient strategies to safely navigate dynamic environments populated by humans. A critical challenge in this domain is the accurate modeling of human motion, which directly impacts the design and evaluation of navigation algorithms. This paper presents a comparative study of two popular categories of human motion models used in social robot navigation, namely velocity-based models and force-based models. A system-theoretic representation of both model types is presented, which highlights their common feedback structure, although with different state variables. Several navigation policies based on reinforcement learning are trained and tested in various simulated environments involving pedestrian crowds modeled with these approaches. A comparative study is conducted to assess performance across multiple factors, including human motion model, navigation policy, scenario complexity and crowd density. The results highlight advantages and challenges of different approaches to modeling human behavior, as well as their role during training and testing of learning-based navigation policies. The findings offer valuable insights and guidelines for selecting appropriate human motion models when designing socially-aware robot navigation systems.

arxiv情報

著者 Tommaso Van Der Meer,Andrea Garulli,Antonio Giannitrapani,Renato Quartullo
発行日 2025-03-19 11:41:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO, cs.SY, eess.SY | A Comparative Study of Human Motion Models in Reinforcement Learning Algorithms for Social Robot Navigation はコメントを受け付けていません

Volumetric Reconstruction From Partial Views for Task-Oriented Grasping

要約

オブジェクトのアフォーダンスとボリューム情報は、タスク固有の制約の下で効果的な把握戦略を考案する上で不可欠です。
この論文では、オブジェクトの限られた部分的ビューから適切な把握戦略を推測するためのアプローチを提示します。
これを達成するために、さまざまな数の深度スキャンを処理するために、長期の短期メモリ(LSTM)ユニットを備えた再発発電機を組み込むことにより、再発性生成敵意ネットワーク(R-GAN)が提案されました。
オブジェクトのアフォーダンスを決定するために、Adversopes Knowledge Datasetは事前知識として利用されます。
アフォーダンス検索は、面取り距離とアクションの類似性を介して測定された体積類似性によって定義されます。
近位政策最適化(PPO)補強学習モデルがさらに実装され、タスク指向の把握のための検索された把握戦略を改良します。
検索された把握戦略は、4つのタスクで89%の全体的な把握精度で、デュアルアームモバイル操作ロボットで評価されました。

要約(オリジナル)

Object affordance and volumetric information are essential in devising effective grasping strategies under task-specific constraints. This paper presents an approach for inferring suitable grasping strategies from limited partial views of an object. To achieve this, a recurrent generative adversarial network (R-GAN) was proposed by incorporating a recurrent generator with long short-term memory (LSTM) units for it to process a variable number of depth scans. To determine object affordances, the AffordPose knowledge dataset is utilized as prior knowledge. Affordance retrieving is defined by the volume similarity measured via Chamfer Distance and action similarities. A Proximal Policy Optimization (PPO) reinforcement learning model is further implemented to refine the retrieved grasp strategies for task-oriented grasping. The retrieved grasp strategies were evaluated on a dual-arm mobile manipulation robot with an overall grasping accuracy of 89% for four tasks: lift, handle grasp, wrap grasp, and press.

arxiv情報

著者 Fujian Yan,Hui Li,Hongsheng He
発行日 2025-03-19 12:47:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Volumetric Reconstruction From Partial Views for Task-Oriented Grasping はコメントを受け付けていません

A Unified Framework for Real-Time Failure Handling in Robotics Using Vision-Language Models, Reactive Planner and Behavior Trees

要約

ロボットシステムは、予期しない障害、センサーエラー、または環境の変化により、しばしば実行障害に直面しています。
従来の故障回復方法は、事前定義された戦略や人間の介入に依存しており、それらをより順応性を低下させます。
このペーパーでは、リアルタイムの障害処理を可能にするために、Vision-Language Models(VLMS)、リアクティブプランナー、および動作ツリー(BTS)を組み合わせた統一された障害回復フレームワークを紹介します。
私たちのアプローチには、実行前の潜在的な障害をチェックする解実行前の検証、および既存のBT条件を検証し、前提条件の欠落を追加し、必要に応じて新しいスキルを生成することにより、実行中の障害を検出および修正する反応性障害処理が含まれます。
このフレームワークは、構造化された環境認識のためのシーングラフと、継続的な監視のために実行履歴を使用し、コンテキスト対応および適応障害処理を可能にします。
AI2-THORシミュレーターだけでなく、PEG挿入、オブジェクトソート、引き出しの配置などのタスクに関するABBユミロボットを使用した実際の実験を通じて、フレームワークを評価します。
事前解釈と反応的方法を個別に使用することと比較して、私たちのアプローチは、より高いタスクの成功率とより大きな適応性を達成します。
アブレーション研究は、VLMベースの推論、構造化されたシーン表現、およびロボット工学の効果的な障害回復のための実行履歴追跡の重要性を強調しています。

要約(オリジナル)

Robotic systems often face execution failures due to unexpected obstacles, sensor errors, or environmental changes. Traditional failure recovery methods rely on predefined strategies or human intervention, making them less adaptable. This paper presents a unified failure recovery framework that combines Vision-Language Models (VLMs), a reactive planner, and Behavior Trees (BTs) to enable real-time failure handling. Our approach includes pre-execution verification, which checks for potential failures before execution, and reactive failure handling, which detects and corrects failures during execution by verifying existing BT conditions, adding missing preconditions and, when necessary, generating new skills. The framework uses a scene graph for structured environmental perception and an execution history for continuous monitoring, enabling context-aware and adaptive failure handling. We evaluate our framework through real-world experiments with an ABB YuMi robot on tasks like peg insertion, object sorting, and drawer placement, as well as in AI2-THOR simulator. Compared to using pre-execution and reactive methods separately, our approach achieves higher task success rates and greater adaptability. Ablation studies highlight the importance of VLM-based reasoning, structured scene representation, and execution history tracking for effective failure recovery in robotics.

arxiv情報

著者 Faseeh Ahmad,Hashim Ismail,Jonathan Styrud,Maj Stenmark,Volker Krueger
発行日 2025-03-19 13:40:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | A Unified Framework for Real-Time Failure Handling in Robotics Using Vision-Language Models, Reactive Planner and Behavior Trees はコメントを受け付けていません

A Deep Reinforcement Learning Based Motion Cueing Algorithm for Vehicle Driving Simulation

要約

モーションキューイングアルゴリズム(MCA)を使用して、モーションシミュレーションプラットフォーム(MSP)の動きを制御して、MSPのワークスペースの制限を超えることなく、実際の車両ドライバーのモーション認識を可能な限り正確に再現します。
既存のアプローチは、フィルタリング、線形化、または単純化による非最適な結果を生成するか、必要な計算時間を閉ループアプリケーションのリアルタイム要件を超えています。
この作業は、MCAの原理を指定する人間のデザイナーの代わりに、人工知能(AI)がMSPとの相互作用の試行錯誤によって最適な動きを学習するモーションキューイング問題に対する新しいソリューションを提示します。
これを達成するために、十分に確立されたディープ強化学習(RL)アルゴリズムが適用されます。エージェントが環境と対話し、シミュレートされたMSPを直接制御してパフォーマンスに関するフィードバックを得ることができます。
使用されるRLアルゴリズムは近位ポリシー最適化(PPO)であり、制御戦略に対応する値関数とポリシーは、人工ニューラルネットワーク(ANN)で学習およびマッピングされます。
このアプローチはPythonで実装されており、機能は事前に録音された横方向の操作の実用的な例によって実証されています。
その後の検証は、RLアルゴリズムが制御戦略を学習し、確立された方法と比較して浸漬の品質を改善できることを示しています。
それにより、前庭系のモデルによって決定される知覚されるモーション信号がより正確に再現され、MSPのリソースがより経済的に使用されます。

要約(オリジナル)

Motion cueing algorithms (MCA) are used to control the movement of motion simulation platforms (MSP) to reproduce the motion perception of a real vehicle driver as accurately as possible without exceeding the limits of the workspace of the MSP. Existing approaches either produce non-optimal results due to filtering, linearization, or simplifications, or the computational time required exceeds the real-time requirements of a closed-loop application. This work presents a new solution to the motion cueing problem, where instead of a human designer specifying the principles of the MCA, an artificial intelligence (AI) learns the optimal motion by trial and error in interaction with the MSP. To achieve this, a well-established deep reinforcement learning (RL) algorithm is applied, where an agent interacts with an environment, allowing him to directly control a simulated MSP to obtain feedback on its performance. The RL algorithm used is proximal policy optimization (PPO), where the value function and the policy corresponding to the control strategy are both learned and mapped in artificial neural networks (ANN). This approach is implemented in Python and the functionality is demonstrated by the practical example of pre-recorded lateral maneuvers. The subsequent validation shows that the RL algorithm is able to learn the control strategy and improve the quality of the immersion compared to an established method. Thereby, the perceived motion signals determined by a model of the vestibular system are more accurately reproduced, and the resources of the MSP are used more economically.

arxiv情報

著者 Hendrik Scheidel,Houshyar Asadi,Tobias Bellmann,Andreas Seefried,Shady Mohamed,Saeid Nahavandi
発行日 2025-03-19 13:49:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | A Deep Reinforcement Learning Based Motion Cueing Algorithm for Vehicle Driving Simulation はコメントを受け付けていません