Learning to Insert for Constructive Neural Vehicle Routing Solver

要約

ニューラルの組み合わせ最適化(NCO)は、広範な手動設計なしで車両ルーティングの問題(VRP)を解決するための有望な学習ベースのアプローチです。
既存の建設的なNCOメソッドは、通常、偏見のないノードを部分的なソリューションに順次追加するアプリデンディングベースのパラダイムに従いますが、この厳格なアプローチはしばしば最適ではない結果につながります。
この制限を克服するために、挿入ベースのパラダイムのアイデアを調査し、建設的なNCOのための新しい学習ベースの方法である挿入ベースのパラダイム(L2C-Insert)で構築する学習を提案します。
従来のアプローチとは異なり、L2C-Insertは、柔軟性とソリューションの品質を大幅に向上させることができる、現在の部分的なソリューションの有効な位置に、訪問のないノードを戦略的に挿入することによりソリューションを構築します。
提案されたフレームワークは、3つの重要なコンポーネントを導入します。正確な挿入位置予測のための新しいモデルアーキテクチャ、モデルの最適化のための効率的なトレーニングスキーム、および挿入パラダイムの柔軟性を完全に活用する高度な推論手法です。
巡回セールスマンの問題(TSP)と容量のある車両ルーティング問題(CVRP)の合成および現実世界の両方のインスタンスに関する広範な実験は、L2Cインサートがさまざまな問題サイズにわたって一貫して優れたパフォーマンスを達成することを示しています。

要約(オリジナル)

Neural Combinatorial Optimisation (NCO) is a promising learning-based approach for solving Vehicle Routing Problems (VRPs) without extensive manual design. While existing constructive NCO methods typically follow an appending-based paradigm that sequentially adds unvisited nodes to partial solutions, this rigid approach often leads to suboptimal results. To overcome this limitation, we explore the idea of insertion-based paradigm and propose Learning to Construct with Insertion-based Paradigm (L2C-Insert), a novel learning-based method for constructive NCO. Unlike traditional approaches, L2C-Insert builds solutions by strategically inserting unvisited nodes at any valid position in the current partial solution, which can significantly enhance the flexibility and solution quality. The proposed framework introduces three key components: a novel model architecture for precise insertion position prediction, an efficient training scheme for model optimization, and an advanced inference technique that fully exploits the insertion paradigm’s flexibility. Extensive experiments on both synthetic and real-world instances of the Travelling Salesman Problem (TSP) and Capacitated Vehicle Routing Problem (CVRP) demonstrate that L2C-Insert consistently achieves superior performance across various problem sizes.

arxiv情報

著者 Fu Luo,Xi Lin,Mengyuan Zhong,Fei Liu,Zhenkun Wang,Jianyong Sun,Qingfu Zhang
発行日 2025-05-20 04:10:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Learning to Insert for Constructive Neural Vehicle Routing Solver はコメントを受け付けていません

4D-ROLLS: 4D Radar Occupancy Learning via LiDAR Supervision

要約

3Dシーンの包括的な理解は自動運転車(AVS)に不可欠であり、さまざまな知覚タスクの中で、占有可能なスペースの一般的な表現を提供することにより、占有率の推定が中心的な役割を果たします。
ただし、ほとんどの既存の占有推定方法は、煙、雨、雪、霧などの劣化した環境では、Lidarまたはカメラに依存しています。
この論文では、Lidar Point Cloudを監督信号として使用した4Dレーダーの最初の弱い監視された占有推定法である4Dロールを提案します。
具体的には、4Dレーダー占有率推定モデルを訓練するためのマルチステージの監督として、占有クエリやLIDAR高さマップを含む擬似ライダーラベルを生成する方法を紹介します。
次に、モデルはLidarによって生成された占有マップと整合し、占有推定の精度を微調整します。
広範な比較実験は、4Dロールの例外的なパフォーマンスを検証します。
劣化した環境における堅牢性とクロスダタセットトレーニングにおける有効性が定性的に実証されています。
このモデルは、下流のタスクBEVセグメンテーションとポイントクラウド占有予測にシームレスに転送され、より広範なアプリケーションの可能性を強調しています。
軽量ネットワークにより、4Dロールモデルは、4060 GPUで約30 Hzで速い推論速度を実現できます。
4Dロールのコードは、https://github.com/class-lab/4d-rollsで利用可能になります。

要約(オリジナル)

A comprehensive understanding of 3D scenes is essential for autonomous vehicles (AVs), and among various perception tasks, occupancy estimation plays a central role by providing a general representation of drivable and occupied space. However, most existing occupancy estimation methods rely on LiDAR or cameras, which perform poorly in degraded environments such as smoke, rain, snow, and fog. In this paper, we propose 4D-ROLLS, the first weakly supervised occupancy estimation method for 4D radar using the LiDAR point cloud as the supervisory signal. Specifically, we introduce a method for generating pseudo-LiDAR labels, including occupancy queries and LiDAR height maps, as multi-stage supervision to train the 4D radar occupancy estimation model. Then the model is aligned with the occupancy map produced by LiDAR, fine-tuning its accuracy in occupancy estimation. Extensive comparative experiments validate the exceptional performance of 4D-ROLLS. Its robustness in degraded environments and effectiveness in cross-dataset training are qualitatively demonstrated. The model is also seamlessly transferred to downstream tasks BEV segmentation and point cloud occupancy prediction, highlighting its potential for broader applications. The lightweight network enables 4D-ROLLS model to achieve fast inference speeds at about 30 Hz on a 4060 GPU. The code of 4D-ROLLS will be made available at https://github.com/CLASS-Lab/4D-ROLLS.

arxiv情報

著者 Ruihan Liu,Xiaoyi Wu,Xijun Chen,Liang Hu,Yunjiang Lou
発行日 2025-05-20 04:12:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | 4D-ROLLS: 4D Radar Occupancy Learning via LiDAR Supervision はコメントを受け付けていません

Learning Impact-Rich Rotational Maneuvers via Centroidal Velocity Rewards and Sim-to-Real Techniques: A One-Leg Hopper Flip Case Study

要約

フロントフリップなどの動的回転操作には、本質的に大きな角運動量の生成と激しい衝撃力が含まれ、強化学習とSIMから実現への大きな課題を提示します。
この作業では、重心速度ベースの報酬とアクチュエータを意識したSIMからリアルの技術を通じて、衝撃豊富な回転集約的な行動を学習および展開するための一般的なフレームワークを提案します。
従来のリンクレベルの報酬定式化が真の全身の回転を誘導できず、システム全体の回転ダイナミクスを正確にキャプチャする恒光度の角速度報酬を導入することを特定します。
極端な条件下でSIMからリアルのギャップを橋渡しするために、モーターモーター動作領域(MOR)をモデル化し、伝送負荷正規化を適用して、現実的なトルクコマンドと機械的堅牢性を確保します。
1つのレッグホッパーフロントフリップを代表的なケーススタディとして使用して、フルフロントフリップの最初の成功したハードウェア実現を示します。
私たちの結果は、中心体のダイナミクスとアクチュエータの制約を組み込むことが、非常にダイナミックな動きを確実に実行するために重要であることを強調しています。
補足ビデオは、https://youtu.be/atmavi4s1ryで入手できます

要約(オリジナル)

Dynamic rotational maneuvers, such as front flips, inherently involve large angular momentum generation and intense impact forces, presenting major challenges for reinforcement learning and sim-to-real transfer. In this work, we propose a general framework for learning and deploying impact-rich, rotation-intensive behaviors through centroidal velocity-based rewards and actuator-aware sim-to-real techniques. We identify that conventional link-level reward formulations fail to induce true whole-body rotation and introduce a centroidal angular velocity reward that accurately captures system-wide rotational dynamics. To bridge the sim-to-real gap under extreme conditions, we model motor operating regions (MOR) and apply transmission load regularization to ensure realistic torque commands and mechanical robustness. Using the one-leg hopper front flip as a representative case study, we demonstrate the first successful hardware realization of a full front flip. Our results highlight that incorporating centroidal dynamics and actuator constraints is critical for reliably executing highly dynamic motions. A supplementary video is available at: https://youtu.be/atMAVI4s1RY

arxiv情報

著者 Dongyun Kang,Gijeong Kim,JongHun Choe,Hajun Kim,Hae-Won Park
発行日 2025-05-20 04:16:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Learning Impact-Rich Rotational Maneuvers via Centroidal Velocity Rewards and Sim-to-Real Techniques: A One-Leg Hopper Flip Case Study はコメントを受け付けていません

Robotic Monitoring of Colorimetric Leaf Sensors for Precision Agriculture

要約

作物の健康を測定する現在のリモートセンシング技術
RGB、マルチスペクトル、ハイパースペクトル、およびLIDARは間接的であり、植物のストレス指標を直接キャプチャすることはできません。
代わりに、作物表面と直接編集する低コストの葉センサーは、リアルタイムの直接監視を進める機会を提供します。
この目的のために、センサーセンサーシステムを共同設計します。センサーは、精密な農業環境で作物の健康を直接測定する新しい比色葉センサーであり、検出器はこれらの葉センサーから自律的に光信号を取得します。
このシステムは、地上ロボットプラットフォームをオンボード単眼RGBカメラとオブジェクト検出器と統合して、葉のセンサーをローカライズし、電動ミラーとオンボードハロゲンライトを備えたハイパースペクトルカメラを統合して、葉の健康を特徴付けるスペクトル応答を抽出できるスペクトル応答を採取します。
屋外環境で動作する共同設計システムのデモンストレーションを成功させ、制御された実験室グレードの分光計測定と比較すると解釈可能なスペクトルを取得します。
このシステムは、屋内と屋外の両方で列部の環境で実証されており、存在するすべての葉センサーのハイパースペクトル画像を自律的にナビゲートし、見つけ、取得し、葉センサーから解釈可能なスペクトル共鳴を取得できます。

要約(オリジナル)

Current remote sensing technologies that measure crop health e.g. RGB, multispectral, hyperspectral, and LiDAR, are indirect, and cannot capture plant stress indicators directly. Instead, low-cost leaf sensors that directly interface with the crop surface present an opportunity to advance real-time direct monitoring. To this end, we co-design a sensor-detector system, where the sensor is a novel colorimetric leaf sensor that directly measures crop health in a precision agriculture setting, and the detector autonomously obtains optical signals from these leaf sensors. This system integrates a ground robot platform with an on-board monocular RGB camera and object detector to localize the leaf sensor, and a hyperspectral camera with motorized mirror and an on-board halogen light to acquire a hyperspectral reflectance image of the leaf sensor, from which a spectral response characterizing crop health can be extracted. We show a successful demonstration of our co-designed system operating in outdoor environments, obtaining spectra that are interpretable when compared to controlled laboratory-grade spectrometer measurements. The system is demonstrated in row-crop environments both indoors and outdoors where it is able to autonomously navigate, locate and obtain a hyperspectral image of all leaf sensors present, and retrieve interpretable spectral resonance from leaf sensors.

arxiv情報

著者 Malakhi Hopkins,Alice Kate Li,Shobhita Kramadhati,Jackson Arnold,Akhila Mallavarapu,Chavez Lawrence,Varun Murali,Sanjeev J. Koppal,Cherie Kagan,Vijay Kumar
発行日 2025-05-20 04:26:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Robotic Monitoring of Colorimetric Leaf Sensors for Precision Agriculture はコメントを受け付けていません

APEX: Empowering LLMs with Physics-Based Task Planning for Real-time Insight

要約

大規模な言語モデル(LLM)は、強力な推論とタスク計画機能を示していますが、物理的な相互作用モデリングにおいて根本的に限られたままです。
既存のアプローチは、ビジョン言語モデル(VLM)または強化学習(RL)を介した適応的意思決定を介して知覚を統合しますが、動的なオブジェクトの相互作用をキャプチャすることも、タスク固有のトレーニングを必要とし、現実世界の適用性を制限します。
リアルタイムタスク計画のために物理学駆動型の先見性をLLMに装備するフレームワークであるApex(予想物理学強化実行)を紹介します。
APEXは、環境で最も関連性の高い動的相互作用を識別およびモデル化するための構造化グラフを構築し、LLMに明示的な物理状態の更新を提供します。
同時に、APEXは物理的に実行可能なアクションの低遅延の前方シミュレーションを提供し、LLMが静的観測ではなく予測結果に基づいて最適な戦略を選択できるようにします。
知覚、予測、および意思決定を評価するために設計された3つのベンチマークで頂点を評価します。(1)物理学の推論ベンチマーク、因果推論、およびオブジェクトモーション予測のテスト。
(2)Tetris、物理学に基づいた予測が長期の計画タスクにおける意思決定パフォーマンスを高めるかどうかを評価する。
(3)動的障害回避、知覚とアクションの実現可能性分析の即時統合の評価。
Apexは、標準のLLMおよびVLMベースのモデルを大幅に上回り、言語ベースのインテリジェンスと実際のタスク実行の間のギャップを埋めるための明示的な物理的推論の必要性を示しています。
ソースコードと実験のセットアップは、https://github.com/hwj20/apex_expで公開されています。

要約(オリジナル)

Large Language Models (LLMs) demonstrate strong reasoning and task planning capabilities but remain fundamentally limited in physical interaction modeling. Existing approaches integrate perception via Vision-Language Models (VLMs) or adaptive decision-making through Reinforcement Learning (RL), but they fail to capture dynamic object interactions or require task-specific training, limiting their real-world applicability. We introduce APEX (Anticipatory Physics-Enhanced Execution), a framework that equips LLMs with physics-driven foresight for real-time task planning. APEX constructs structured graphs to identify and model the most relevant dynamic interactions in the environment, providing LLMs with explicit physical state updates. Simultaneously, APEX provides low-latency forward simulations of physically feasible actions, allowing LLMs to select optimal strategies based on predictive outcomes rather than static observations. We evaluate APEX on three benchmarks designed to assess perception, prediction, and decision-making: (1) Physics Reasoning Benchmark, testing causal inference and object motion prediction; (2) Tetris, evaluating whether physics-informed prediction enhances decision-making performance in long-horizon planning tasks; (3) Dynamic Obstacle Avoidance, assessing the immediate integration of perception and action feasibility analysis. APEX significantly outperforms standard LLMs and VLM-based models, demonstrating the necessity of explicit physics reasoning for bridging the gap between language-based intelligence and real-world task execution. The source code and experiment setup are publicly available at https://github.com/hwj20/APEX_EXP .

arxiv情報

著者 Wanjing Huang,Weixiang Yan,Zhen Zhang,Ambuj Singh
発行日 2025-05-20 04:34:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | APEX: Empowering LLMs with Physics-Based Task Planning for Real-time Insight はコメントを受け付けていません

Time Reversal Symmetry for Efficient Robotic Manipulations in Deep Reinforcement Learning

要約

対称性はロボット工学に普及しており、ディープ補強学習(DRL)のサンプル効率を改善するために広く利用されています。
ただし、既存のアプローチは、主に反射、回転、翻訳などの空間的対称性に焦点を当て、一時的な対称性をほとんど無視しています。
このギャップに対処するために、ドアの開閉などのロボットタスクで一般的に見られる時間的対称の形である時間反転対称性を探ります。
時間の逆方向の対称性強化されたディープ補強学習(TR-DRL)を提案します。これは、軌道反転増強と時間の逆転誘導報酬形状を組み合わせて、時間的に対称的なタスクを効率的に解くことを提案します。
私たちの方法は、トレーニングデータを強化するために、提案されたダイナミクス一貫性のあるフィルターによって識別される完全に可逆的な遷移から逆転した遷移を生成します。
部分的に可逆的な遷移のために、逆のタスクからの成功した軌跡に従って、学習を導くために報酬形状を適用します。
RobosuiteおよびMetaworldのベンチマークでの広範な実験は、TR-DRLがシングルタスク設定とマルチタスク設定の両方で効果的であることを示しており、ベースライン方法と比較してより高いサンプル効率と最終パフォーマンスが強化されています。

要約(オリジナル)

Symmetry is pervasive in robotics and has been widely exploited to improve sample efficiency in deep reinforcement learning (DRL). However, existing approaches primarily focus on spatial symmetries, such as reflection, rotation, and translation, while largely neglecting temporal symmetries. To address this gap, we explore time reversal symmetry, a form of temporal symmetry commonly found in robotics tasks such as door opening and closing. We propose Time Reversal symmetry enhanced Deep Reinforcement Learning (TR-DRL), a framework that combines trajectory reversal augmentation and time reversal guided reward shaping to efficiently solve temporally symmetric tasks. Our method generates reversed transitions from fully reversible transitions, identified by a proposed dynamics-consistent filter, to augment the training data. For partially reversible transitions, we apply reward shaping to guide learning, according to successful trajectories from the reversed task. Extensive experiments on the Robosuite and MetaWorld benchmarks demonstrate that TR-DRL is effective in both single-task and multi-task settings, achieving higher sample efficiency and stronger final performance compared to baseline methods.

arxiv情報

著者 Yunpeng Jiang,Jianshu Hu,Paul Weng,Yutong Ban
発行日 2025-05-20 04:40:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Time Reversal Symmetry for Efficient Robotic Manipulations in Deep Reinforcement Learning はコメントを受け付けていません

Sketch Interface for Teleoperation of Mobile Manipulator to Enable Intuitive and Intended Operation: A Proof of Concept

要約

ロボット工学の最近の進歩は、人間とロボットの間の効果的なコラボレーションの必要性を強調しています。
従来のインターフェイスは、ロボットの自律性と人間の監視のバランスをとるのに苦労しており、モバイル操作などの複雑なタスクでの実用的なアプリケーションを制限しています。
この研究の目的は、モバイルマニピュレーターがユーザーが提供するスケッチを自律的に解釈し、負担を最小限に抑えながらユーザーエクスペリエンスを強化できるようにする直感的なインターフェイスを開発することを目的としています。
機械学習アルゴリズムを使用してスケッチを処理するWebベースのアプリケーションを実装し、いつでもどこでも使用するモバイルデバイスでインターフェイスにアクセスできるようにしました。
最初の検証では、27の選択された操作とナビゲーションタスクについてユーザーが描いた自然なスケッチを調べ、スケッチの指示に関連する傾向に関する洞察を得ました。
2番目の検証では、5つの把握タスクを使用した比較実験が含まれ、スケッチインターフェイスがワークロードを減らし、従来の軸制御インターフェイスと比較して直感性を高めることを示しています。
これらの調査結果は、提案されたスケッチインターフェイスがモバイルマニピュレーターの効率を改善し、さまざまなアプリケーションで直感的なヒューマンロボットコラボレーションを統合するための新しい道を開くことを示唆しています。

要約(オリジナル)

Recent advancements in robotics have underscored the need for effective collaboration between humans and robots. Traditional interfaces often struggle to balance robot autonomy with human oversight, limiting their practical application in complex tasks like mobile manipulation. This study aims to develop an intuitive interface that enables a mobile manipulator to autonomously interpret user-provided sketches, enhancing user experience while minimizing burden. We implemented a web-based application utilizing machine learning algorithms to process sketches, making the interface accessible on mobile devices for use anytime, anywhere, by anyone. In the first validation, we examined natural sketches drawn by users for 27 selected manipulation and navigation tasks, gaining insights into trends related to sketch instructions. The second validation involved comparative experiments with five grasping tasks, showing that the sketch interface reduces workload and enhances intuitiveness compared to conventional axis control interfaces. These findings suggest that the proposed sketch interface improves the efficiency of mobile manipulators and opens new avenues for integrating intuitive human-robot collaboration in various applications.

arxiv情報

著者 Yuka Iwanaga,Masayoshi Tsuchinaga,Kosei Tanada,Yuji Nakamura,Takemitsu Mori,Takashi Yamamoto
発行日 2025-05-20 04:56:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Sketch Interface for Teleoperation of Mobile Manipulator to Enable Intuitive and Intended Operation: A Proof of Concept はコメントを受け付けていません

Mapless Collision-Free Flight via MPC using Dual KD-Trees in Cluttered Environments

要約

散らかった環境での衝突のない飛行は、自律的な四角体にとって重要な機能です。
従来の方法は、多くの場合、詳細な3Dマップ構造、軌跡の生成、追跡に依存しています。
ただし、このカスケードパイプラインは、累積エラーと計算遅延を導入し、飛行の俊敏性と安全性を制限することができます。
この論文では、3Dマップを明示的に構築したり、衝突のない軌道を生成したり追跡したりすることなく、乱雑な環境で衝突のない飛行を可能にするための新しい方法を提案します。
代わりに、モデル予測制御(MPC)を活用して、スパースウェイポイントから安全なアクションを直接生成し、深度カメラからポイントクラウドを作成します。
これらのスパースウェイポイントは、ポイントクラウドから検出された近くの障害に基づいて、オンラインで動的に調整されています。
これを実現するために、デュアルKDツリーメカニズムを導入します。KD-Treeは回避のために最も近い障害を迅速に識別しますが、Edge KD-TreeはMPCソルバーに堅牢な初期推測を提供し、障害物回避中に局所ミニマに詰まらないようにします。
広範なシミュレーションと現実世界の実験を通じてアプローチを検証します。
結果は、私たちのアプローチがマッピングベースの方法を大幅に上回り、模倣学習ベースの方法よりも優れており、シミュレーションで最大12 m/s、実際のテストで6 m/sで信頼できる障害物回避を実証することを示しています。
私たちの方法は、既存の方法に代わるシンプルで堅牢な代替品を提供します。

要約(オリジナル)

Collision-free flight in cluttered environments is a critical capability for autonomous quadrotors. Traditional methods often rely on detailed 3D map construction, trajectory generation, and tracking. However, this cascade pipeline can introduce accumulated errors and computational delays, limiting flight agility and safety. In this paper, we propose a novel method for enabling collision-free flight in cluttered environments without explicitly constructing 3D maps or generating and tracking collision-free trajectories. Instead, we leverage Model Predictive Control (MPC) to directly produce safe actions from sparse waypoints and point clouds from a depth camera. These sparse waypoints are dynamically adjusted online based on nearby obstacles detected from point clouds. To achieve this, we introduce a dual KD-Tree mechanism: the Obstacle KD-Tree quickly identifies the nearest obstacle for avoidance, while the Edge KD-Tree provides a robust initial guess for the MPC solver, preventing it from getting stuck in local minima during obstacle avoidance. We validate our approach through extensive simulations and real-world experiments. The results show that our approach significantly outperforms the mapping-based methods and is also superior to imitation learning-based methods, demonstrating reliable obstacle avoidance at up to 12 m/s in simulations and 6 m/s in real-world tests. Our method provides a simple and robust alternative to existing methods.

arxiv情報

著者 Linzuo Zhang,Yu Hu,Yang Deng,Feng Yu,Danping Zou
発行日 2025-05-20 05:11:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Mapless Collision-Free Flight via MPC using Dual KD-Trees in Cluttered Environments はコメントを受け付けていません

RoboFAC: A Comprehensive Framework for Robotic Failure Analysis and Correction

要約

Vision-Language-active(VLA)モデルは、自然言語の指示と画像情報を順次制御アクションに変換することにより、最近高度なロボット操作を行っています。
ただし、これらのモデルは、主に成功した専門家のデモンストレーションで訓練されており、故障回復の限られた能力を示しているため、オープンワールドのシナリオではパフォーマンスが低下していることがよくあります。
この作業では、この問題に対処するために、ロボット故障分析と修正(ROBOFAC)フレームワークを提示します。
第一に、シミュレーションと現実世界の両方の環境で、16の多様なタスクと53シーンにわたって9,440の誤った操作軌跡と78,623のQAペアで構成されるRobofacデータセットを構築します。
データセットを活用して、タスクの理解、障害分析、障害修正が可能なRobofacモデルを開発します。
実験結果は、ROBOFACモデルが評価ベンチマークでGPT-4Oを34.1%上回ることを示しています。
さらに、ROBOFACモデルを実際のVLAコントロールパイプラインに統合し、修正命令を提供する外部監督として統合し、4つの実際のタスクで平均して29.1%の相対的な改善をもたらします。
結果は、Robofacフレームワークがロボット障害を効果的に処理し、VLAモデルが障害から回復するのを支援することを示しています。

要約(オリジナル)

Vision-Language-Action (VLA) models have recently advanced robotic manipulation by translating natural-language instructions and image information into sequential control actions. However, these models often underperform in open-world scenarios, as they are predominantly trained on successful expert demonstrations and exhibit a limited capacity for failure recovery. In this work, we present a Robotic Failure Analysis and Correction (RoboFAC) framework to address this issue. Firstly, we construct RoboFAC dataset comprising 9,440 erroneous manipulation trajectories and 78,623 QA pairs across 16 diverse tasks and 53 scenes in both simulation and real-world environments. Leveraging our dataset, we develop RoboFAC model, which is capable of Task Understanding, Failure Analysis and Failure Correction. Experimental results demonstrate that the RoboFAC model outperforms GPT-4o by 34.1% on our evaluation benchmark. Furthermore, we integrate the RoboFAC model into a real-world VLA control pipeline as an external supervision providing correction instructions, yielding a 29.1% relative improvement on average on four real-world tasks. The results show that our RoboFAC framework effectively handles robotic failures and assists the VLA model in recovering from failures.

arxiv情報

著者 Weifeng Lu,Minghao Ye,Zewei Ye,Ruihan Tao,Shuo Yang,Bo Zhao
発行日 2025-05-20 05:16:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | RoboFAC: A Comprehensive Framework for Robotic Failure Analysis and Correction はコメントを受け付けていません

MultiDrive: A Co-Simulation Framework Bridging 2D and 3D Driving Simulation for AV Software Validation

要約

シミュレーションを使用したシナリオベースのテストは、自律車両(AVS)ソフトウェア検証の基礎です。
これまでのところ、開発者は、シナリオスペースを効率的に調査するために、低忠実度の2Dシミュレータを選択し、関連するシナリオをより詳細に研究するために高忠実度の3Dシミュレーターを選択する必要があり、SIMからリアルギャップを軽減しながらテストコストを削減する必要がありました。
このペーパーでは、モーションプランニングアルゴリズムの開発のための低忠実度と高忠実度のシミュレータ全体でシナリオベースのテストをサポートするために、マルチエージェントの共産と手続き上のシナリオ生成を活用する新しいフレームワークを紹介します。
私たちのフレームワークは、シミュレーターと実験の実行、軌跡分析、視覚化を自動化するシナリオを移行するために必要な努力を制限します。
参照モーションプランナーを使用した実験は、私たちのフレームワークがプランナーの意図された動作と実際の動作との間の矛盾を明らかにし、より現実的な条件下で計画の仮定の弱点を明らかにすることを示しています。
私たちのフレームワークは、https://github.com/tum-avs/multidriveで入手できます

要約(オリジナル)

Scenario-based testing using simulations is a cornerstone of Autonomous Vehicles (AVs) software validation. So far, developers needed to choose between low-fidelity 2D simulators to explore the scenario space efficiently, and high-fidelity 3D simulators to study relevant scenarios in more detail, thus reducing testing costs while mitigating the sim-to-real gap. This paper presents a novel framework that leverages multi-agent co-simulation and procedural scenario generation to support scenario-based testing across low- and high-fidelity simulators for the development of motion planning algorithms. Our framework limits the effort required to transition scenarios between simulators and automates experiment execution, trajectory analysis, and visualization. Experiments with a reference motion planner show that our framework uncovers discrepancies between the planner’s intended and actual behavior, thus exposing weaknesses in planning assumptions under more realistic conditions. Our framework is available at: https://github.com/TUM-AVS/MultiDrive

arxiv情報

著者 Marc Kaufeld,Korbinian Moller,Alessio Gambi,Paolo Arcaini,Johannes Betz
発行日 2025-05-20 05:44:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | MultiDrive: A Co-Simulation Framework Bridging 2D and 3D Driving Simulation for AV Software Validation はコメントを受け付けていません