A0: An Affordance-Aware Hierarchical Model for General Robotic Manipulation

要約

ロボット操作は、オブジェクトの相互作用の「「ここ」と「どのように」という空間アフォーダンスを理解する上で重要な課題に直面しています。
モジュラーベースおよびエンドツーエンドのアプローチを含む既存の方法には、多くの場合、堅牢な空間的推論機能が欠けています。
密な空間表現または軌道モデリングに焦点を当てた最近のポイントベースおよびフローベースのアフォーダンス方法とは異なり、操作タスクを高レベルの空間アフォーダンス理解と低レベルのアクション実行に分解する階層的なアフォーダンス認識拡散モデルであるA0を提案します。
A0は、コンタクトポイントと接触後の軌道を予測することにより、オブジェクト中心の空間アフォーダンスをキャプチャする具体化と存在するアフォーダンス表現を活用します。
A0は、100万個の接点データで事前に訓練され、注釈付きの軌跡で微調整されており、プラットフォーム間で一般化を可能にします。
重要なコンポーネントには、モーションアウェア機能抽出の位置オフセット注意と、正確な座標マッピングのための空間情報集約レイヤーが含まれます。
モデルの出力は、アクション実行モジュールによって実行されます。
複数のロボットシステム(Franka、Kinova、Realman、およびDobot)の実験は、複雑なタスクでA0の優れたパフォーマンスを示し、その効率、柔軟性、および実際の適用性を示しています。

要約(オリジナル)

Robotic manipulation faces critical challenges in understanding spatial affordances–the ‘where’ and ‘how’ of object interactions–essential for complex manipulation tasks like wiping a board or stacking objects. Existing methods, including modular-based and end-to-end approaches, often lack robust spatial reasoning capabilities. Unlike recent point-based and flow-based affordance methods that focus on dense spatial representations or trajectory modeling, we propose A0, a hierarchical affordance-aware diffusion model that decomposes manipulation tasks into high-level spatial affordance understanding and low-level action execution. A0 leverages the Embodiment-Agnostic Affordance Representation, which captures object-centric spatial affordances by predicting contact points and post-contact trajectories. A0 is pre-trained on 1 million contact points data and fine-tuned on annotated trajectories, enabling generalization across platforms. Key components include Position Offset Attention for motion-aware feature extraction and a Spatial Information Aggregation Layer for precise coordinate mapping. The model’s output is executed by the action execution module. Experiments on multiple robotic systems (Franka, Kinova, Realman, and Dobot) demonstrate A0’s superior performance in complex tasks, showcasing its efficiency, flexibility, and real-world applicability.

arxiv情報

著者 Rongtao Xu,Jian Zhang,Minghao Guo,Youpeng Wen,Haoting Yang,Min Lin,Jianzheng Huang,Zhe Li,Kaidong Zhang,Liqiong Wang,Yuxuan Kuang,Meng Cao,Feng Zheng,Xiaodan Liang
発行日 2025-05-06 07:45:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A0: An Affordance-Aware Hierarchical Model for General Robotic Manipulation はコメントを受け付けていません

Enabling Robots to Autonomously Search Dynamic Cluttered Post-Disaster Environments

要約

ロボットは、人間からの危険なSARタスクを自律的に引き継ぐことができる場合に備えて、別のレベルへの災害対応で捜索救助(SAR)をもたらします。
自律的なSARロボットの主な課題は、静的および動く障害を避けながら、不確実性を備えた乱雑な環境で安全にナビゲートすることです。
SARロボットの名目上(不確実性がないと仮定)衝突のない軌道を提供する計算効率的なヒューリスティックモーションプランニングシステムと、ロボットを操縦してこの参照軌道を追跡し、不確実性の影響を考慮してロボットを操縦する、動的で不確実な環境におけるSARロボットの統合制御フレームワークを提案します。
制御アーキテクチャは、安全を含むハード制約を処理しながら、さまざまなSAR目標間のバランスの取れたトレードオフを保証します。
この論文に示されているさまざまなコンピューターベースのシミュレーションの結果は、提案された統合制御アーキテクチャの有意なパフォーマンス(最大42.3%)を示しました。

要約(オリジナル)

Robots will bring search and rescue (SaR) in disaster response to another level, in case they can autonomously take over dangerous SaR tasks from humans. A main challenge for autonomous SaR robots is to safely navigate in cluttered environments with uncertainties, while avoiding static and moving obstacles. We propose an integrated control framework for SaR robots in dynamic, uncertain environments, including a computationally efficient heuristic motion planning system that provides a nominal (assuming there are no uncertainties) collision-free trajectory for SaR robots and a robust motion tracking system that steers the robot to track this reference trajectory, taking into account the impact of uncertainties. The control architecture guarantees a balanced trade-off among various SaR objectives, while handling the hard constraints, including safety. The results of various computer-based simulations, presented in this paper, showed significant out-performance (of up to 42.3%) of the proposed integrated control architecture compared to two commonly used state-of-the-art methods (Rapidly-exploring Random Tree and Artificial Potential Function) in reaching targets (e.g., trapped victims in SaR) safely, collision-free, and in the shortest possible time.

arxiv情報

著者 Karlo Rado,Mirko Baglioni,Anahita Jamshidnejad
発行日 2025-05-06 08:10:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Enabling Robots to Autonomously Search Dynamic Cluttered Post-Disaster Environments はコメントを受け付けていません

OccCylindrical: Multi-Modal Fusion with Cylindrical Representation for 3D Semantic Occupancy Prediction

要約

自動運転車(AVS)の安全な操作は、周囲の理解に大きく依存しています。
このため、3Dセマンティック占有率予測のタスクは、センサーの周りのスペースをボクセルに分割し、各ボクセルを占有率とセマンティック情報の両方でラベル付けします。
最近の知覚モデルでは、このタスクを実行するためにマルチセンサー融合を使用しています。
ただし、既存のマルチセンサー融合ベースのアプローチは、主にデカルト座標系でセンサー情報の使用に焦点を当てています。
これは、センサーの測定値の分布を無視し、細かい詳細とパフォーマンスの劣化が失われます。
この論文では、円筒座標の下でさまざまなモダリティ機能をマージおよび改良するOcccylindricalを提案します。
私たちの方法は、より良いパフォーマンスにつながるより微調整されたジオメトリの詳細を保持します。
雨のような雨や夜間のシナリオに挑戦するなど、ヌスセンデータセットで実施された広範な実験は、アプローチの有効性と最先端のパフォーマンスを確認します。
このコードは、https://github.com/danielming123/occcylindricalで入手できます

要約(オリジナル)

The safe operation of autonomous vehicles (AVs) is highly dependent on their understanding of the surroundings. For this, the task of 3D semantic occupancy prediction divides the space around the sensors into voxels, and labels each voxel with both occupancy and semantic information. Recent perception models have used multisensor fusion to perform this task. However, existing multisensor fusion-based approaches focus mainly on using sensor information in the Cartesian coordinate system. This ignores the distribution of the sensor readings, leading to a loss of fine-grained details and performance degradation. In this paper, we propose OccCylindrical that merges and refines the different modality features under cylindrical coordinates. Our method preserves more fine-grained geometry detail that leads to better performance. Extensive experiments conducted on the nuScenes dataset, including challenging rainy and nighttime scenarios, confirm our approach’s effectiveness and state-of-the-art performance. The code will be available at: https://github.com/DanielMing123/OccCylindrical

arxiv情報

著者 Zhenxing Ming,Julie Stephany Berrio,Mao Shan,Yaoqi Huang,Hongyu Lyu,Nguyen Hoang Khoi Tran,Tzu-Yun Tseng,Stewart Worrall
発行日 2025-05-06 08:12:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | OccCylindrical: Multi-Modal Fusion with Cylindrical Representation for 3D Semantic Occupancy Prediction はコメントを受け付けていません

Capability-Driven Skill Generation with LLMs: A RAG-Based Approach for Reusing Existing Libraries and Interfaces

要約

最新の自動化システムは、1つのソリューションとしての機能とスキルをアプローチする能力とスキルを備えたモジュラーアーキテクチャにますます依存しています。
機能は、マシン読み取り可能な形式でリソースの機能を定義し、スキルはそれらの機能を実現する具体的な実装を提供します。
ただし、対応する機能に準拠するスキル実装の開発は、時間がかかり、困難なタスクのままです。
この論文では、機能をスキルの実装の契約として扱い、大規模な言語モデルを活用して自然言語ユーザー入力に基づいて実行可能なコードを生成する方法を提示します。
私たちのアプローチの重要な特徴は、既存のソフトウェアライブラリとインターフェイステクノロジーの統合であり、異なるターゲット言語でのスキル実装の生成を可能にすることです。
検索された生成アーキテクチャを通じて、ユーザーが独自のライブラリとリソースインターフェイスをコード生成プロセスに組み込むことができるフレームワークを紹介します。
提案された方法は、PythonとROS 2を介して制御された自律モバイルロボットを使用して評価され、アプローチの実現可能性と柔軟性を実証します。

要約(オリジナル)

Modern automation systems increasingly rely on modular architectures, with capabilities and skills as one solution approach. Capabilities define the functions of resources in a machine-readable form and skills provide the concrete implementations that realize those capabilities. However, the development of a skill implementation conforming to a corresponding capability remains a time-consuming and challenging task. In this paper, we present a method that treats capabilities as contracts for skill implementations and leverages large language models to generate executable code based on natural language user input. A key feature of our approach is the integration of existing software libraries and interface technologies, enabling the generation of skill implementations across different target languages. We introduce a framework that allows users to incorporate their own libraries and resource interfaces into the code generation process through a retrieval-augmented generation architecture. The proposed method is evaluated using an autonomous mobile robot controlled via Python and ROS 2, demonstrating the feasibility and flexibility of the approach.

arxiv情報

著者 Luis Miguel Vieira da Silva,Aljosha Köcher,Nicolas König,Felix Gehlhoff,Alexander Fay
発行日 2025-05-06 08:27:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SE | Capability-Driven Skill Generation with LLMs: A RAG-Based Approach for Reusing Existing Libraries and Interfaces はコメントを受け付けていません

The Unreasonable Effectiveness of Discrete-Time Gaussian Process Mixtures for Robot Policy Learning

要約

ロボット操作における柔軟なポリシー表現と模倣学習のための新しいアプローチである離散時間ガウスプロセス(MIDIGAP)の混合を提示します。
MIDIGAPは、カメラの観測のみを使用してわずか5つのデモンストレーションから学習することを可能にし、幅広い挑戦的なタスクにわたって一般化できます。
コーヒーの製造、ドアの開くなどの非常に制約のある動き、スパチュラでのスクープなどのダイナミックなアクション、マグカップの吊り下げなどのマルチモーダルタスクなどの長年の行動に優れています。
Midigapは、CPUでこれらのタスクを1分未満で学習し、大きなデータセットに直線的にスケールします。
また、衝突信号やロボットの運動学的制約などの証拠を使用して、推論時間ステアリング用の豊富なツールスイートを開発します。
このステアリングにより、障害物の回避や交差体政策移転など、新しい一般化能力が可能になります。
Midigapは、多様な少数のショット操作ベンチマークで最先端のパフォーマンスを実現しています。
制約付きのRLBenchタスクでは、ポリシーの成功を76パーセントポイント改善し、軌道コストを67%削減します。
マルチモーダルタスクでは、ポリシーの成功を48パーセントポイント改善し、サンプルの効率を20倍に増やします。相互拡大転送では、2倍のポリシーの成功を超えています。
コードをhttps://midigap.cs.uni-freiburg.deで公開しています。

要約(オリジナル)

We present Mixture of Discrete-time Gaussian Processes (MiDiGap), a novel approach for flexible policy representation and imitation learning in robot manipulation. MiDiGap enables learning from as few as five demonstrations using only camera observations and generalizes across a wide range of challenging tasks. It excels at long-horizon behaviors such as making coffee, highly constrained motions such as opening doors, dynamic actions such as scooping with a spatula, and multimodal tasks such as hanging a mug. MiDiGap learns these tasks on a CPU in less than a minute and scales linearly to large datasets. We also develop a rich suite of tools for inference-time steering using evidence such as collision signals and robot kinematic constraints. This steering enables novel generalization capabilities, including obstacle avoidance and cross-embodiment policy transfer. MiDiGap achieves state-of-the-art performance on diverse few-shot manipulation benchmarks. On constrained RLBench tasks, it improves policy success by 76 percentage points and reduces trajectory cost by 67%. On multimodal tasks, it improves policy success by 48 percentage points and increases sample efficiency by a factor of 20. In cross-embodiment transfer, it more than doubles policy success. We make the code publicly available at https://midigap.cs.uni-freiburg.de.

arxiv情報

著者 Jan Ole von Hartz,Adrian Röfer,Joschka Boedecker,Abhinav Valada
発行日 2025-05-06 08:27:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | The Unreasonable Effectiveness of Discrete-Time Gaussian Process Mixtures for Robot Policy Learning はコメントを受け付けていません

Rule-Based Lloyd Algorithm for Multi-Robot Motion Planning and Control with Safety and Convergence Guarantees

要約

このペーパーでは、マルチロボットモーションの計画と制御のための分散ルールベースのロイドアルゴリズム(RBL)を紹介します。
基本的なロイドベースのアルゴリズム(LB)の主な制限は、デッドロックの問題と動的制約に効果的に対処できないことに関係しています。
私たちの貢献は2つあります。
まず、RBLがロボット間の通信やロボット間の同期に依存せずに、目標領域に安全性と収束を提供できる方法を示します。
制御入力の飽和により、異なる動的制約を検討しました。
第二に、ロイドベースのアルゴリズム(ルールなし)は、学習ベースのアプローチの安全層として正常に使用され、無視できない利点につながることを示します。
さらに、広範なシミュレーション、最先端のアートとの比較、および小規模の自動車のようなロボット、一輪車のようなロボット、全方向ロボット、およびフィールド上の航空ロボットの実験的検証を通じて、RBLの健全性、信頼性、およびスケーラビリティをさらに証明します。

要約(オリジナル)

This paper presents a distributed rule-based Lloyd algorithm (RBL) for multi-robot motion planning and control. The main limitations of the basic Loyd-based algorithm (LB) concern deadlock issues and the failure to address dynamic constraints effectively. Our contribution is twofold. First, we show how RBL is able to provide safety and convergence to the goal region without relying on communication between robots, nor synchronization between the robots. We considered different dynamic constraints with control inputs saturation. Second, we show that the Lloyd-based algorithm (without rules) can be successfully used as a safety layer for learning-based approaches, leading to non-negligible benefits. We further prove the soundness, reliability, and scalability of RBL through extensive simulations, comparisons with the state of the art, and experimental validations on small-scale car-like robots, unicycle-like robots, omnidirectional robots, and aerial robots on the field.

arxiv情報

著者 Manuel Boldrer,Alvaro Serra-Gomez,Lorenzo Lyons,Vit Kratky,Javier Alonso-Mora,Laura Ferranti
発行日 2025-05-06 08:57:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Rule-Based Lloyd Algorithm for Multi-Robot Motion Planning and Control with Safety and Convergence Guarantees はコメントを受け付けていません

Miniature multihole airflow sensor for lightweight aircraft over wide speed and angular range

要約

航空機の対気速度、攻撃角、およびサイドスリップの角度は、特にストール体制の近くで飛行する場合、その安全に重要です。
ピトーチューブ、角張った羽根、マルチホール圧力プローブなど、さまざまな溶液が存在します。
ただし、現在のセンサーは重すぎる(> 30 g)か、大きな大気速度(> 20 m/s)を必要とするため、小規模な自動車車両には適さないものです。
新しいコンポーネント構造にセンシングエレクトロニクスを統合して、パブリックドメインにリリースした機械的に堅牢で軽量センサー(9 g)を統合する新しいマルチホール圧力プローブを提案します。
2つの重要な設計パラメーター、先端形状(円錐形と球形)と穴の間隔(穴間の距離)にコンセンサスがないため、風洞実験を使用した測定精度とノイズ生成に関する研究を提供します。
センサーは、3〜27 m/sの対気速度範囲上の多変量多項式回帰モデルと +-35 {\ deg}の攻撃/サイドリップ範囲の角度を使用して較正され、0.44 m/sと0.16 {\ deg}の平均絶対誤差を達成します。
最後に、屋台体制の近くの屋外フライトでセンサーを検証しました。
私たちのプローブにより、さまざまなアクロバティックな操作中に、対気速度、攻撃角、およびサイドスリップの正確な推定が可能になりました。
そのサイズと重量により、このセンサーは、屋台体制の近くで低速で飛行する軽量で非白weatの空中車両のための安全な飛行を可能にします。

要約(オリジナル)

An aircraft’s airspeed, angle of attack, and angle of side slip are crucial to its safety, especially when flying close to the stall regime. Various solutions exist, including pitot tubes, angular vanes, and multihole pressure probes. However, current sensors are either too heavy (>30 g) or require large airspeeds (>20 m/s), making them unsuitable for small uncrewed aerial vehicles. We propose a novel multihole pressure probe, integrating sensing electronics in a single-component structure, resulting in a mechanically robust and lightweight sensor (9 g), which we released to the public domain. Since there is no consensus on two critical design parameters, tip shape (conical vs spherical) and hole spacing (distance between holes), we provide a study on measurement accuracy and noise generation using wind tunnel experiments. The sensor is calibrated using a multivariate polynomial regression model over an airspeed range of 3-27 m/s and an angle of attack/sideslip range of +-35{\deg}, achieving a mean absolute error of 0.44 m/s and 0.16{\deg}. Finally, we validated the sensor in outdoor flights near the stall regime. Our probe enabled accurate estimations of airspeed, angle of attack and sideslip during different acrobatic manoeuvres. Due to its size and weight, this sensor will enable safe flight for lightweight, uncrewed aerial vehicles flying at low speeds close to the stall regime.

arxiv情報

著者 Lukas Stuber,Simon Jeger,Raphael Zufferey,Dario Floreano
発行日 2025-05-06 09:04:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Miniature multihole airflow sensor for lightweight aircraft over wide speed and angular range はコメントを受け付けていません

RIFT: Closed-Loop RL Fine-Tuning for Realistic and Controllable Traffic Simulation

要約

インタラクティブなクローズドループトラフィックシミュレーションにおけるリアリズムと制御可能性の両方を達成することは、自律運転における重要な課題です。
データ駆動型のシミュレーション方法は、現実的な軌跡を再現しますが、信頼性をさらに低下させる単純化されたダイナミクスモデルによって悪化した閉ループ展開の共変量シフトに悩まされます。
逆に、物理学ベースのシミュレーション方法は、信頼性が高く制御可能な閉ループの相互作用を強化しますが、多くの場合、専門家のデモンストレーションが欠けており、リアリズムが妥協します。
これらの課題に対処するために、データ駆動型のシミュレータでオープンループ模倣学習前トレーニングを行うデュアルステージAV中心のシミュレーションフレームワークを導入して、軌道レベルのリアリズムとマルチモダリティをキャプチャし、その後、物理ベースのシミュレータで閉鎖補強学習微調整を導入し、制御性を強化し、シフトを測定します。
微調整段階では、GRPOスタイルのグループ関連のアドバンテージ定式化を介して軌道レベルのマルチモダリティを維持するシンプルでありながら効果的な閉ループRL微調整戦略であるRiftを提案し、KLの正規化をデュアルクリップメカニズムに置き換えることで制御可能性とトレーニングの安定性を高めます。
広範な実験は、Riftが生成されたトラフィックシナリオのリアリズムと制御性を大幅に改善し、多様でインタラクティブなシナリオで自律的な車両性能を評価するための堅牢なプラットフォームを提供することを示しています。

要約(オリジナル)

Achieving both realism and controllability in interactive closed-loop traffic simulation remains a key challenge in autonomous driving. Data-driven simulation methods reproduce realistic trajectories but suffer from covariate shift in closed-loop deployment, compounded by simplified dynamics models that further reduce reliability. Conversely, physics-based simulation methods enhance reliable and controllable closed-loop interactions but often lack expert demonstrations, compromising realism. To address these challenges, we introduce a dual-stage AV-centered simulation framework that conducts open-loop imitation learning pre-training in a data-driven simulator to capture trajectory-level realism and multimodality, followed by closed-loop reinforcement learning fine-tuning in a physics-based simulator to enhance controllability and mitigate covariate shift. In the fine-tuning stage, we propose RIFT, a simple yet effective closed-loop RL fine-tuning strategy that preserves the trajectory-level multimodality through a GRPO-style group-relative advantage formulation, while enhancing controllability and training stability by replacing KL regularization with the dual-clip mechanism. Extensive experiments demonstrate that RIFT significantly improves the realism and controllability of generated traffic scenarios, providing a robust platform for evaluating autonomous vehicle performance in diverse and interactive scenarios.

arxiv情報

著者 Keyu Chen,Wenchao Sun,Hao Cheng,Sifa Zheng
発行日 2025-05-06 09:12:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | RIFT: Closed-Loop RL Fine-Tuning for Realistic and Controllable Traffic Simulation はコメントを受け付けていません

Robotic Visual Instruction

要約

最近、自然言語は、人間とロボットの相互作用の主要な媒体でした。
ただし、空間精度の固有の欠如は、あいまいさや冗長性などのロボットタスク定義の課題をもたらします。
さらに、図書館や病院などの静かないくつかの公共環境では、ロボットとの口頭でのコミュニケーションは不適切です。
これらの制限に対処するために、オブジェクト中心の手描きの象徴的な表現を通してロボットタスクをガイドする新しいパラダイムであるロボットビジュアル命令(ROVI)を紹介します。
Roviは、空間的情報を効果的に、2Dスケッチを介して人間の解釈可能な視覚命令に効果的にエンコードし、矢、円、色、数字を利用して3Dロボット操作を指示します。
ロボットがROVIをよりよく理解し、ROVIに基づいて正確なアクションを生成できるようにするために、ROVIコンディショニングされたポリシー用に処方されたパイプラインである視覚命令具体化ワークフロー(ビュー)を提示します。
このアプローチは、Vision-Language Models(VLMS)を活用してRovi入力を解釈し、キーポイント抽出を介して2Dピクセル空間からの空間的および時間的制約を解釈し、それらを実行可能な3Dアクションシーケンスに変換します。
さらに、15Kインスタンスの専門データセットをキュレートして、エッジ展開のために小さなVLMSを微調整し、Rovi機能を効果的に学習できるようにします。
私たちのアプローチは、実際の環境とシミュレートされた環境の両方で11の新しいタスクで厳密に検証されており、重要な一般化能力を示しています。
特に、Viewは、障害、軌跡に従う要件を備えたマルチステップアクションを特徴とする目に見えないタスクを含む、現実世界のシナリオで87.5%の成功率を達成します。
プロジェクトWebサイト:https://robotic-visual-instruction.github.io/

要約(オリジナル)

Recently, natural language has been the primary medium for human-robot interaction. However, its inherent lack of spatial precision introduces challenges for robotic task definition such as ambiguity and verbosity. Moreover, in some public settings where quiet is required, such as libraries or hospitals, verbal communication with robots is inappropriate. To address these limitations, we introduce the Robotic Visual Instruction (RoVI), a novel paradigm to guide robotic tasks through an object-centric, hand-drawn symbolic representation. RoVI effectively encodes spatial-temporal information into human-interpretable visual instructions through 2D sketches, utilizing arrows, circles, colors, and numbers to direct 3D robotic manipulation. To enable robots to understand RoVI better and generate precise actions based on RoVI, we present Visual Instruction Embodied Workflow (VIEW), a pipeline formulated for RoVI-conditioned policies. This approach leverages Vision-Language Models (VLMs) to interpret RoVI inputs, decode spatial and temporal constraints from 2D pixel space via keypoint extraction, and then transform them into executable 3D action sequences. We additionally curate a specialized dataset of 15K instances to fine-tune small VLMs for edge deployment,enabling them to effectively learn RoVI capabilities. Our approach is rigorously validated across 11 novel tasks in both real and simulated environments, demonstrating significant generalization capability. Notably, VIEW achieves an 87.5% success rate in real-world scenarios involving unseen tasks that feature multi-step actions, with disturbances, and trajectory-following requirements. Project website: https://robotic-visual-instruction.github.io/

arxiv情報

著者 Yanbang Li,Ziyang Gong,Haoyang Li,Xiaoqi Huang,Haolan Kang,Guangping Bai,Xianzheng Ma
発行日 2025-05-06 09:24:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Robotic Visual Instruction はコメントを受け付けていません

Effective Reinforcement Learning Control using Conservative Soft Actor-Critic

要約

強化学習(RL)は、特にアクタークリティック(AC)フレームワーク内の深いニューラルネットワークと組み合わせると、複雑な制御タスクに大きな可能性を示しています。
ただし、実際のアプリケーションでは、探索のバランス、学習安定性、サンプル効率のバランスは依然として大きな課題です。
ソフトアクタークリティック(SAC)や近位政策最適化(PPO)などの従来の方法は、エントロピーまたは相対エントロピーの正則化を組み込むことにより、これらの問題に対処しますが、不安定性と低いサンプル効率の問題に直面することがよくあります。
このホワイトペーパーでは、ACフレームワーク内でエントロピーと相対エントロピーの正則化をシームレスに統合する保守的なソフトアクタークライティック(CSAC)アルゴリズムを提案します。
CSACは、相対的なエントロピーの正則化を使用して、過度に積極的なポリシーの更新を回避しながら、エントロピーの正則化を通じて探索を改善します。
ベンチマークタスクと現実世界のロボットシミュレーションに関する評価は、CSACが既存の方法よりも安定性と効率の大幅な改善を提供することを示しています。
これらの調査結果は、CSACが動的環境での制御タスクに強い堅牢性とアプリケーションの可能性を提供することを示唆しています。

要約(オリジナル)

Reinforcement Learning (RL) has shown great potential in complex control tasks, particularly when combined with deep neural networks within the Actor-Critic (AC) framework. However, in practical applications, balancing exploration, learning stability, and sample efficiency remains a significant challenge. Traditional methods such as Soft Actor-Critic (SAC) and Proximal Policy Optimization (PPO) address these issues by incorporating entropy or relative entropy regularization, but often face problems of instability and low sample efficiency. In this paper, we propose the Conservative Soft Actor-Critic (CSAC) algorithm, which seamlessly integrates entropy and relative entropy regularization within the AC framework. CSAC improves exploration through entropy regularization while avoiding overly aggressive policy updates with the use of relative entropy regularization. Evaluations on benchmark tasks and real-world robotic simulations demonstrate that CSAC offers significant improvements in stability and efficiency over existing methods. These findings suggest that CSAC provides strong robustness and application potential in control tasks under dynamic environments.

arxiv情報

著者 Xinyi Yuan,Zhiwei Shang,Wenjun Huang,Yunduan Cui,Di Chen,Meixin Zhu
発行日 2025-05-06 09:26:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Effective Reinforcement Learning Control using Conservative Soft Actor-Critic はコメントを受け付けていません