aUToPath: Unified Planning and Control for Autonomous Vehicles in Urban Environments Using Hybrid Lattice and Free-Space Search

要約

このペーパーでは、散らかった都市環境における自律的なナビゲーションの課題に対処するためのグローバルなパス計画と制御のための統一されたオンラインフレームワークであるAutopathを紹介します。
私たちのフレームワークの重要なコンポーネントは、事前に計算された格子マップと動的自由空間サンプリングを組み合わせて、散らかったシナリオで最適な駆動可能な廊下を効率的に生成する新しいハイブリッドプランナーです。
また、私たちのシステムは、廊下を滑らかで動的に一貫した軌道に改良するために、順次凸プログラミング(SCP)ベースのモデル予測制御(MPC)を備えています。
単一の最適化問題を使用して、軌道とその対応する制御コマンドの両方を生成します。
これは、安全で実行可能なパスを保証することにより、分離されたアプローチの制限に対処します。
ランダムに生成された障害物が豊富なシナリオに関する新しいプランナーのシミュレーション結果は、フリースペースに適応的に情報に基づいた木*(AIT*)ベースのプランナーの成功率と、格子ベースのプランナーに匹敵するランタイムを示しています。
シボレーボルトEUV上の完全なシステムの実際の実験は、密な障害物フィールドでのパフォーマンスをさらに検証し、交通、運動学、または車両の制約の違反がないこと、および8つの試験で100%の成功率を示しています。

要約(オリジナル)

This paper presents aUToPath, a unified online framework for global path-planning and control to address the challenge of autonomous navigation in cluttered urban environments. A key component of our framework is a novel hybrid planner that combines pre-computed lattice maps with dynamic free-space sampling to efficiently generate optimal driveable corridors in cluttered scenarios. Our system also features sequential convex programming (SCP)-based model predictive control (MPC) to refine the corridors into smooth, dynamically consistent trajectories. A single optimization problem is used to both generate a trajectory and its corresponding control commands; this addresses limitations of decoupled approaches by guaranteeing a safe and feasible path. Simulation results of the novel planner on randomly generated obstacle-rich scenarios demonstrate the success rate of a free-space Adaptively Informed Trees* (AIT*)-based planner, and runtimes comparable to a lattice-based planner. Real-world experiments of the full system on a Chevrolet Bolt EUV further validate performance in dense obstacle fields, demonstrating no violations of traffic, kinematic, or vehicle constraints, and a 100% success rate across eight trials.

arxiv情報

著者 Tanmay P. Patel,Connor Wilson,Ellina R. Zhang,Morgan Tran,Chang Keun Paik,Steven L. Waslander,Timothy D. Barfoot
発行日 2025-05-14 15:25:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | aUToPath: Unified Planning and Control for Autonomous Vehicles in Urban Environments Using Hybrid Lattice and Free-Space Search はコメントを受け付けていません

Design of a Formation Control System to Assist Human Operators in Flying a Swarm of Robotic Blimps

要約

形成制御は、群れのロボット工学に不可欠であり、複雑な環境で協調的な動作を可能にします。
この論文では、ダイナミックなリーダースイッチングメカニズムで強化された専門のリーダーフォロワーアプローチを使用して、屋内飛行群の新しいフォーメーション制御システムを紹介します。
この戦略により、あらゆる飛行船がリーダーの役割を引き受けることができ、群れ全体に操作需要を分配し、全体的な形成の安定性を高めることができます。
リーダーの飛行機のみが人間のオペレーターによって手動で制御されますが、フォロワーブリンプはオンボードモノクラーカメラと、相対的な位置と高度推定のためにレーザー高度計を使用します。
特に鋭いターンが実行される場合、人間のオペレーターが群れの安定性を維持するのを支援するために、リーダースイッチングスキームが提案されています。
実験結果は、リーダースイッチングメカニズムが安定した形成を効果的に維持し、人間のオペレーターを支援しながら動的な屋内環境に適応することを確認します。

要約(オリジナル)

Formation control is essential for swarm robotics, enabling coordinated behavior in complex environments. In this paper, we introduce a novel formation control system for an indoor blimp swarm using a specialized leader-follower approach enhanced with a dynamic leader-switching mechanism. This strategy allows any blimp to take on the leader role, distributing maneuvering demands across the swarm and enhancing overall formation stability. Only the leader blimp is manually controlled by a human operator, while follower blimps use onboard monocular cameras and a laser altimeter for relative position and altitude estimation. A leader-switching scheme is proposed to assist the human operator to maintain stability of the swarm, especially when a sharp turn is performed. Experimental results confirm that the leader-switching mechanism effectively maintains stable formations and adapts to dynamic indoor environments while assisting human operator.

arxiv情報

著者 Tianfu Wu,Jiaqi Fu,Wugang Meng,Sungjin Cho,Huanzhe Zhan,Fumin Zhang
発行日 2025-05-14 16:03:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO, cs.SY, eess.SY | Design of a Formation Control System to Assist Human Operators in Flying a Swarm of Robotic Blimps はコメントを受け付けていません

VTLA: Vision-Tactile-Language-Action Model with Preference Learning for Insertion Manipulation

要約

ビジョン言語モデルは大幅に進歩していますが、特に視覚的に支配的なピックアンドプレイスシナリオを超えて拡張される連絡先が豊富なタスクでは、言語条件付きロボット操作への応用は依然として不足していません。
このギャップを埋めるために、クロスモーダル言語の接地を通じて視覚的および触覚入力を効果的に統合することにより、接触集約型シナリオで堅牢なポリシー生成を可能にする新しいフレームワークである視覚触覚言語アクションモデルを紹介します。
低コストのマルチモーダルデータセットは、シミュレーション環境で構築されており、指先挿入タスク用に特別に設計された視覚触覚アクション導入ペアを含んでいます。
さらに、VTLAモデルの回帰様監督を提供するために、直接選好最適化(DPO)を導入し、分類ベースの次のトークン予測損失と連続ロボットタスクの間のギャップを効果的に埋めます。
実験結果は、VTLAモデルが従来の模倣学習方法(拡散ポリシーなど)と既存のマルチモーダルベースライン(TLA/VLA)を上回り、目に見えないPEG形状で90%以上の成功率を達成することを示しています。
最後に、実世界のペグインホール実験を実施して、提案されたVTLAモデルの例外的なSIM2realパフォーマンスを実証します。
補足ビデオと結果については、プロジェクトのWebサイトhttps://sites.google.com/view/vtlaをご覧ください。

要約(オリジナル)

While vision-language models have advanced significantly, their application in language-conditioned robotic manipulation is still underexplored, especially for contact-rich tasks that extend beyond visually dominant pick-and-place scenarios. To bridge this gap, we introduce Vision-Tactile-Language-Action model, a novel framework that enables robust policy generation in contact-intensive scenarios by effectively integrating visual and tactile inputs through cross-modal language grounding. A low-cost, multi-modal dataset has been constructed in a simulation environment, containing vision-tactile-action-instruction pairs specifically designed for the fingertip insertion task. Furthermore, we introduce Direct Preference Optimization (DPO) to offer regression-like supervision for the VTLA model, effectively bridging the gap between classification-based next token prediction loss and continuous robotic tasks. Experimental results show that the VTLA model outperforms traditional imitation learning methods (e.g., diffusion policies) and existing multi-modal baselines (TLA/VLA), achieving over 90% success rates on unseen peg shapes. Finally, we conduct real-world peg-in-hole experiments to demonstrate the exceptional Sim2Real performance of the proposed VTLA model. For supplementary videos and results, please visit our project website: https://sites.google.com/view/vtla

arxiv情報

著者 Chaofan Zhang,Peng Hao,Xiaoge Cao,Xiaoshuai Hao,Shaowei Cui,Shuo Wang
発行日 2025-05-14 17:29:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | VTLA: Vision-Tactile-Language-Action Model with Preference Learning for Insertion Manipulation はコメントを受け付けていません

Guaranteed Rejection-free Sampling Method Using Past Behaviours for Motion Planning of Autonomous Systems

要約

この論文は、多変量カーネル密度を活用して、偏った均一条件とほぼ均一な条件の両方で自由空間の拒否のないサンプリングを保証する新しい学習ベースのサンプリング戦略を提示します。
特定の自律システムからの履歴データは、ドメインのノンパラメトリック確率的記述を推定するために活用されています。これは、モーション計画問題の実行可能な解決策が見つかる可能性が高い自由空間も説明しています。
カーネル密度推定器、帯域幅、およびカーネルのチューニングパラメーターを使用して、自由空間の説明を変更するために使用され、サンプルは元々定義された空間の外側に落ちることができません。
2つの計画問題が解決し、提案されているほぼ均一なサンプリングスキームが、考慮されたワークスペースの拒否のないサンプルを保証できることを示しています。
さらに、提案された方法の有効性は、モンテカルロシミュレーションを使用して統計的に検証されています。

要約(オリジナル)

The paper presents a novel learning-based sampling strategy that guarantees rejection-free sampling of the free space under both biased and approximately uniform conditions, leveraging multivariate kernel densities. Historical data from a given autonomous system is leveraged to estimate a non-parametric probabilistic description of the domain, which also describes the free space where feasible solutions of the motion planning problem are likely to be found. The tuning parameters of the kernel density estimator, the bandwidth and the kernel, are used to alter the description of the free space so that no samples can fall outside the originally defined space.The proposed method is demonstrated in two real-life case studies: An autonomous surface vessel (2D) and an autonomous drone (3D). Two planning problems are solved, showing that the proposed approximately uniform sampling scheme is capable of guaranteeing rejection-free samples of the considered workspace. Furthermore, the effectiveness of the proposed method is statistically validated using Monte Carlo simulations.

arxiv情報

著者 Thomas T. Enevoldsen,Roberto Galeazzi
発行日 2025-05-14 17:44:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Guaranteed Rejection-free Sampling Method Using Past Behaviours for Motion Planning of Autonomous Systems はコメントを受け付けていません

Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware

要約

スケーリングロボット学習には、広大で多様なデータセットが必要です。
しかし、一般的なデータ収集パラダイムと人間のテレオ操作は費用がかかり、手動の努力と物理的ロボットアクセスによって制約されています。
Object Dynamicsシミュレーションやロボットハードウェアのテレオ操作に依存せずにロボットトレーニングデータを生成するための新しいアプローチであるReal2Render2Real(R2R2R)を紹介します。
入力は、1つ以上のオブジェクトのスマートフォンに登録されたスキャンと、人間のデモの単一のビデオです。
R2R2Rは、詳細な3Dオブジェクトのジオメトリと外観を再構築し、6-DOFオブジェクトモーションを追跡することにより、数千の視覚的忠実度ロボットと存在のデモンストレーションを何千もレンダリングします。
R2R2Rは、3Dガウスのスプラッティング(3DG)を使用して、剛性オブジェクトと明確なオブジェクトの両方の柔軟な資産生成と軌道合成を有効にし、これらの表現をメッシュに変換して、イサクラブのようなスケーラブルなレンダリングエンジンとの互換性を維持しますが、衝突モデリングを維持します。
R2R2Rによって生成されたロボットデモンストレーションデータは、ロボット固有受容状態や視覚言語アクションモデル(VLA)や模倣学習ポリシーなどの画像観測で動作するモデルと直接統合します。
物理実験では、単一の人間のデモからR2R2Rデータでトレーニングされたモデルが、150の人間の遠隔操作デモンストレーションでトレーニングされたモデルのパフォーマンスと一致することが示唆されています。
プロジェクトページ:https://real2render2real.com

要約(オリジナル)

Scaling robot learning requires vast and diverse datasets. Yet the prevailing data collection paradigm-human teleoperation-remains costly and constrained by manual effort and physical robot access. We introduce Real2Render2Real (R2R2R), a novel approach for generating robot training data without relying on object dynamics simulation or teleoperation of robot hardware. The input is a smartphone-captured scan of one or more objects and a single video of a human demonstration. R2R2R renders thousands of high visual fidelity robot-agnostic demonstrations by reconstructing detailed 3D object geometry and appearance, and tracking 6-DoF object motion. R2R2R uses 3D Gaussian Splatting (3DGS) to enable flexible asset generation and trajectory synthesis for both rigid and articulated objects, converting these representations to meshes to maintain compatibility with scalable rendering engines like IsaacLab but with collision modeling off. Robot demonstration data generated by R2R2R integrates directly with models that operate on robot proprioceptive states and image observations, such as vision-language-action models (VLA) and imitation learning policies. Physical experiments suggest that models trained on R2R2R data from a single human demonstration can match the performance of models trained on 150 human teleoperation demonstrations. Project page: https://real2render2real.com

arxiv情報

著者 Justin Yu,Letian Fu,Huang Huang,Karim El-Refai,Rares Andrei Ambrus,Richard Cheng,Muhammad Zubair Irshad,Ken Goldberg
発行日 2025-05-14 17:50:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware はコメントを受け付けていません

Data-driven multiscale modeling for correcting dynamical systems

要約

微細から粗い方向の両方で情報を抽出するように明示的に構造化された動的システムの量を予測するためのマルチスケールアプローチを提案します。
この方法は、一般に、重大な自己類似性の問題に適用できるか、予測タスクが困難であり、ターゲット動的システムに対する学習モデルの影響の安定性が重要であることを想定しています。
マルチスケールネットワークが未解決の細かいスケールのダイナミクスの貢献を反映してカオスティック基礎モデルを修正する気候サブグリッドパラメーター化タスクに関するアプローチを評価します。

要約(オリジナル)

We propose a multiscale approach for predicting quantities in dynamical systems which is explicitly structured to extract information in both fine-to-coarse and coarse-to-fine directions. We envision this method being generally applicable to problems with significant self-similarity or in which the prediction task is challenging and where stability of a learned model’s impact on the target dynamical system is important. We evaluate our approach on a climate subgrid parameterization task in which our multiscale networks correct chaotic underlying models to reflect the contributions of unresolved, fine-scale dynamics.

arxiv情報

著者 Karl Otness,Laure Zanna,Joan Bruna
発行日 2025-05-14 14:04:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.ao-ph | Data-driven multiscale modeling for correcting dynamical systems はコメントを受け付けていません

Independent Component Analysis by Robust Distance Correlation

要約

独立コンポーネント分析(ICA)は、無相関のソースだけでなく、完全に独立したソースに多変量信号または分布を分解するための強力なツールです。
残念ながら、ICAへのほとんどのアプローチは、外れ値に対して堅牢ではありません。
ここでは、RICAと呼ばれる堅牢なICAメソッドを提案します。これは、多変量ランダム変数間の依存性の堅牢な測定値を最小限に抑えることにより、コンポーネントを推定します。
使用される依存測定値は、距離相関(DCOR)です。
それをより堅牢にするために、最初にボウル変換と呼ばれる新しい変換を適用します。これは、境界があり、1対1、連続したマップで、原点に近いポイントにマップされます。
これにより、ゼロDCORが独立性を暗示する重要な特性が保存されます。
RICAは、残りのDCORが最小のコンポーネントを探すことにより、独立したソースを順番に推定します。
RICAは強く一貫しており、収束の通常のパラメトリックレートを持っています。
その堅牢性は、一般的に競合他社よりも優れているシミュレーション調査によって調査されます。
この方法は、有名なカクテルパーティーの問題を含む3つのアプリケーションに示されています。

要約(オリジナル)

Independent component analysis (ICA) is a powerful tool for decomposing a multivariate signal or distribution into fully independent sources, not just uncorrelated ones. Unfortunately, most approaches to ICA are not robust against outliers. Here we propose a robust ICA method called RICA, which estimates the components by minimizing a robust measure of dependence between multivariate random variables. The dependence measure used is the distance correlation (dCor). In order to make it more robust we first apply a new transformation called the bowl transform, which is bounded, one-to-one, continuous, and maps far outliers to points close to the origin. This preserves the crucial property that a zero dCor implies independence. RICA estimates the independent sources sequentially, by looking for the component that has the smallest dCor with the remainder. RICA is strongly consistent and has the usual parametric rate of convergence. Its robustness is investigated by a simulation study, in which it generally outperforms its competitors. The method is illustrated on three applications, including the well-known cocktail party problem.

arxiv情報

著者 Sarah Leyder,Jakob Raymaekers,Peter J. Rousseeuw,Tom Van Deuren,Tim Verdonck
発行日 2025-05-14 14:25:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.CO | Independent Component Analysis by Robust Distance Correlation はコメントを受け付けていません

SafePath: Conformal Prediction for Safe LLM-Based Autonomous Navigation

要約

大規模な言語モデル(LLMS)は、複雑な交通シナリオを推論してパスプランを生成することにより、自律運転の約束の高まりを示しています。
しかし、彼らの自信過剰への傾向と幻覚は、重大な安全上の懸念を引き起こします。
SafePathを紹介します。SafePathは、適合予測を使用して正式な安全保証を使用して、LLMベースのパス計画を強化するモジュール式フレームワークです。
SafePathは3つの段階で動作します。
最初の段階では、エージェントの動作と環境の手がかりに基づいて可能な軌跡を調査し、多様な候補パスのセットを生成するLLMを使用します。
第2段階では、SafePathが高リスクの軌跡を除去しながら、適合予測を統合する複数選択の質問解決定式化を通じて、少なくとも1つの安全なオプションがユーザー定義の確率に含まれていることを保証します。
最終段階では、私たちのアプローチは、不確実性が低いときに予想される衝突リスクが最も低いか、不確実性が高い場合に人間を委任する衝突リスクが最も低い経路を選択します。
Safepathがユーザー定義の確率で安全な軌道を保証することを理論的に証明し、その人間の委任率をどのように調整して自律性と安全のバランスをとることができるかを示します。
ヌスセンと高速道路網に関する広範な実験は、SafePathが計画の不確実性を77%、衝突速度を最大70 \%減らすことを示しており、LLM駆動型のパス計画をより安全にする際の有効性を示しています。

要約(オリジナル)

Large Language Models (LLMs) show growing promise in autonomous driving by reasoning over complex traffic scenarios to generate path plans. However, their tendencies toward overconfidence, and hallucinations raise critical safety concerns. We introduce SafePath, a modular framework that augments LLM-based path planning with formal safety guarantees using conformal prediction. SafePath operates in three stages. In the first stage, we use an LLM that generates a set of diverse candidate paths, exploring possible trajectories based on agent behaviors and environmental cues. In the second stage, SafePath filters out high-risk trajectories while guaranteeing that at least one safe option is included with a user-defined probability, through a multiple-choice question-answering formulation that integrates conformal prediction. In the final stage, our approach selects the path with the lowest expected collision risk when uncertainty is low or delegates control to a human when uncertainty is high. We theoretically prove that SafePath guarantees a safe trajectory with a user-defined probability, and we show how its human delegation rate can be tuned to balance autonomy and safety. Extensive experiments on nuScenes and Highway-env show that SafePath reduces planning uncertainty by 77\% and collision rates by up to 70\%, demonstrating effectiveness in making LLM-driven path planning more safer.

arxiv情報

著者 Achref Doula,Max Mühläuser,Alejandro Sanchez Guinea
発行日 2025-05-14 14:28:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | SafePath: Conformal Prediction for Safe LLM-Based Autonomous Navigation はコメントを受け付けていません

Pushing the Limits of the Reactive Affine Shaker Algorithm to Higher Dimensions

要約

連続変数の高価な関数の最小化のためのベイジアン最適化(BO)は、以前のサンプル($ {\ boldsymbol x} _i $および$ f({\ boldsymbol x} _i)$ values)から取得したすべての知識を使用して、ガウスプロセスに基づいてサロゲートモデルを構築します。
次に、サロゲートを悪用して、探索と搾取の慎重なバランスを介して、サンプルの次のポイントを定義します。
当初は低次元のスペースを対象としていたBOは最近変更され、非常に大きな次元スペース(最大約1000次元)にも使用されています。
この論文では、「Reactive Affine Shaker」(RAS)と呼ばれるはるかに単純なアルゴリズムを検討します。
次のサンプルは、平行堆積物(「ボックス」)内の均一な確率分布で常に生成されます。
各反復で、ボックスの形式は、ポイント$ \ boldsymbol x $の位置のみに基づいて、アフィン変換を通じて検索中に適合し、関数の改善に成功または失敗に基づいています。
したがって、関数値は、検索領域を変更し、次のサンプルを生成するために直接使用されません。
寸法全体が保持されます(アクティブな部分空間はありません)。
その極端なシンプルさと確率論的なローカル検索のみを使用しているにもかかわらず、驚くべきことに、生成された結果は、より多くの機能評価がありますが、BOの高次元バージョンの最先端の結果に匹敵し、それほど遠くありません。
Ablation研究と、RASの動作についてさらに理解し、最終結果のアルゴリズムビルディングブロックの相対的な重要性を評価するために、非常に大きな次元空間における方向の確率分布(ステップの改善と支配ボックスの向き)の分析が行われます。

要約(オリジナル)

Bayesian Optimization (BO) for the minimization of expensive functions of continuous variables uses all the knowledge acquired from previous samples (${\boldsymbol x}_i$ and $f({\boldsymbol x}_i)$ values) to build a surrogate model based on Gaussian processes. The surrogate is then exploited to define the next point to sample, through a careful balance of exploration and exploitation. Initially intended for low-dimensional spaces, BO has recently been modified and used also for very large-dimensional spaces (up to about one thousand dimensions). In this paper we consider a much simpler algorithm, called ‘Reactive Affine Shaker’ (RAS). The next sample is always generated with a uniform probability distribution inside a parallelepiped (the ‘box’). At each iteration, the form of the box is adapted during the search through an affine transformation, based only on the point $\boldsymbol x$ position and on the success or failure in improving the function. The function values are therefore not used directly to modify the search area and to generate the next sample. The entire dimensionality is kept (no active subspaces). Despite its extreme simplicity and its use of only stochastic local search, surprisingly the produced results are comparable to and not too far from the state-of-the-art results of high-dimensional versions of BO, although with some more function evaluations. An ablation study and an analysis of probability distribution of directions (improving steps and prevailing box orientation) in very large-dimensional spaces are conducted to understand more about the behavior of RAS and to assess the relative importance of the algorithmic building blocks for the final results.

arxiv情報

著者 Roberto Battiti,Mauro Brunato
発行日 2025-05-14 14:31:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, G.1.6, math.NA | Pushing the Limits of the Reactive Affine Shaker Algorithm to Higher Dimensions はコメントを受け付けていません

Train a Multi-Task Diffusion Policy on RLBench-18 in One Day with One GPU

要約

トレーニングの時間とメモリの使用量を数桁短縮するマルチタスク視覚障害ロボット拡散ポリシーをトレーニングする方法を提示します。
この改善は、アクションの拡散とそれに影響を与えた画像拡散手法との間の以前に採用されていない区別から生じます。画像生成ターゲットは高次元であり、ロボットアクションははるかに低次元空間にあります。
一方、アクション生成の視覚言語条件は高次元のままです。
私たちのアプローチであるMini-Diffuserは、従来の1対1のサンプリング戦略ではなく、各視力言語条件と複数のnoisedアクションサンプルを組み合わせたレベル2ミニバッチを導入することにより、この非対称性を活用します。
このバッチスキームをサポートするために、完全なコンディショニングアクセスを維持しながら、サンプル間の情報漏れを防ぐ拡散トランスに建築的適応を導入します。
RLBenchシミュレーションでは、Mini-Diffuserは、最先端のマルチタスク拡散ポリシーのパフォーマンスの95%を達成し、トレーニング時間の5 \%とメモリの7 \%のみを使用します。
実際の実験では、ミニディフューザーがマルチモーダルアクション分布をモデル化し、多様な知覚入力を条件付けた動作を生成する能力など、拡散ベースのポリシーの重要な強みを保持することをさらに検証します。
github.com/utomm/mini-diffuse-actorで入手可能なコード。

要約(オリジナル)

We present a method for training multi-task vision-language robotic diffusion policies that reduces training time and memory usage by an order of magnitude. This improvement arises from a previously underexplored distinction between action diffusion and the image diffusion techniques that inspired it: image generation targets are high-dimensional, while robot actions lie in a much lower-dimensional space. Meanwhile, the vision-language conditions for action generation remain high-dimensional. Our approach, Mini-Diffuser, exploits this asymmetry by introducing Level-2 minibatching, which pairs multiple noised action samples with each vision-language condition, instead of the conventional one-to-one sampling strategy. To support this batching scheme, we introduce architectural adaptations to the diffusion transformer that prevent information leakage across samples while maintaining full conditioning access. In RLBench simulations, Mini-Diffuser achieves 95\% of the performance of state-of-the-art multi-task diffusion policies, while using only 5\% of the training time and 7\% of the memory. Real-world experiments further validate that Mini-Diffuser preserves the key strengths of diffusion-based policies, including the ability to model multimodal action distributions and produce behavior conditioned on diverse perceptual inputs. Code available at github.com/utomm/mini-diffuse-actor.

arxiv情報

著者 Yutong Hu,Pinhao Song,Kehan Wen,Renaud Detry
発行日 2025-05-14 14:34:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Train a Multi-Task Diffusion Policy on RLBench-18 in One Day with One GPU はコメントを受け付けていません