TransDiffuser: End-to-end Trajectory Generation with Decorrelated Multi-modal Representation for Autonomous Driving

要約

近年、拡散モデルは、ビジョン生成から言語モデリングまで、多様なドメイン全体でその可能性を示しています。
その機能を最新の自律運転システムに転送することも有望な方向として浮上しました。この作業では、エンドツーエンドの自律運転のためのエンコーダーデコーダーベースの生成軌道計画モデルであるTransDiffuserを提案します。
エンコードされたシーン情報は、除去デコーダーのマルチモーダル条件付き入力として機能します。
高品質の多様な軌跡を生成する際のモード崩壊のジレンマに取り組むために、トレーニングプロセス中にシンプルで効果的なマルチモーダル表現の脱相関最適化メカニズムを導入します。トランスディフューザーは、NAVSIMベンチマークで94.85のPDMSを達成し、以前の前部の前部の前部を使用せずに以前の最先端の方法を上回ります。

要約(オリジナル)

In recent years, diffusion model has shown its potential across diverse domains from vision generation to language modeling. Transferring its capabilities to modern autonomous driving systems has also emerged as a promising direction.In this work, we propose TransDiffuser, an encoder-decoder based generative trajectory planning model for end-to-end autonomous driving. The encoded scene information serves as the multi-modal conditional input of the denoising decoder. To tackle the mode collapse dilemma in generating high-quality diverse trajectories, we introduce a simple yet effective multi-modal representation decorrelation optimization mechanism during the training process.TransDiffuser achieves PDMS of 94.85 on the NAVSIM benchmark, surpassing previous state-of-the-art methods without any anchor-based prior trajectories.

arxiv情報

著者 Xuefeng Jiang,Yuan Ma,Pengxiang Li,Leimeng Xu,Xin Wen,Kun Zhan,Zhongpu Xia,Peng Jia,XianPeng Lang,Sheng Sun
発行日 2025-05-14 12:10:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | TransDiffuser: End-to-end Trajectory Generation with Decorrelated Multi-modal Representation for Autonomous Driving はコメントを受け付けていません

VIMPPI: Enhancing Model Predictive Path Integral Control with Variational Integration for Underactuated Systems

要約

このペーパーでは、AIオリンピックコンペティション用に開発された二重振り子システムの過少活動の新しい制御アプローチであるVimppiを紹介します。
変分積分技術を組み込むことにより、モデル予測パス積分フレームワークを強化し、追加の計算コストなしでより長い計画視野を可能にします。
対照補間と妨害検出メカニズムを備えた500〜700 Hzで動作するVimppiは、ベースライン方法と代替MPPIの実装の両方を大幅に上回る

要約(オリジナル)

This paper presents VIMPPI, a novel control approach for underactuated double pendulum systems developed for the AI Olympics competition. We enhance the Model Predictive Path Integral framework by incorporating variational integration techniques, enabling longer planning horizons without additional computational cost. Operating at 500-700 Hz with control interpolation and disturbance detection mechanisms, VIMPPI substantially outperforms both baseline methods and alternative MPPI implementations

arxiv情報

著者 Igor Alentev,Lev Kozlov,Ivan Domrachev,Simeon Nedelchev,Jee-Hwan Ryu
発行日 2025-05-14 12:13:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | VIMPPI: Enhancing Model Predictive Path Integral Control with Variational Integration for Underactuated Systems はコメントを受け付けていません

Improved Corner Cutting Constraints for Mixed-Integer Motion Planning of a Differential Drive Micro-Mobility Vehicle

要約

このペーパーでは、ディファレンシャルドライブマイクロモビリティプラットフォームのモーション計画の問題に対処します。
このクラスの車両は、構造化された環境で乗客と商品の小距離輸送を実行するように設計されています。
私たちのアプローチは、混合整数線形プログラミング(MILP)を活用して、車両の運動学とダイナミクスを考慮して、グローバルな最適な衝突のない軌道を計算します。
サンプル間衝突回避のための新しい制約を提案し、ピックアップと配信ミッション、およびモンテカルロシミュレーションの統計分析を使用してその有効性を実証します。
結果は、2つの最先端のアプローチと比較した場合、時間の支出と制御努力の観点から、新しい定式化が最良の軌跡を提供することを示しています。

要約(オリジナル)

This paper addresses the problem of motion planning for differential drive micro-mobility platforms. This class of vehicle is designed to perform small-distance transportation of passengers and goods in structured environments. Our approach leverages mixed-integer linear programming (MILP) to compute global optimal collision-free trajectories taking into account the kinematics and dynamics of the vehicle. We propose novel constraints for intersample collision avoidance and demonstrate its effectiveness using pick-up and delivery missions and statistical analysis of Monte Carlo simulations. The results show that the novel formulation provides the best trajectories in terms of time expenditure and control effort when compared to two state-of-the-art approaches.

arxiv情報

著者 Angelo Caregnato-Neto,Janito Vaqueiro Ferreira
発行日 2025-05-14 13:08:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Improved Corner Cutting Constraints for Mixed-Integer Motion Planning of a Differential Drive Micro-Mobility Vehicle はコメントを受け付けていません

Strategic Jenga Play via Graph Based Dynamics Modeling

要約

ダイナミクスが密接にリンクされている複数のオブジェクトの制御された操作は、接触が豊富な操作における挑戦的な問題であり、1つの動きが他のものにどのように影響するかを理解する必要があります。
Jengaゲームをテストベッドとして使用してこの問題を調査し、タスクの2つの異なる側面に取り組むためにグラフベースのモデリング:1)ブロック選択と2)抽出をブロックします。
ブロック選択のために、ジェンガタワーのグラフを構築し、タワーの構造に基づいて、特定のブロックを取り外すかどうかに基づいて分類を試みます。タワーが崩壊します。
ブロック抽出のために、タワー内のすべてのブロックが各タイムステップで抽出軌道でどのように移動するかを予測するダイナミクスモデルをトレーニングし、サンプリングベースのモデル予測制御ループで使用して、一般的なパラレルジョーグリッパーでタワーから安全にブロックを引き出します。
シミュレーションでの方法をトレーニングおよび評価し、ゲームの高度な段階であっても、フルサイズのジェンガタワーの挑戦的なセットでブロック選択とブロック抽出に向けて有望な結果を示します。

要約(オリジナル)

Controlled manipulation of multiple objects whose dynamics are closely linked is a challenging problem within contact-rich manipulation, requiring an understanding of how the movement of one will impact the others. Using the Jenga game as a testbed to explore this problem, we graph-based modeling to tackle two different aspects of the task: 1) block selection and 2) block extraction. For block selection, we construct graphs of the Jenga tower and attempt to classify, based on the tower’s structure, whether removing a given block will cause the tower to collapse. For block extraction, we train a dynamics model that predicts how all the blocks in the tower will move at each timestep in an extraction trajectory, which we then use in a sampling-based model predictive control loop to safely pull blocks out of the tower with a general-purpose parallel-jaw gripper. We train and evaluate our methods in simulation, demonstrating promising results towards block selection and block extraction on a challenging set of full-sized Jenga towers, even at advanced stages of the game.

arxiv情報

著者 Kavya Puthuveetil,Xinyi Zhang,Kazuto Yokoyama,Tetsuya Narita
発行日 2025-05-14 13:27:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Strategic Jenga Play via Graph Based Dynamics Modeling はコメントを受け付けていません

Soft Arm-Motor Thrust Characterization for a Pneumatically Actuated Soft Morphing Quadrotor

要約

この作業では、ダウンウォッシュの効果を考慮して、柔軟なアームの正確なスラスト特性評価に焦点を当てた、柔らかく空気圧作動化されたモーフィング四輪の構成空間の実験的特性評価が提示されます。
従来の四頭角とは異なり、ソフトドローンは空気圧的に作動し、モータースラストと腕の変形の間に複雑で非線形の相互作用を導入し、正確な制御が困難になります。
シリコンアームは、差動圧力を使用して柔軟性を実現するため、固定されたカウンターパートと比較して可変ワークスペースを持つように作動します。
圧縮と膨張中の柔らかい腕のたわみは、飛行中ずっと制御されます。
ただし、リアルタイムでは、ソフトアームの先端に取り付けられたモーターからのダウンウォッシュは、腕に重大でランダムな妨害を生成します。
この妨害は、腕の望ましいたわみとシステムの全体的な安定性の両方に影響します。
この要因に対処するために、腕のたわみ角に対するダウンウォッシュの効果の実験的特性評価が行われます。

要約(オリジナル)

In this work, an experimental characterization of the configuration space of a soft, pneumatically actuated morphing quadrotor is presented, with a focus on precise thrust characterization of its flexible arms, considering the effect of downwash. Unlike traditional quadrotors, the soft drone has pneumatically actuated arms, introducing complex, nonlinear interactions between motor thrust and arm deformation, which make precise control challenging. The silicone arms are actuated using differential pressure to achieve flexibility and thus have a variable workspace compared to their fixed counter-parts. The deflection of the soft arms during compression and expansion is controlled throughout the flight. However, in real time, the downwash from the motor attached at the tip of the soft arm generates a significant and random disturbance on the arm. This disturbance affects both the desired deflection of the arm and the overall stability of the system. To address this factor, an experimental characterization of the effect of downwash on the deflection angle of the arm is conducted.

arxiv情報

著者 Vidya Sumathy,Jakub Haluska,George Nikolakopoulos
発行日 2025-05-14 14:21:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Soft Arm-Motor Thrust Characterization for a Pneumatically Actuated Soft Morphing Quadrotor はコメントを受け付けていません

Exploring Pose-Guided Imitation Learning for Robotic Precise Insertion

要約

最近の研究は、模倣学習がロボット操作の分野で強い可能性を示すことを証明しています。
ただし、既存の方法は依然として精密操作タスクに苦労しており、非効率的な画像/ポイントクラウド観測に依存しています。
この論文では、SE(3)オブジェクトのポーズを模倣学習に紹介し、ロボットの正確な挿入タスクのポーズガイド付き効率的な模倣学習方法を提案します。
まず、相対的なSE(3)ポーズを観測アクションペアとして利用する正確な挿入拡散ポリシーを提案します。
ポリシーは、ソースオブジェクトSE(3)がターゲットオブジェクトを比較して軌跡をポーズにすることをモデル化します。
第二に、RGBDデータをポーズガイド付き拡散ポリシーに導入することを探ります。
具体的には、現在の状態と目標状態の間の矛盾をキャプチャするために、目標調整されたRGBDエンコーダーを設計します。
さらに、ポーズガイド付きの残留ゲート融合法が提案されています。これは、バックボーンとしてポーズ機能を取り、RGBD機能は適応ゲーティングメカニズムを介してポーズ機能の欠陥を選択的に補正します。
私たちの方法は、6つのロボットの正確な挿入タスクで評価され、7〜10のデモンストレーションで競争力のあるパフォーマンスを実証します。
実験は、提案された方法が約0.01 mmのクリアランスで精密挿入タスクを正常に完了できることを示しています。
実験結果は、既存のベースラインと比較して、その優れた効率と一般化能力を強調しています。
コードはhttps://github.com/sunhan1997/poseinsertで入手できます。

要約(オリジナル)

Recent studies have proved that imitation learning shows strong potential in the field of robotic manipulation. However, existing methods still struggle with precision manipulation task and rely on inefficient image/point cloud observations. In this paper, we explore to introduce SE(3) object pose into imitation learning and propose the pose-guided efficient imitation learning methods for robotic precise insertion task. First, we propose a precise insertion diffusion policy which utilizes the relative SE(3) pose as the observation-action pair. The policy models the source object SE(3) pose trajectory relative to the target object. Second, we explore to introduce the RGBD data to the pose-guided diffusion policy. Specifically, we design a goal-conditioned RGBD encoder to capture the discrepancy between the current state and the goal state. In addition, a pose-guided residual gated fusion method is proposed, which takes pose features as the backbone, and the RGBD features selectively compensate for pose feature deficiencies through an adaptive gating mechanism. Our methods are evaluated on 6 robotic precise insertion tasks, demonstrating competitive performance with only 7-10 demonstrations. Experiments demonstrate that the proposed methods can successfully complete precision insertion tasks with a clearance of about 0.01 mm. Experimental results highlight its superior efficiency and generalization capability compared to existing baselines. Code will be available at https://github.com/sunhan1997/PoseInsert.

arxiv情報

著者 Han Sun,Yizhao Wang,Zhenning Zhou,Shuai Wang,Haibo Yang,Jingyuan Sun,Qixin Cao
発行日 2025-05-14 14:25:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Exploring Pose-Guided Imitation Learning for Robotic Precise Insertion はコメントを受け付けていません

Decentralized Nonlinear Model Predictive Control-Based Flock Navigation with Real-Time Obstacle Avoidance in Unknown Obstructed Environments

要約

この作業は、より現実的な局所障害物回避戦略を備えた未知の閉塞環境での特定の群れ行動に続いて、ロボット艦隊をナビゲートするために、分散した非線形モデル予測制御(NMPC)に関する以前の作業を拡張します。
より具体的には、ポイントクラウドを使用してローカル障害回避制約をNMPCフレームワークに統合します。
ここでは、各エージェントはローカルセンサーのデータに依存して、近くの障害を認識して応答します。
最適化中の計算負担を最小限に抑えるために、2次元ポイントクラウドと3次元ポイントクラウドの両方に対してポイントクラウド処理手法が提示されます。
このプロセスは、データポイントの数を大幅に削減する方向性のフィルタリングとダウンサンプリングで構成されています。
アルゴリズムのパフォーマンスは、Gazeboでの現実的な3Dシミュレーションを通じて検証されており、その実用的な実現可能性は、組み込みプラットフォーム上のハードウェア(HIL)シミュレーションを介してさらに調査されます。

要約(オリジナル)

This work extends our prior work on the distributed nonlinear model predictive control (NMPC) for navigating a robot fleet following a certain flocking behavior in unknown obstructed environments with a more realistic local obstacle avoidance strategy. More specifically, we integrate the local obstacle avoidance constraint using point clouds into the NMPC framework. Here, each agent relies on data from its local sensor to perceive and respond to nearby obstacles. A point cloud processing technique is presented for both two-dimensional and three-dimensional point clouds to minimize the computational burden during the optimization. The process consists of directional filtering and down-sampling that significantly reduce the number of data points. The algorithm’s performance is validated through realistic 3D simulations in Gazebo, and its practical feasibility is further explored via hardware-in-the-loop (HIL) simulations on embedded platforms.

arxiv情報

著者 Nuthasith Gerdpratoom,Kaoru Yamamoto
発行日 2025-05-14 14:42:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY, G.1.6 | Decentralized Nonlinear Model Predictive Control-Based Flock Navigation with Real-Time Obstacle Avoidance in Unknown Obstructed Environments はコメントを受け付けていません

ON as ALC: Active Loop Closing Object Goal Navigation

要約

同時ローカリゼーションとマッピングでは、アクティブループクロージング(ALC)は、以前に訪問したポイントを再訪する可能性を最大化するためにロボットを視覚的に導き、それにより旅行中にインクリメンタに構築されたマップに蓄積されたドリフトエラーをリセットすることを目的とするアクティブなビジョンの問題です。
ただし、ワークスペースの事前知識など、このような不完全なマップを活用する現在の主流のナビゲーション戦略は、マップの蓄積エラーが大幅になる現代の長期的な長距離旅行シナリオでしばしば失敗します。
マップベースのナビゲーションのこれらの制限に対処するために、このペーパーは、特に具体化されたAIフィールドでのMapless Navigationを初めて検討し、オブジェクトゴールナビゲーション(一般的にObjnav、またはOGNまたはOGN)技術を使用して、そのような以前のマップを使用せずにターゲットオブジェクトを効率的に探索します。
具体的には、この作業では、プランナー上の既製の地図から開始し、それを拡張して以前のマップを利用し、さらに長距離ALC(LD-ALC)のパフォーマンスが「ALC損失」と「損失時」を最小限に抑えることで最大化できることを示します。
この研究では、ALC-ON(ALCON)と呼ばれるシンプルで効果的なアプローチを強調し、成長するフロンティアガイド、データ駆動型、および技術に関するLLMガイドを活用することにより、挑戦的な長距離ALCテクノロジーの進歩を加速します。

要約(オリジナル)

In simultaneous localization and mapping, active loop closing (ALC) is an active vision problem that aims to visually guide a robot to maximize the chances of revisiting previously visited points, thereby resetting the drift errors accumulated in the incrementally built map during travel. However, current mainstream navigation strategies that leverage such incomplete maps as workspace prior knowledge often fail in modern long-term autonomy long-distance travel scenarios where map accumulation errors become significant. To address these limitations of map-based navigation, this paper is the first to explore mapless navigation in the embodied AI field, in particular, to utilize object-goal navigation (commonly abbreviated as ON, ObjNav, or OGN) techniques that efficiently explore target objects without using such a prior map. Specifically, in this work, we start from an off-the-shelf mapless ON planner, extend it to utilize a prior map, and further show that the performance in long-distance ALC (LD-ALC) can be maximized by minimizing “ALC loss’ and “ON loss’. This study highlights a simple and effective approach, called ALC-ON (ALCON), to accelerate the progress of challenging long-distance ALC technology by leveraging the growing frontier-guided, data-driven, and LLM-guided ON technologies.

arxiv情報

著者 Daiki Iwata,Kanji Tanaka,Shoya Miyazaki,Kouki Terashima
発行日 2025-05-14 15:19:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | ON as ALC: Active Loop Closing Object Goal Navigation はコメントを受け付けていません

Safe Navigation in Uncertain Crowded Environments Using Risk Adaptive CVaR Barrier Functions

要約

動的で混雑した環境でのロボットナビゲーションは、障害物モデルに固有の不確実性のために大きな課題をもたらします。
この作業では、リスクレベルが自動的に必要なリスクを受け入れるように自動的に調整され、不確実性の下での安全性と最適化の実現可能性の観点から適切なパフォーマンスを達成するために、リスクアットリスクバリア関数(CVAR-BF)に基づいてリスク適応アプローチを提案します。
さらに、ロボットと障害物の間の相対状態を評価することにより、衝突の尤度を特徴付ける動的ゾーンベースのバリア関数を導入します。
リスク適応をこの新しい機能と統合することにより、当社のアプローチは安全マージンを適応的に拡大し、ロボットが非常に動的な環境で障害を積極的に回避できるようにします。
比較とアブレーション研究は、私たちの方法が既存のソーシャルナビゲーションアプローチよりも優れていることを示しており、提案されたフレームワークの有効性を検証します。

要約(オリジナル)

Robot navigation in dynamic, crowded environments poses a significant challenge due to the inherent uncertainties in the obstacle model. In this work, we propose a risk-adaptive approach based on the Conditional Value-at-Risk Barrier Function (CVaR-BF), where the risk level is automatically adjusted to accept the minimum necessary risk, achieving a good performance in terms of safety and optimization feasibility under uncertainty. Additionally, we introduce a dynamic zone-based barrier function which characterizes the collision likelihood by evaluating the relative state between the robot and the obstacle. By integrating risk adaptation with this new function, our approach adaptively expands the safety margin, enabling the robot to proactively avoid obstacles in highly dynamic environments. Comparisons and ablation studies demonstrate that our method outperforms existing social navigation approaches, and validate the effectiveness of our proposed framework.

arxiv情報

著者 Xinyi Wang,Taekyung Kim,Bardh Hoxha,Georgios Fainekos,Dimitra Panagou
発行日 2025-05-14 15:20:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Safe Navigation in Uncertain Crowded Environments Using Risk Adaptive CVaR Barrier Functions はコメントを受け付けていません

Streaming Multi-agent Pathfinding

要約

マルチエージェントパスファンディング(MAPF)問題のタスクは、エージェントのチームをスタートポイントからゴールポイントまでナビゲートすることです。
ただし、このセットアップは、組み立てラインシナリオでは不適切です。これは、長い労働時間で周期的です。
この問題に対処するために、この調査では、同じエージェントストリームのエージェントが定期的な開始時間を持ち、同じアクションシーケンスを共有していると仮定して、ストリーミングMAPF(S-MAPF)問題を形式化します。
提案されたソリューションであるエージェントストリーム競合ベースの検索(ASCBS)は、競合を処理するために環状頂点/エッジの制約を組み込むことにより、この問題に取り組むように設計されています。
さらに、この作業では、ASCBS内のばらばら分割戦略の潜在的な使用法を調査します。
実験結果は、ASCBが長時間の労働時間のシナリオのランタイムの観点から従来のMAPFソルバーを上回ることを示しています。

要約(オリジナル)

The task of the multi-agent pathfinding (MAPF) problem is to navigate a team of agents from their start point to the goal points. However, this setup is unsuitable in the assembly line scenario, which is periodic with a long working hour. To address this issue, the study formalizes the streaming MAPF (S-MAPF) problem, which assumes that the agents in the same agent stream have a periodic start time and share the same action sequence. The proposed solution, Agent Stream Conflict-Based Search (ASCBS), is designed to tackle this problem by incorporating a cyclic vertex/edge constraint to handle conflicts. Additionally, this work explores the potential usage of the disjoint splitting strategy within ASCBS. Experimental results indicate that ASCBS surpasses traditional MAPF solvers in terms of runtime for scenarios with prolonged working hours.

arxiv情報

著者 Mingkai Tang,Lu Gan,Kaichen Zhang
発行日 2025-05-14 15:22:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO | Streaming Multi-agent Pathfinding はコメントを受け付けていません