Unified Video Action Model

要約

統一されたビデオとアクションモデルは、動画がアクション予測のための豊富なシーン情報を提供し、アクションがビデオ予測のダイナミクス情報を提供するロボット工学に大きな約束を保持しています。
ただし、ビデオ生成とアクションの予測を効果的に組み合わせることは依然として挑戦的であり、現在のビデオ生成ベースの方法は、アクションの正確性と推論速度における直接政策学習のパフォーマンスに合わせるのに苦労しています。
このギャップを埋めるために、統一されたビデオアクションモデル(UVA)を導入します。これは、ビデオとアクションの予測を共同で最適化して、高精度と効率的なアクション推論の両方を実現します。
重要なのは、共同ビデオアクションの潜在的な表現を学び、ビデオアクションデコードを切り離すことにあります。
共同潜在表現は、視覚およびアクションドメインを橋渡しし、ビデオとアクションシーケンスの関係を効果的にモデル化します。
一方、2つの軽量拡散ヘッドを搭載した分離されたデコードにより、推論中にビデオ生成をバイパスすることにより、高速アクション推論が可能になります。
このような統一されたフレームワークは、マスクされた入力トレーニングを通じて汎用性の高い機能をさらに可能にします。
アクションやビデオを選択的にマスキングすることにより、単一のモデルは、フォワードダイナミクスモデリングやビデオ生成など、ポリシー学習を超えて多様なタスクに取り組むことができます。
広範な一連の実験を介して、UVAが、特定のアプリケーションに合わせた方法と比較してパフォーマンスを損なうことなく、ポリシー学習、フォワード/逆ダイナミクス、ビデオ観測予測などの幅広いロボットタスクの汎用ソリューションとして機能できることを実証します。
結果は、https://unifided-video-chract-model.github.io/で最もよく表示されます。

要約(オリジナル)

A unified video and action model holds significant promise for robotics, where videos provide rich scene information for action prediction, and actions provide dynamics information for video prediction. However, effectively combining video generation and action prediction remains challenging, and current video generation-based methods struggle to match the performance of direct policy learning in action accuracy and inference speed. To bridge this gap, we introduce the Unified Video Action model (UVA), which jointly optimizes video and action predictions to achieve both high accuracy and efficient action inference. The key lies in learning a joint video-action latent representation and decoupling video-action decoding. The joint latent representation bridges the visual and action domains, effectively modeling the relationship between video and action sequences. Meanwhile, the decoupled decoding, powered by two lightweight diffusion heads, enables high-speed action inference by bypassing video generation during inference. Such a unified framework further enables versatile functionality through masked input training. By selectively masking actions or videos, a single model can tackle diverse tasks beyond policy learning, such as forward and inverse dynamics modeling and video generation. Via an extensive set of experiments, we demonstrate that UVA can serve as a general-purpose solution for a wide range of robotics tasks, such as policy learning, forward/inverse dynamics and video observation prediction, without compromising performance compared to methods tailored for specific applications. Results are best viewed on https://unified-video-action-model.github.io/.

arxiv情報

著者 Shuang Li,Yihuai Gao,Dorsa Sadigh,Shuran Song
発行日 2025-03-04 08:26:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Unified Video Action Model はコメントを受け付けていません

OpenFly: A Versatile Toolchain and Large-scale Benchmark for Aerial Vision-Language Navigation

要約

Vision-Language Navigation(VLN)は、言語の指示と視覚的な手がかりの両方を活用して、具体化されたAIで極めて重要な役割を果たすことにより、エージェントを環境に導くことを目的としています。
屋内VLNは広範囲に研究されていますが、屋外の空中VLNは未掘削装置のままです。
潜在的な理由は、屋外の空中ビューには広大なエリアが含まれ、データ収集がより困難になり、ベンチマークが不足していることです。
この問題に対処するために、汎用性の高いツールチェーンと空中VLNの大規模なベンチマークを含むプラットフォームであるOpenFlyを提案します。
まず、データ収集用の高度に自動化されたツールチェーンを開発し、自動ポイントクラウドの取得、シーンセマンティックセグメンテーション、フライト軌道の作成、および命令生成を可能にします。
第二に、ツールチェーンに基づいて、100kの軌跡を備えた大規模な空中VLNデータセットを構築し、18シーンの多様な高さと長さをカバーします。
対応する視覚データは、Unreal Engine、GTA V、Google Earth、3D Gaussian Splatting(3D GS)など、さまざまなレンダリングエンジンと高度な技術を使用して生成されます。
すべてのデータは高い視覚品質を示しています。
特に、3D GSは実際のレンダリングをサポートし、データセットのリアリズムをさらに強化します。
第三に、言語命令、現在の観測、および履歴キーフレームを入力として採用し、飛行アクションを直接出力するキーフレーム認識VLNモデルであるOpenFly-Agentを提案します。
広範な分析と実験が行われ、OpenFlyプラットフォームとOpenFly-Agentの優位性を示しています。
ツールチェーン、データセット、およびコードはオープンソースをかけます。

要約(オリジナル)

Vision-Language Navigation (VLN) aims to guide agents through an environment by leveraging both language instructions and visual cues, playing a pivotal role in embodied AI. Indoor VLN has been extensively studied, whereas outdoor aerial VLN remains underexplored. The potential reason is that outdoor aerial view encompasses vast areas, making data collection more challenging, which results in a lack of benchmarks. To address this problem, we propose OpenFly, a platform comprising a versatile toolchain and large-scale benchmark for aerial VLN. Firstly, we develop a highly automated toolchain for data collection, enabling automatic point cloud acquisition, scene semantic segmentation, flight trajectory creation, and instruction generation. Secondly, based on the toolchain, we construct a large-scale aerial VLN dataset with 100k trajectories, covering diverse heights and lengths across 18 scenes. The corresponding visual data are generated using various rendering engines and advanced techniques, including Unreal Engine, GTA V, Google Earth, and 3D Gaussian Splatting (3D GS). All data exhibit high visual quality. Particularly, 3D GS supports real-to-sim rendering, further enhancing the realism of the dataset. Thirdly, we propose OpenFly-Agent, a keyframe-aware VLN model, which takes language instructions, current observations, and historical keyframes as input, and outputs flight actions directly. Extensive analyses and experiments are conducted, showcasing the superiority of our OpenFly platform and OpenFly-Agent. The toolchain, dataset, and codes will be open-sourced.

arxiv情報

著者 Yunpeng Gao,Chenhui Li,Zhongrui You,Junli Liu,Zhen Li,Pengan Chen,Qizhi Chen,Zhonghan Tang,Liansheng Wang,Penghui Yang,Yiwen Tang,Yuhang Tang,Shuai Liang,Songyi Zhu,Ziqin Xiong,Yifei Su,Xinyi Ye,Jianan Li,Yan Ding,Dong Wang,Zhigang Wang,Bin Zhao,Xuelong Li
発行日 2025-03-04 08:38:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | OpenFly: A Versatile Toolchain and Large-scale Benchmark for Aerial Vision-Language Navigation はコメントを受け付けていません

MARLIN: Multi-Agent Reinforcement Learning Guided by Language-Based Inter-Robot Negotiation

要約

マルチエージェント強化学習は、ロボットがパフォーマンスに応じて報われるか罰せられる一連のエピソードでマルチロボットシステムをトレーニングするための重要な方法です。
システムが適切な基準に合わせてトレーニングされた後にのみ、現実の世界に展開されます。
システムが十分にトレーニングされていない場合、タスクは完了しない可能性が高く、周囲の環境にリスクをもたらす可能性があります。
言語ベースのロボット間交渉(Marlin)に導かれるマルチエージェントの強化学習を紹介します。これにより、トレーニングプロセスでは、ピークパフォーマンスに達するためにトレーニングエピソードが少なくなります。
ロボットには、タスクを交渉して議論する大規模な言語モデルが装備されており、トレーニング中にポリシーを導くために使用される計画を作成します。
このアプローチは、補強学習とトレーニング全体の大規模な言語モデルベースのアクションネゴシエーションを使用することを動的に切り替えます。
これにより、標準のマルチエージェント強化学習と比較して、必要なトレーニングエピソードの数が減少するため、システムをより早く物理的なハードウェアに展開できます。
このアプローチのパフォーマンスは、マルチエージェントの強化学習に対して評価され、私たちのハイブリッド方法がトレーニング時間を大幅に短縮し、同等の結果を達成することを示しています。

要約(オリジナル)

Multi-agent reinforcement learning is a key method for training multi-robot systems over a series of episodes in which robots are rewarded or punished according to their performance; only once the system is trained to a suitable standard is it deployed in the real world. If the system is not trained enough, the task will likely not be completed and could pose a risk to the surrounding environment. We introduce Multi-Agent Reinforcement Learning guided by Language-based Inter-Robot Negotiation (MARLIN), in which the training process requires fewer training episodes to reach peak performance. Robots are equipped with large language models that negotiate and debate a task, producing plans used to guide the policy during training. The approach dynamically switches between using reinforcement learning and large language model-based action negotiation throughout training. This reduces the number of training episodes required, compared to standard multi-agent reinforcement learning, and hence allows the system to be deployed to physical hardware earlier. The performance of this approach is evaluated against multi-agent reinforcement learning, showing that our hybrid method achieves comparable results with significantly reduced training time.

arxiv情報

著者 Toby Godfrey,William Hunt,Mohammad D. Soorati
発行日 2025-03-04 08:39:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | MARLIN: Multi-Agent Reinforcement Learning Guided by Language-Based Inter-Robot Negotiation はコメントを受け付けていません

A comparison of visual representations for real-world reinforcement learning in the context of vacuum gripping

要約

現実の世界でオブジェクトを操作する場合、意思決定を通知するためにセンサー情報を考慮したリアクティブなフィードバックポリシーが必要です。
この研究の目的は、ロボットアームのローカル周辺の空間環境を解釈するために、強化学習(RL)フレームワークでさまざまなエンコーダーをどのように使用できるかを判断することを目的としています。
私たちの調査では、現実世界のビジョンを3Dシーン入力と比較し、プロセスの新しいアーキテクチャを調査することに焦点を当てています。
SERLフレームワークの上に構築され、トレーニング時間を最小限に抑えながら、構築できる効率的で安定したRLファンデーションのサンプルを提供します。
この研究の結果は、空間情報が真空グリッパーでボックスピッキングタスクでテストされた視覚的なカウンターパートを大幅に上回るのに役立つことを示しています。
評価のコードとビデオは、https://github.com/nisutte/voxel-serlで入手できます。

要約(オリジナル)

When manipulating objects in the real world, we need reactive feedback policies that take into account sensor information to inform decisions. This study aims to determine how different encoders can be used in a reinforcement learning (RL) framework to interpret the spatial environment in the local surroundings of a robot arm. Our investigation focuses on comparing real-world vision with 3D scene inputs, exploring new architectures in the process. We built on the SERL framework, providing us with a sample efficient and stable RL foundation we could build upon, while keeping training times minimal. The results of this study indicate that spatial information helps to significantly outperform the visual counterpart, tested on a box picking task with a vacuum gripper. The code and videos of the evaluations are available at https://github.com/nisutte/voxel-serl.

arxiv情報

著者 Nico Sutter,Valentin N. Hartmann,Stelian Coros
発行日 2025-03-04 08:47:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A comparison of visual representations for real-world reinforcement learning in the context of vacuum gripping はコメントを受け付けていません

Predictive Kinematic Coordinate Control for Aerial Manipulators based on Modified Kinematics Learning

要約

高精度の操作は、常に空中マニピュレーターの発達目標でした。
このペーパーでは、空中マニピュレーターにおける運動座標制御の問題を調査します。
学習ベースの修正された運動モデルと、重量割り当てに基づくモデル予測制御(MPC)スキームを含む予測運動座標制御法を提案します。
既存の方法と比較して、提案されたアプローチはいくつかの魅力的な機能を提供します。
まず、運動学モデルには、閉ループダイナミクスの特性とオンライン残留学習が組み込まれています。
閉ループのダイナミクスや残差を考慮しない方法と比較して、提案された方法は精度が59.6 $ \%$を改善しました。
第二に、重量配分を考慮するMPCスキームが提案されており、クワッドコプターとマニピュレーターのモーション戦略を調整できます。
重量配分を考慮しない方法と比較して、提案された方法はより多くのタスクの要件を満たすことができます。
提案されたアプローチは、複雑な軌道追跡と移動ターゲット追跡実験を通じて検証されます。
結果は、提案された方法の有効性を検証します。

要約(オリジナル)

High-precision manipulation has always been a developmental goal for aerial manipulators. This paper investigates the kinematic coordinate control issue in aerial manipulators. We propose a predictive kinematic coordinate control method, which includes a learning-based modified kinematic model and a model predictive control (MPC) scheme based on weight allocation. Compared to existing methods, our proposed approach offers several attractive features. First, the kinematic model incorporates closed-loop dynamics characteristics and online residual learning. Compared to methods that do not consider closed-loop dynamics and residuals, our proposed method has improved accuracy by 59.6$\%$. Second, a MPC scheme that considers weight allocation has been proposed, which can coordinate the motion strategies of quadcopters and manipulators. Compared to methods that do not consider weight allocation, the proposed method can meet the requirements of more tasks. The proposed approach is verified through complex trajectory tracking and moving target tracking experiments. The results validate the effectiveness of the proposed method.

arxiv情報

著者 Zhengzhen Li,Jiahao Shen,Mengyu Ji,Huazi Cao,Shiyu Zhao
発行日 2025-03-04 08:50:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Predictive Kinematic Coordinate Control for Aerial Manipulators based on Modified Kinematics Learning はコメントを受け付けていません

SEB-Naver: A SE(2)-based Local Navigation Framework for Car-like Robots on Uneven Terrain

要約

不均一な地形での自動車のようなロボットの自律的なナビゲーションは、特に移動性評価とモーション計画のための地形関連の運動学モデリングにおいて、フラットな地形と比較してユニークな課題をもたらします。
このペーパーでは、これらの課題を克服するために設計された新規SE(2)ベースのローカルナビゲーションフレームワークであるSeb-Naverを紹介します。
まず、SE(2)グリッドの効率的なトラバース性評価方法を提案し、GPU並列コンピューティングを活用して、ローカルマップのリアルタイムの更新とメンテナンスを可能にします。
第二に、微分の平坦性に触発されて、地形に関連する運動学モデルを統合する最適化ベースの軌道計画方法を提示し、計画効率と軌道の品質の両方を大幅に改善します。
最後に、これらのコンポーネントをSEBネーバーに統合し、リアルタイムの地形評価と軌跡の最適化を達成します。
広範なシミュレーションと現実世界の実験は、アプローチの有効性と効率性を示しています。
コードはhttps://github.com/zju-fast-lab/seb_naverにあります。

要約(オリジナル)

Autonomous navigation of car-like robots on uneven terrain poses unique challenges compared to flat terrain, particularly in traversability assessment and terrain-associated kinematic modelling for motion planning. This paper introduces SEB-Naver, a novel SE(2)-based local navigation framework designed to overcome these challenges. First, we propose an efficient traversability assessment method for SE(2) grids, leveraging GPU parallel computing to enable real-time updates and maintenance of local maps. Second, inspired by differential flatness, we present an optimization-based trajectory planning method that integrates terrain-associated kinematic models, significantly improving both planning efficiency and trajectory quality. Finally, we unify these components into SEB-Naver, achieving real-time terrain assessment and trajectory optimization. Extensive simulations and real-world experiments demonstrate the effectiveness and efficiency of our approach. The code is at https://github.com/ZJU-FAST-Lab/seb_naver.

arxiv情報

著者 Xiaoying Li,Long Xu,Xiaolin Huang,Donglai Xue,Zhihao Zhang,Zhichao Han,Chao Xu,Yanjun Cao,Fei Gao
発行日 2025-03-04 08:53:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SEB-Naver: A SE(2)-based Local Navigation Framework for Car-like Robots on Uneven Terrain はコメントを受け付けていません

Geometry-aware RL for Manipulation of Varying Shapes and Deformable Objects

要約

さまざまなジオメトリと変形可能なオブジェクトを備えたオブジェクトを操作することは、ロボット工学の大きな課題です。
異なるオブジェクトや布吊り下げの挿入などのタスクには、正確な制御と複雑なダイナミクスの効果的なモデリングが必要です。
この作業では、この問題を、アクチュエーターやオブジェクトなどの小さなサブグラフを含む不均一なグラフのレンズを通して、相互作用を説明するさまざまなエッジタイプを伴います。
このグラフ表現は、剛性と変形可能なオブジェクトの両方のタスクの統一された構造として機能し、複数のアクチュエーターを含むタスクにさらに拡張できます。
このセットアップを評価するために、多様なオブジェクトの剛性挿入、複数のエンド効果によるロープと布の操作など、斬新で挑戦的な強化学習ベンチマークを提示します。
これらのタスクは、初期構成とターゲット構成の両方が3Dスペースで均一にサンプリングされるため、大きな検索スペースを提示します。
この問題に対処するために、幾何学的対称性を活用するための主要なバックボーンとして$ se(3)$ equivariantメッセージパスネットワークを利用して、不均一等量ポリシー(HEPI)と呼ばれる新しいグラフベースのポリシーモデルを提案します。
さらに、明示的な不均一性をモデル化することにより、HEPIは、平均リターン、サンプル効率、および目に見えないオブジェクトへの一般化に関して、変圧器ベースおよび非氷河の等縁ポリシーを上回ることができます。
プロジェクトページは、https://thobotics.github.io/hepiで入手できます。

要約(オリジナル)

Manipulating objects with varying geometries and deformable objects is a major challenge in robotics. Tasks such as insertion with different objects or cloth hanging require precise control and effective modelling of complex dynamics. In this work, we frame this problem through the lens of a heterogeneous graph that comprises smaller sub-graphs, such as actuators and objects, accompanied by different edge types describing their interactions. This graph representation serves as a unified structure for both rigid and deformable objects tasks, and can be extended further to tasks comprising multiple actuators. To evaluate this setup, we present a novel and challenging reinforcement learning benchmark, including rigid insertion of diverse objects, as well as rope and cloth manipulation with multiple end-effectors. These tasks present a large search space, as both the initial and target configurations are uniformly sampled in 3D space. To address this issue, we propose a novel graph-based policy model, dubbed Heterogeneous Equivariant Policy (HEPi), utilizing $SE(3)$ equivariant message passing networks as the main backbone to exploit the geometric symmetry. In addition, by modeling explicit heterogeneity, HEPi can outperform Transformer-based and non-heterogeneous equivariant policies in terms of average returns, sample efficiency, and generalization to unseen objects. Our project page is available at https://thobotics.github.io/hepi.

arxiv情報

著者 Tai Hoang,Huy Le,Philipp Becker,Vien Anh Ngo,Gerhard Neumann
発行日 2025-03-04 08:58:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Geometry-aware RL for Manipulation of Varying Shapes and Deformable Objects はコメントを受け付けていません

Learning to Refine Input Constrained Control Barrier Functions via Uncertainty-Aware Online Parameter Adaptation

要約

制御バリア関数(CBFS)は、非線形システムの安全性を確保するための強力なツールになりました。
ただし、持続的な安全性と実現可能性を保証する有効なCBFを見つけることは、特に入力制約を備えたシステムでは、オープンな課題のままです。
従来のアプローチは、多くの場合、CBF条件のクラスK関数のパラメーターを先験的に調整することに依存しています。
CBFベースのコントローラーのパフォーマンスは、これらの固定パラメーターに非常に敏感であり、過度に保守的な行動または安全違反につながる可能性があります。
これらの問題を克服するために、このペーパーでは、離散時間非線形システムにおける入力制約CBF(ICCBF)パラメーターのオンライン適応のための学習ベースの最適制御フレームワークを紹介します。
私たちの方法は、確率的アンサンブルニューラルネットワークを採用して、この作業で定義されているパフォーマンスとリスクメトリックを候補パラメーターについて予測し、認識論的不確実性とアレアトリック不確実性の両方を説明します。
有効なパラメーターを特定するために、リスクのあるジェンセン – レニイの発散と分布的に堅牢な条件付き値を使用した2段階の検証プロセスを提案します。
これにより、現在の状態および近くの環境に基づいてICCBFパラメーターの動的な改良性が可能になり、検証されたパラメーターセット内の安全性を確保しながらパフォーマンスを最適化できます。
実験結果は、私たちの方法が、安全性とパフォーマンスメトリック全体のロボットナビゲーションシナリオの固定パラメーターと既存の適応方法の両方を上回ることを示しています。

要約(オリジナル)

Control Barrier Functions (CBFs) have become powerful tools for ensuring safety in nonlinear systems. However, finding valid CBFs that guarantee persistent safety and feasibility remains an open challenge, especially in systems with input constraints. Traditional approaches often rely on manually tuning the parameters of the class K functions of the CBF conditions a priori. The performance of CBF-based controllers is highly sensitive to these fixed parameters, potentially leading to overly conservative behavior or safety violations. To overcome these issues, this paper introduces a learning-based optimal control framework for online adaptation of Input Constrained CBF (ICCBF) parameters in discrete-time nonlinear systems. Our method employs a probabilistic ensemble neural network to predict the performance and risk metrics, as defined in this work, for candidate parameters, accounting for both epistemic and aleatoric uncertainties. We propose a two-step verification process using Jensen-Renyi Divergence and distributionally-robust Conditional Value at Risk to identify valid parameters. This enables dynamic refinement of ICCBF parameters based on current state and nearby environments, optimizing performance while ensuring safety within the verified parameter set. Experimental results demonstrate that our method outperforms both fixed-parameter and existing adaptive methods in robot navigation scenarios across safety and performance metrics.

arxiv情報

著者 Taekyung Kim,Robin Inho Kee,Dimitra Panagou
発行日 2025-03-04 09:30:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Learning to Refine Input Constrained Control Barrier Functions via Uncertainty-Aware Online Parameter Adaptation はコメントを受け付けていません

PlanScope: Learning to Plan Within Decision Scope Does Matter

要約

自律運転のコンテキストでは、学習ベースの方法が計画モジュールの開発に有望です。
計画モジュールのトレーニングプロセス中に、専門家の運転ログと計画出力の間の矛盾を直接最小限に抑えることが広く展開されます。
一般に、運転ログは突然障害物が表示されるか、トラフィックシグナルが迅速に変化することで構成されており、通常、運転操作に迅速かつ微妙な調整を必要とします。
同時に、車両の将来の軌跡は、参照車線を順守したり、静止した障害を回避するなど、長期的な決定を示します。
ドライビングログにおける将来のイベントの予測不可能な影響により、推論バイアスは自然に学習ベースの計画モジュールに導入される可能性があり、これにより、運転性能の劣化の可能性があります。
この問題に対処するために、私たちは決定とそれらの対応する時間視野を特定し、予測不可能なイベントによって引き起こされる不合理な行動の効果を軽減するために、派生可能な視野のみ内で決定を保持することにより、いわゆる決定範囲を特徴付けます。
いくつかの実行可能な実装が提案されており、その中には、時間次元に沿ったバッチ正規化が特に効果的であり、優れたパフォーマンスを達成しています。
Nuplanデータセットでの閉ループ評価を通じて実証されているように、ドライビングスコアの観点からベースラインメソッドよりも一貫して優れています。
基本的に、このアプローチは、他の学習ベースの計画モデルの閉ループのパフォーマンスを強化するために、魅力的なプラグアンドプレイ機能に対応します。

要約(オリジナル)

In the context of autonomous driving, learning-based methods have been promising for the development of planning modules. During the training process of planning modules, directly minimizing the discrepancy between expert-driving logs and planning output is widely deployed. In general, driving logs consist of suddenly appearing obstacles or swiftly changing traffic signals, which typically necessitate swift and nuanced adjustments in driving maneuvers. Concurrently, future trajectories of the vehicles exhibit their long-term decisions, such as adhering to a reference lane or circumventing stationary obstacles. Due to the unpredictable influence of future events in driving logs, reasoning bias could be naturally introduced to learning based planning modules, which leads to a possible degradation of driving performance. To address this issue, we identify the decisions and their corresponding time horizons, and characterize a so-called decision scope by retaining decisions within derivable horizons only, to mitigate the effect of irrational behaviors caused by unpredictable events. Several viable implementations have been proposed, among which batch normalization along the temporal dimension is particularly effective and achieves superior performance. It consistently outperforms baseline methods in terms of driving scores, as demonstrated through closed-loop evaluations on the nuPlan dataset. Essentially, this approach accommodates an appealing plug-and-play feature to enhance the closed-loop performance of other learning-based planning models.

arxiv情報

著者 Ren Xin,Jie Cheng,Hongji Liu,Jun Ma
発行日 2025-03-04 09:44:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | PlanScope: Learning to Plan Within Decision Scope Does Matter はコメントを受け付けていません

UAV-VLPA*: A Vision-Language-Path-Action System for Optimal Route Generation on a Large Scales

要約

UAV-VLPA*(Visual-Language-Planning-and-Action)システムは、無人航空機(UAV)のコミュニケーションと運用効率を高めるために設計された航空ロボット工学の最先端の進歩を表しています。
高度な計画機能を統合することにより、システムは巡回セールスマンの問題(TSP)に対処して飛行経路を最適化し、従来の方法と比較して総軌道の長さを18.5%減らします。
さらに、A*アルゴリズムを組み込むと、堅牢な障害物回避が可能になり、複雑な環境での安全で効率的なナビゲーションが確保されます。
このシステムは、Visual Language Model(VLM)およびGPTの自然言語処理機能と組み合わせた衛星画像処理を活用し、ユーザーが単純なテキストコマンドを介して詳細なフライトプランを生成できるようにします。
視覚的および言語分析のこのシームレスな融合は、正確な意思決定とミッション計画を強化し、UAV-VLPA*を最新の空中操作のための変革的なツールにします。
比類のない運用効率、ナビゲーションの安全性、ユーザーフレンドリーな機能により、UAV-VLPA*は自律航空ロボット工学の新しい基準を設定し、この分野での将来の革新への道を開きます。

要約(オリジナル)

The UAV-VLPA* (Visual-Language-Planning-and-Action) system represents a cutting-edge advancement in aerial robotics, designed to enhance communication and operational efficiency for unmanned aerial vehicles (UAVs). By integrating advanced planning capabilities, the system addresses the Traveling Salesman Problem (TSP) to optimize flight paths, reducing the total trajectory length by 18.5\% compared to traditional methods. Additionally, the incorporation of the A* algorithm enables robust obstacle avoidance, ensuring safe and efficient navigation in complex environments. The system leverages satellite imagery processing combined with the Visual Language Model (VLM) and GPT’s natural language processing capabilities, allowing users to generate detailed flight plans through simple text commands. This seamless fusion of visual and linguistic analysis empowers precise decision-making and mission planning, making UAV-VLPA* a transformative tool for modern aerial operations. With its unmatched operational efficiency, navigational safety, and user-friendly functionality, UAV-VLPA* sets a new standard in autonomous aerial robotics, paving the way for future innovations in the field.

arxiv情報

著者 Oleg Sautenkov,Aibek Akhmetkazy,Yasheerah Yaqoot,Muhammad Ahsan Mustafa,Grik Tadevosyan,Artem Lykov,Dzmitry Tsetserukou
発行日 2025-03-04 10:02:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | UAV-VLPA*: A Vision-Language-Path-Action System for Optimal Route Generation on a Large Scales はコメントを受け付けていません