Parkour in the Wild: Learning a General and Extensible Agile Locomotion Policy Using Multi-expert Distillation and RL Fine-tuning

要約

脚のあるロボットは、車輪付きロボットにアクセスできない地形をナビゲートするのに適しているため、捜索救助や宇宙探査の用途に最適です。
ただし、現在の制御方法は、多様で構造化されていない環境全体で一般化するのに苦労しています。
このペーパーでは、マルチ専門家の蒸留と強化学習(RL)の微調整を組み合わせて堅牢な一般化を実現することにより、脚のロボットのアジャイルな移動のための新しいフレームワークを紹介します。
当初、地形固有の専門家ポリシーは、専門の移動スキルを開発するために訓練されています。
これらのポリシーは、Daggerアルゴリズムを介して統一された基礎ポリシーに蒸留されます。
その後、蒸留ポリシーは、実際の3Dスキャンを含む、より広い地形セットでRLを使用して微調整されます。
このフレームワークにより、微調整を繰り返して新しい地形へのさらなる適応が可能になります。
提案されたポリシーは、深度画像を外部受容入力として活用し、多様で非構造化された地形間の堅牢なナビゲーションを可能にします。
実験結果は、マルチテレインスキルを単一のコントローラーに合成する際の既存の方法よりも大幅なパフォーマンスの改善を示しています。
Anymal Dロボットの展開は、俊敏性と堅牢性を備えた複雑な環境をナビゲートするポリシーの能力を検証し、脚のロボットの移動の新しいベンチマークを設定します。

要約(オリジナル)

Legged robots are well-suited for navigating terrains inaccessible to wheeled robots, making them ideal for applications in search and rescue or space exploration. However, current control methods often struggle to generalize across diverse, unstructured environments. This paper introduces a novel framework for agile locomotion of legged robots by combining multi-expert distillation with reinforcement learning (RL) fine-tuning to achieve robust generalization. Initially, terrain-specific expert policies are trained to develop specialized locomotion skills. These policies are then distilled into a unified foundation policy via the DAgger algorithm. The distilled policy is subsequently fine-tuned using RL on a broader terrain set, including real-world 3D scans. The framework allows further adaptation to new terrains through repeated fine-tuning. The proposed policy leverages depth images as exteroceptive inputs, enabling robust navigation across diverse, unstructured terrains. Experimental results demonstrate significant performance improvements over existing methods in synthesizing multi-terrain skills into a single controller. Deployment on the ANYmal D robot validates the policy’s ability to navigate complex environments with agility and robustness, setting a new benchmark for legged robot locomotion.

arxiv情報

著者 Nikita Rudin,Junzhe He,Joshua Aurand,Marco Hutter
発行日 2025-05-16 12:07:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Parkour in the Wild: Learning a General and Extensible Agile Locomotion Policy Using Multi-expert Distillation and RL Fine-tuning はコメントを受け付けていません

Distilling Contact Planning for Fast Trajectory Optimization in Robot Air Hockey

要約

長い視野や不連続なシステムダイナミクスにわたって推論が必要であるため、連絡を介したロボット制御は困難です。
エアホッケーなどの非常にダイナミックなタスクには、アジャイルの動作がさらに必要であり、リアルタイムでの計画に対応する最適な制御問題を扱うことができます。
学習ベースのアプローチは、コンタクトを介してオフライン学習フェーズに計算上の高価な推論をシフトすることにより、この問題に対処します。
ただし、そのような制約に近接して動作する場合、運動学的および動的な制約の対象となる低レベルの運動ポリシーを学習することが困難になる可能性があります。
このペーパーでは、高レベルの接触計画のための確率的最適制御ポリシーと、低レベルの制約モーション計画のためのオンラインモデル予測制御の組み合わせを調査します。
私たちのシステムは、銀行のショットとロボットの運動学的構造を活用することにより、撮影の精度と結果として生じるパック速度のバランスを取ることを学びます。
提案されたフレームワークは、ロボットエアホッケーのシミュレートされたゲームと実世界の両方のゲームで、純粋に制御ベースの純粋に学習ベースのテクニックよりも優れていることを示しています。

要約(オリジナル)

Robot control through contact is challenging as it requires reasoning over long horizons and discontinuous system dynamics. Highly dynamic tasks such as Air Hockey additionally require agile behavior, making the corresponding optimal control problems intractable for planning in realtime. Learning-based approaches address this issue by shifting computationally expensive reasoning through contacts to an offline learning phase. However, learning low-level motor policies subject to kinematic and dynamic constraints can be challenging if operating in proximity to such constraints is desired. This paper explores the combination of distilling a stochastic optimal control policy for high-level contact planning and online model-predictive control for low-level constrained motion planning. Our system learns to balance shooting accuracy and resulting puck speed by leveraging bank shots and the robot’s kinematic structure. We show that the proposed framework outperforms purely control-based and purely learning-based techniques in both simulated and real-world games of Robot Air Hockey.

arxiv情報

著者 Julius Jankowski,Ante Marić,Puze Liu,Davide Tateo,Jan Peters,Sylvain Calinon
発行日 2025-05-16 12:10:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Distilling Contact Planning for Fast Trajectory Optimization in Robot Air Hockey はコメントを受け付けていません

Radiance Fields for Robotic Teleoperation

要約

ニューラル放射輝度フィールド(NERF)や3Dガウススプラッティング(3DG)などの放射磁場方法は、グラフィックスと新しいビューの合成に革命をもたらしました。
写真が現実的な品質を備えた新しい視点を合成し、複雑なボリュームと鏡面のシーンをキャプチャする能力により、ロボットテレオ操作のセットアップの理想的な視覚化になります。
ダイレクトカメラテレオペレーションは、操縦性を犠牲にして高忠実な操作を提供し、再構築ベースのアプローチは忠実度が低い制御可能なシーンを提供します。
これを念頭に置いて、ロボットテレオ操作パイプラインの従来の再構築視覚化コンポーネントをオンラインラディアンスフィールドに置き換えることを提案し、光線上の品質を備えた非常に操作可能なシーンを提供します。
そのため、最先端の3つの主な貢献があります。(1)複数のカメラからのライブデータを使用した輝度フィールドのオンライントレーニング、(2)NERFや3DGを含むさまざまな輝き方法のサポート、(3)仮想現実シーンを含むこれらの方法の視覚化スイート。
既存のセットアップとのシームレスな統合を有効にするために、これらのコンポーネントは複数の構成で複数のロボットでテストされ、従来のツールとVRヘッドセットを使用して表示されました。
メソッドとロボット間の結果は、メッシュ再構成のベースラインと定量的に比較され、さまざまな視覚化方法を比較するためにユーザー調査を実施しました。
ビデオとコードについては、https://rffr.leggedrobotics.com/works/teleoperation/をご覧ください。

要約(オリジナル)

Radiance field methods such as Neural Radiance Fields (NeRFs) or 3D Gaussian Splatting (3DGS), have revolutionized graphics and novel view synthesis. Their ability to synthesize new viewpoints with photo-realistic quality, as well as capture complex volumetric and specular scenes, makes them an ideal visualization for robotic teleoperation setups. Direct camera teleoperation provides high-fidelity operation at the cost of maneuverability, while reconstruction-based approaches offer controllable scenes with lower fidelity. With this in mind, we propose replacing the traditional reconstruction-visualization components of the robotic teleoperation pipeline with online Radiance Fields, offering highly maneuverable scenes with photorealistic quality. As such, there are three main contributions to state of the art: (1) online training of Radiance Fields using live data from multiple cameras, (2) support for a variety of radiance methods including NeRF and 3DGS, (3) visualization suite for these methods including a virtual reality scene. To enable seamless integration with existing setups, these components were tested with multiple robots in multiple configurations and were displayed using traditional tools as well as the VR headset. The results across methods and robots were compared quantitatively to a baseline of mesh reconstruction, and a user study was conducted to compare the different visualization methods. For videos and code, check out https://rffr.leggedrobotics.com/works/teleoperation/.

arxiv情報

著者 Maximum Wilder-Smith,Vaishakh Patil,Marco Hutter
発行日 2025-05-16 12:13:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Radiance Fields for Robotic Teleoperation はコメントを受け付けていません

Robot-Assisted Drone Recovery on a Wavy Surface Using Error-State Kalman Filter and Receding Horizon Model Predictive Control

要約

乱れた水面でドローンを回収することは、海上ロボット工学における重要な課題のままです。
この論文では、2つの主要なタスクに対処する波状の表面でのロボット支援ドローン回復のための統一されたフレームワークを提案します。1つ目は、エラーステートカルマンフィルター(ESKF)を使用した波誘発妨害下での移動ドローンの位置の正確な予測、および第二に、Reming Horizo​​nコントロール(RHC)を介したマニピュレーターの効果的な動き計画です。
具体的には、ESKFはドローンの将来の位置を0.5秒先に予測しますが、マニピュレーターはリアルタイムでキャプチャ軌道を計画しているため、波誘発性の基本動ちだけでなく、限られたトルク制約も克服します。
マニピュレーターサブシステムとUAVサブシステムを含むシステム設計を提供します。
UAV側では、ポジションコントロールと停止ペイロード戦略がどのように実装されているかを詳しく説明します。
マニピュレーターの側では、RHCスキームが従来の低レベルのコントロールアルゴリズムよりも優れていることを示します。
シミュレーションと現実世界の実験 – 波に耐えられたモーションデータを使用 – は、私たちのアプローチが高い成功率を達成することを示しています – 95%を超えて、従来のベースライン方法を最大10%、精度が20%上回ることを示しています。
結果は、最先端の(SOTA)パフォーマンスを達成し、海上ドローン運用のための実用的なソリューションを提供するシステムの実現可能性と堅牢性を強調しています。

要約(オリジナル)

Recovering a drone on a disturbed water surface remains a significant challenge in maritime robotics. In this paper, we propose a unified framework for Robot-Assisted Drone Recovery on a Wavy Surface that addresses two major tasks: Firstly, accurate prediction of a moving drone’s position under wave-induced disturbances using an Error-State Kalman Filter (ESKF), and secondly, effective motion planning for a manipulator via Receding Horizon Control (RHC). Specifically, the ESKF predicts the drone’s future position 0.5s ahead, while the manipulator plans a capture trajectory in real time, thus overcoming not only wave-induced base motions but also limited torque constraints. We provide a system design that comprises a manipulator subsystem and a UAV subsystem. On the UAV side, we detail how position control and suspended payload strategies are implemented. On the manipulator side, we show how an RHC scheme outperforms traditional low-level control algorithms. Simulation and real-world experiments – using wave-disturbed motion data – demonstrate that our approach achieves a high success rate – above 95% and outperforms conventional baseline methods by up to 10% in efficiency and 20% in precision. The results underscore the feasibility and robustness of our system, which achieves state-of-the-art (SOTA) performance and offers a practical solution for maritime drone operations.

arxiv情報

著者 Yimou Wu,Mingyang Liang
発行日 2025-05-16 12:15:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Robot-Assisted Drone Recovery on a Wavy Surface Using Error-State Kalman Filter and Receding Horizon Model Predictive Control はコメントを受け付けていません

Real-Time Verification of Embodied Reasoning for Generative Skill Acquisition

要約

生成スキルの習得により、具体化されたエージェントは、大規模な意思決定モデルの進歩に不可欠な、制御スキルのスケーラブルで進化するレパートリーを積極的に学習できます。
事前のアプローチは、多くの場合、ジェネラリストのエージェント(LLMなど)からの監督信号に依存していますが、複雑な3D環境での有効性は不明のままです。
徹底的な評価には、かなりの計算コストが発生し、スキル学習の効率を大幅に妨げます。
数学的推論の検証モデルにおける最近の成功に触発され、リアルタイム検証原則を具体化されたスキル学習に体系的に統合するフレームワークであるVergsa(生成スキル習得の具体化された推論の検証)を提案します。
Vergsaは、1)数学的推論の検証から、コンテキストに関連するタスクをプロンプトに動的に組み込み、サブタスクと全体的なタスクの両方の成功メトリックを定義することにより、具体化された学習への具体化された学習へのシームレスな拡張、および2)貢献したシグネールを最終的に最終化するために、密集した報酬の兆候を確立します。
私たちの知る限り、このアプローチは、検証駆動型の生成スキル獲得のための最初の包括的なトレーニングデータセットを構成し、骨の折れる手動報酬エンジニアリングを排除します。
実験では、アプローチの有効性を検証します。1)模範タスクプールにより、平均タスクの成功率が21%改善され、2)検証モデルは、新しいタスクで24%、遭遇したタスクで36%を高め、3)検証品質におけるLLM-AS-A-Judgeベースラインを上回る。

要約(オリジナル)

Generative skill acquisition enables embodied agents to actively learn a scalable and evolving repertoire of control skills, crucial for the advancement of large decision models. While prior approaches often rely on supervision signals from generalist agents (e.g., LLMs), their effectiveness in complex 3D environments remains unclear; exhaustive evaluation incurs substantial computational costs, significantly hindering the efficiency of skill learning. Inspired by recent successes in verification models for mathematical reasoning, we propose VERGSA (Verifying Embodied Reasoning in Generative Skill Acquisition), a framework that systematically integrates real-time verification principles into embodied skill learning. VERGSA establishes 1) a seamless extension from verification of mathematical reasoning into embodied learning by dynamically incorporating contextually relevant tasks into prompts and defining success metrics for both subtasks and overall tasks, and 2) an automated, scalable reward labeling scheme that synthesizes dense reward signals by iteratively finalizing the contribution of scene configuration and subtask learning to overall skill acquisition. To the best of our knowledge, this approach constitutes the first comprehensive training dataset for verification-driven generative skill acquisition, eliminating arduous manual reward engineering. Experiments validate the efficacy of our approach: 1) the exemplar task pool improves the average task success rates by 21%, 2) our verification model boosts success rates by 24% for novel tasks and 36% for encountered tasks, and 3) outperforms LLM-as-a-Judge baselines in verification quality.

arxiv情報

著者 Bo Yue,Shuqi Guo,Kaiyu Hu,Chujiao Wang,Benyou Wang,Kui Jia,Guiliang Liu
発行日 2025-05-16 12:19:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Real-Time Verification of Embodied Reasoning for Generative Skill Acquisition はコメントを受け付けていません

MetaSym: A Symplectic Meta-learning Framework for Physical Intelligence

要約

スケーラブルで一般化可能な物理学を対象としたディープラーニングは、ロボット工学から分子動力学に至るまで、さまざまなドメインを越えたさまざまなアプリケーションで重要な課題と考えられてきました。
ほとんどすべての物理システムの中心は、エネルギーや運動量などの基本的な不変剤を支える幾何学的なバックボーンであるシンプレクティック形式です。
この作業では、新しいディープラーニングフレームワークであるMetasymを紹介します。
特に、Metasymは、シンプレクティックエンコーダーから得られた強力なシンプレクティック誘導バイアスと、メタアテンションのある自己回帰デコーダーを組み合わせています。
この原則的な設計により、コアの物理的不変剤はそのままのままでありながら、システムの不均一性への柔軟でデータ効率の高い適応を可能にします。
メタシムは、高次元のスプリングメッシュシステム(Otness et al。、2021)、散逸と測定のバック作用を備えたオープン量子システム、ロボットにインスパイアされた四輪動態など、非常に多様で現実的なデータセットをベンチマークします。
私たちの結果は、少数のショット適応の下でのモデリングダイナミクスの優れたパフォーマンスを示しており、より大きなモデルを使用する最先端のベースラインを上回ります。

要約(オリジナル)

Scalable and generalizable physics-aware deep learning has long been considered a significant challenge with various applications across diverse domains ranging from robotics to molecular dynamics. Central to almost all physical systems are symplectic forms, the geometric backbone that underpins fundamental invariants like energy and momentum. In this work, we introduce a novel deep learning framework, MetaSym. In particular, MetaSym combines a strong symplectic inductive bias obtained from a symplectic encoder, and an autoregressive decoder with meta-attention. This principled design ensures that core physical invariants remain intact, while allowing flexible, data-efficient adaptation to system heterogeneities. We benchmark MetaSym with highly varied and realistic datasets, such as a high-dimensional spring-mesh system (Otness et al., 2021), an open quantum system with dissipation and measurement backaction, and robotics-inspired quadrotor dynamics. Our results demonstrate superior performance in modeling dynamics under few-shot adaptation, outperforming state-of-the-art baselines that use larger models.

arxiv情報

著者 Pranav Vaidhyanathan,Aristotelis Papatheodorou,Mark T. Mitchison,Natalia Ares,Ioannis Havoutis
発行日 2025-05-16 12:28:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, physics.comp-ph, quant-ph | MetaSym: A Symplectic Meta-learning Framework for Physical Intelligence はコメントを受け付けていません

Multi-Modal Multi-Task (M3T) Federated Foundation Models for Embodied AI: Potentials and Challenges for Edge Integration

要約

具体化されたAIシステムがますますマルチモーダル、パーソナライズ、インタラクティブになるにつれて、多様な感覚入力から効果的に学習し、ユーザーの好みに継続的に適応し、リソースとプライバシーの制約の下で安全に動作する必要があります。
これらの課題は、モデルの一般化とパーソナライズのバランスをとりながら、迅速でコンテキストを意識した適応が可能な機械学習モデルの差し迫ったニーズを明らかにします。
ここでは、2つの方法が適切な候補として出現し、それぞれこれらの機能の一部を提供します。ファンデーションモデル(FMS)は、タスクとモダリティ全体の一般化への経路を提供しますが、フェデレートラーニング(FL)は、分散したプライバシーを提供するモデルの更新とユーザーレベルモデルのパーソナライズのためのインフラストラクチャを提供します。
ただし、単独で使用すると、これらのアプローチのそれぞれは、実際の具体化された環境の複雑で多様な能力要件を満たすことができません。
このビジョンペーパーでは、具体化されたAIのフェデレーションファンデーションモデル(FFM)を導入します。これは、マルチモーダルマルチタスク(M3T)FMの強みをFLのプライバシー提供分布の性質と統合し、ワイヤレスエッジでインテリジェントシステムを可能にします。
統合されたAIエコシステムにおけるFFMの重要な展開ディメンションを統一されたフレームワークの下で収集します。これは、「embody」と呼ばれます。具体化不均一性、モダリティの豊かさと不均衡、帯域幅と計算、継続的な学習、分布コントロールと自律性、および個人化の生成、および個人化の生成。
それぞれについて、具体的な課題を特定し、実用的な研究の方向性を想像します。
また、関連するトレードオフとともに、具体化されたAIシステムにFFMを展開するための評価フレームワークも提示します。

要約(オリジナル)

As embodied AI systems become increasingly multi-modal, personalized, and interactive, they must learn effectively from diverse sensory inputs, adapt continually to user preferences, and operate safely under resource and privacy constraints. These challenges expose a pressing need for machine learning models capable of swift, context-aware adaptation while balancing model generalization and personalization. Here, two methods emerge as suitable candidates, each offering parts of these capabilities: Foundation Models (FMs) provide a pathway toward generalization across tasks and modalities, whereas Federated Learning (FL) offers the infrastructure for distributed, privacy-preserving model updates and user-level model personalization. However, when used in isolation, each of these approaches falls short of meeting the complex and diverse capability requirements of real-world embodied environments. In this vision paper, we introduce Federated Foundation Models (FFMs) for embodied AI, a new paradigm that unifies the strengths of multi-modal multi-task (M3T) FMs with the privacy-preserving distributed nature of FL, enabling intelligent systems at the wireless edge. We collect critical deployment dimensions of FFMs in embodied AI ecosystems under a unified framework, which we name ‘EMBODY’: Embodiment heterogeneity, Modality richness and imbalance, Bandwidth and compute constraints, On-device continual learning, Distributed control and autonomy, and Yielding safety, privacy, and personalization. For each, we identify concrete challenges and envision actionable research directions. We also present an evaluation framework for deploying FFMs in embodied AI systems, along with the associated trade-offs.

arxiv情報

著者 Kasra Borazjani,Payam Abdisarabshali,Fardis Nadimi,Naji Khosravan,Minghui Liwang,Xianbin Wang,Yiguang Hong,Seyyedali Hosseinalipour
発行日 2025-05-16 12:49:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Multi-Modal Multi-Task (M3T) Federated Foundation Models for Embodied AI: Potentials and Challenges for Edge Integration はコメントを受け付けていません

Unveiling the Potential of Vision-Language-Action Models with Open-Ended Multimodal Instructions

要約

Vision-Language-active(VLA)モデルは、最近、ロボット工学の分野で非常に顕著になりました。
大規模なインターネットデータでトレーニングされたビジョン言語基礎モデルを活用すると、VLAモデルは、単一のエンドツーエンドニューラルネットワークを介して、視覚観測と人間の指示から直接ロボットアクションを生成できます。
それらの有効性にもかかわらず、現在のVLAモデルは通常、人間のプロンプト、言語指示の1つの形式のみを受け入れます。これにより、オープンエンドの人間とロボットの相互作用における適用性が制約されます。
たとえば、ユーザーは、ロボットが画像に表示されているオブジェクトを取得したり、ホワイトボードに書かれた命令に従い、言語ベースの説明に依存するのではなく、ビデオで示されている動作を模倣することを期待する場合があります。
このギャップに対処するために、OE-VLAを紹介します。OE-VLAは、オープンエンドマルチモーダル命令のVLAモデルの可能性を調査します。
広範な結果は、OE-VLAが言語入力を備えた従来のVLAモデルに匹敵するパフォーマンスを達成するだけでなく、4つの追加カテゴリのオープンエンドタスクにわたって印象的な結果をもたらすことを示しています。
提案された方法論は、さまざまな日常のシナリオにわたってVLAモデルのアプリケーションを大幅に拡張し、人間とロボットの相互作用を促進する可能性があります。

要約(オリジナル)

Vision-Language-Action (VLA) models have recently become highly prominent in the field of robotics. Leveraging vision-language foundation models trained on large-scale internet data, the VLA model can generate robotic actions directly from visual observations and human instructions through a single end-to-end neural network. Despite their effectiveness, current VLA models usually accept only one form of human prompting, language instructions, which may constrain their applicability in open-ended human-robot interactions. For example, a user might expect the robot to retrieve an object shown in an image, follow an instruction written on the whiteboard, or imitate a behavior demonstrated in a video, rather than relying solely on language-based descriptions. To address this gap, we introduce OE-VLA, which explores the potential of VLA models for open-ended multimodal instructions. Extensive results demonstrate that our OE-VLA not only achieves comparable performance to traditional VLA models with linguistic input but also delivers impressive results across four additional categories of open-ended tasks. The proposed methodology could significantly expand the applications of VLA models across various everyday scenarios and facilitate human-robot interaction.

arxiv情報

著者 Wei Zhao,Gongsheng Li,Zhefei Gong,Pengxiang Ding,Han Zhao,Donglin Wang
発行日 2025-05-16 13:12:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Unveiling the Potential of Vision-Language-Action Models with Open-Ended Multimodal Instructions はコメントを受け付けていません

LD-Scene: LLM-Guided Diffusion for Controllable Generation of Adversarial Safety-Critical Driving Scenarios

要約

自律駆動システムの安全性と堅牢性を確保するには、安全性が批判的なシナリオで包括的な評価を必要とします。
ただし、これらの安全性が批判的なシナリオはまれであり、現実世界の駆動データから収集することは困難であり、自動運転車のパフォーマンスを効果的に評価するための重要な課題を提起しています。
典型的な既存の方法は、限られた制御可能性に悩まされ、ユーザーフレンドリーに欠けていることが多く、本質的に広範な専門知識が必要であるためです。
これらの課題に対処するために、LD-Sceneを提案します。LD-Sceneは、自然言語を介したユーザー制御可能な敵対的シナリオ生成のための大規模な言語モデル(LLM)と潜在的な拡散モデル(LDMS)を統合する新しいフレームワークです。
私たちのアプローチは、現実的な駆動軌道分布をキャプチャするLDMと、ユーザークエリを敵対的な損失関数に変換するLLMベースのガイダンスモジュールで構成され、ユーザークエリに沿ったシナリオの生成を促進します。
ガイダンスモジュールは、LLMベースの考え方(COT)コードジェネレーターとLLMベースのコードデバッガーを統合し、ガイダンス関数を生成する際の制御可能性と堅牢性を高めます。
ヌスセンデータセットで実施された広範な実験は、LDシーンが現実的で多様で効果的な敵対的なシナリオを生成する上で最先端のパフォーマンスを達成することを示しています。
さらに、私たちのフレームワークは、敵対的な行動をきれいに制御するため、特定の運転シナリオに合わせたより効果的なテストを促進します。

要約(オリジナル)

Ensuring the safety and robustness of autonomous driving systems necessitates a comprehensive evaluation in safety-critical scenarios. However, these safety-critical scenarios are rare and difficult to collect from real-world driving data, posing significant challenges to effectively assessing the performance of autonomous vehicles. Typical existing methods often suffer from limited controllability and lack user-friendliness, as extensive expert knowledge is essentially required. To address these challenges, we propose LD-Scene, a novel framework that integrates Large Language Models (LLMs) with Latent Diffusion Models (LDMs) for user-controllable adversarial scenario generation through natural language. Our approach comprises an LDM that captures realistic driving trajectory distributions and an LLM-based guidance module that translates user queries into adversarial loss functions, facilitating the generation of scenarios aligned with user queries. The guidance module integrates an LLM-based Chain-of-Thought (CoT) code generator and an LLM-based code debugger, enhancing the controllability and robustness in generating guidance functions. Extensive experiments conducted on the nuScenes dataset demonstrate that LD-Scene achieves state-of-the-art performance in generating realistic, diverse, and effective adversarial scenarios. Furthermore, our framework provides fine-grained control over adversarial behaviors, thereby facilitating more effective testing tailored to specific driving scenarios.

arxiv情報

著者 Mingxing Peng,Yuting Xie,Xusen Guo,Ruoyu Yao,Hai Yang,Jun Ma
発行日 2025-05-16 13:41:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | LD-Scene: LLM-Guided Diffusion for Controllable Generation of Adversarial Safety-Critical Driving Scenarios はコメントを受け付けていません

Search-TTA: A Multimodal Test-Time Adaptation Framework for Visual Search in the Wild

要約

環境監視の自律視覚検索を実行するために、ロボットは衛星画像を前のマップとして活用することができます。
これは、そのような画像がターゲットの微細な明示的な視覚認識を可能にするのに十分な解像度がない場合でも、粗く、高レベルの検索および探索戦略を通知するのに役立ちます。
ただし、衛星画像を使用して視覚的な検索を指示することで克服すべきいくつかの課題があります。
1つは、衛星画像で見えないターゲットは、ほとんどの既存のデータセットでは(地上画像と比較して)過小評価されているため、これらのデータセットでトレーニングされたビジョンモデルは、間接的な視覚キューに基づいて効果的に推論できません。
さらに、一般化のために大きなビジョン言語モデル(VLM)を活用するアプローチは、幻覚のために不正確な出力をもたらし、非効率的な検索につながる可能性があります。
これらの課題に対処するために、テキストや画像入力を受け入れることができるマルチモーダルテスト時間適応フレームワークであるSearch-TTAを紹介します。
まず、リモートセンシングイメージエンコーダーを前処理して、視覚検索に使用されるターゲット存在の出力確率分布にClipの視覚エンコーダーに合わせます。
第二に、フレームワークは、テスト時間適応メカニズムを使用して、検索中のクリップの予測を動的に改良します。
空間ポアソンポイントプロセスに触発されたフィードバックループを介して、勾配の更新(不確実性によって重み付け)を使用して、予測(潜在的に不正確な)予測と検索パフォーマンスを改善するために使用されます。
Search-TTAのパフォーマンスを検証するために、インターネットスケールの生態学的データに基づいて視覚検索データセットをキュレートします。
特に初期クリップ予測が不十分な場合、Search-TTAはプランナーのパフォーマンスを最大9.7%改善することがわかります。
また、最先端のVLMに匹敵するパフォーマンスを達成します。
最後に、オンボードセンシングを提供する大規模なシミュレーション内で動作をシミュレートすることにより、ハードウェアインザループテストを介して、実際のUAVにSearch-TTAを展開します。

要約(オリジナル)

To perform autonomous visual search for environmental monitoring, a robot may leverage satellite imagery as a prior map. This can help inform coarse, high-level search and exploration strategies, even when such images lack sufficient resolution to allow fine-grained, explicit visual recognition of targets. However, there are some challenges to overcome with using satellite images to direct visual search. For one, targets that are unseen in satellite images are underrepresented (compared to ground images) in most existing datasets, and thus vision models trained on these datasets fail to reason effectively based on indirect visual cues. Furthermore, approaches which leverage large Vision Language Models (VLMs) for generalization may yield inaccurate outputs due to hallucination, leading to inefficient search. To address these challenges, we introduce Search-TTA, a multimodal test-time adaptation framework that can accept text and/or image input. First, we pretrain a remote sensing image encoder to align with CLIP’s visual encoder to output probability distributions of target presence used for visual search. Second, our framework dynamically refines CLIP’s predictions during search using a test-time adaptation mechanism. Through a feedback loop inspired by Spatial Poisson Point Processes, gradient updates (weighted by uncertainty) are used to correct (potentially inaccurate) predictions and improve search performance. To validate Search-TTA’s performance, we curate a visual search dataset based on internet-scale ecological data. We find that Search-TTA improves planner performance by up to 9.7%, particularly in cases with poor initial CLIP predictions. It also achieves comparable performance to state-of-the-art VLMs. Finally, we deploy Search-TTA on a real UAV via hardware-in-the-loop testing, by simulating its operation within a large-scale simulation that provides onboard sensing.

arxiv情報

著者 Derek Ming Siang Tan,Shailesh,Boyang Liu,Alok Raj,Qi Xuan Ang,Weiheng Dai,Tanishq Duhan,Jimmy Chiun,Yuhong Cao,Florian Shkurti,Guillaume Sartoretti
発行日 2025-05-16 15:15:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Search-TTA: A Multimodal Test-Time Adaptation Framework for Visual Search in the Wild はコメントを受け付けていません