Behavioral Safety Assessment towards Large-scale Deployment of Autonomous Vehicles

要約

自動運転車(AV)は近年、現実世界の展開において大幅に進歩していますが、安全性は引き続き広範な採用の重要な障壁です。
主に車両中心の観点からAVハードウェアおよびソフトウェアシステムの信頼性、堅牢性、および妥当性を検証する従来の機能的安全性アプローチは、周囲の交通環境に対するAVのより広い相互作用と行動的影響に十分に対処しません。
この制限を克服するために、交通環境内のAV応答と相互作用の評価に焦点を当てた包括的なアプローチである行動安全へのパラダイムシフトを提案します。
行動の安全性を体系的に評価するために、ドライバーライセンステストと運転インテリジェンステストという2つの補完的な評価コンポーネントを含むサードパーティAV安全評価フレームワークを紹介します。
ドライバーライセンステストは、制御されたシナリオでAVのリアクティブな動作を評価し、基本的な行動能力を確保します。
対照的に、運転インテリジェンステストは、自然主義的な交通条件内でのAVのインタラクティブな動作を評価し、安全性クリティカルなイベントの頻度を定量化して、大規模な展開前に統計的に意味のある安全メトリックを提供します。
オープンソースレベル4 AVであるAutoWare.Universeを使用して、ミシガン大学のMcityテスト施設の物理テストトラックの両方でテストされたAutoWare.Universeを使用して、提案されたフレームワークを検証しました。
結果は、AutoWare.Universeが14のシナリオのうち6つを通過し、1マイルあたり3.01E-3クラッシュのクラッシュ率を示し、平均人間のドライバーの衝突率よりも約1,000倍高いことを示しています。
テスト中に、autoware.universeのいくつかの未知の安全でないシナリオも発見しました。
これらの調査結果は、広範囲にわたる公共展開の前にAVの安全性能を向上させるための行動安全評価の必要性を強調しています。

要約(オリジナル)

Autonomous vehicles (AVs) have significantly advanced in real-world deployment in recent years, yet safety continues to be a critical barrier to widespread adoption. Traditional functional safety approaches, which primarily verify the reliability, robustness, and adequacy of AV hardware and software systems from a vehicle-centric perspective, do not sufficiently address the AV’s broader interactions and behavioral impact on the surrounding traffic environment. To overcome this limitation, we propose a paradigm shift toward behavioral safety, a comprehensive approach focused on evaluating AV responses and interactions within the traffic environment. To systematically assess behavioral safety, we introduce a third-party AV safety assessment framework comprising two complementary evaluation components: the Driver Licensing Test and the Driving Intelligence Test. The Driver Licensing Test evaluates the AV’s reactive behaviors under controlled scenarios, ensuring basic behavioral competency. In contrast, the Driving Intelligence Test assesses the AV’s interactive behaviors within naturalistic traffic conditions, quantifying the frequency of safety-critical events to deliver statistically meaningful safety metrics before large-scale deployment. We validated our proposed framework using Autoware.Universe, an open-source Level 4 AV, tested both in simulated environments and on the physical test track at the University of Michigan’s Mcity Testing Facility. The results indicate that Autoware.Universe passed 6 out of 14 scenarios and exhibited a crash rate of 3.01e-3 crashes per mile, approximately 1,000 times higher than the average human driver crash rate. During the tests, we also uncovered several unknown unsafe scenarios for Autoware.Universe. These findings underscore the necessity of behavioral safety evaluations for improving AV safety performance prior to widespread public deployment.

arxiv情報

著者 Henry X. Liu,Xintao Yan,Haowei Sun,Tinghan Wang,Zhijie Qiao,Haojie Zhu,Shengyin Shen,Shuo Feng,Greg Stevens,Greg McGuire
発行日 2025-05-22 04:28:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Behavioral Safety Assessment towards Large-scale Deployment of Autonomous Vehicles はコメントを受け付けていません

Manipulating Elasto-Plastic Objects With 3D Occupancy and Learning-Based Predictive Control

要約

エラストプラスチックオブジェクトの操作は、深刻な自己閉鎖、表現の難しさ、複雑なダイナミクスのために、依然として重要な課題です。
この作業は、モーションのための準静的仮定を伴うエラストプラスチックオブジェクト操作のための新しいフレームワーク、そのようなオブジェクトを表す3D占有率を活用し、3D占有で訓練された学習ダイナミクスモデル、およびこれらの課題に効果的に対処するための学習ベースの予測制御アルゴリズムを提案します。
完全な空間情報を収集し、3D占有データセットを生成するためのパイプラインを提案するための新しいデータ収集プラットフォームを構築します。
操作中に3D占有率を推測するために、占有予測ネットワークは、生成されたデータセットによって監督された複数のRGB画像でトレーニングされています。
3D畳み込みニューラルネットワーク(CNN)とグラフニューラルネットワーク(GNN)に力を与えた深いニューラルネットワークを設計して、推定された3D占有率との複雑な変形を予測します。
学習ベースの予測制御アルゴリズムが導入され、ロボットアクションを計画し、プランナーの効率を改善するために特別に設計された新しい形状ベースのアクション初期化モジュールを組み込みます。
このペーパーで提案されているフレームワークは、エラストプラスチックオブジェクトを特定の目標形状に成功裏に形作ることができ、シミュレーションと現実世界の両方でさまざまな実験で検証されています。

要約(オリジナル)

Manipulating elasto-plastic objects remains a significant challenge due to severe self-occlusion, difficulties of representation, and complicated dynamics. This work proposes a novel framework for elasto-plastic object manipulation with a quasi-static assumption for motions, leveraging 3D occupancy to represent such objects, a learned dynamics model trained with 3D occupancy, and a learning-based predictive control algorithm to address these challenges effectively. We build a novel data collection platform to collect full spatial information and propose a pipeline for generating a 3D occupancy dataset. To infer the 3D occupancy during manipulation, an occupancy prediction network is trained with multiple RGB images supervised by the generated dataset. We design a deep neural network empowered by a 3D convolution neural network (CNN) and a graph neural network (GNN) to predict the complex deformation with the inferred 3D occupancy results. A learning-based predictive control algorithm is introduced to plan the robot actions, incorporating a novel shape-based action initialization module specifically designed to improve the planner efficiency. The proposed framework in this paper can successfully shape the elasto-plastic objects into a given goal shape and has been verified in various experiments both in simulation and the real world.

arxiv情報

著者 Zhen Zhang,Xiangyu Chu,Yunxi Tang,Lulu Zhao,Jing Huang,Zhongliang Jiang,K. W. Samuel Au
発行日 2025-05-22 05:36:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Manipulating Elasto-Plastic Objects With 3D Occupancy and Learning-Based Predictive Control はコメントを受け付けていません

DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving

要約

エンドツーエンドの自律運転(E2E-AD)には、マルチビュー感覚データの効果的な処理と、特に攻撃的なターンなどのまれな操作の多様で複雑な運転シナリオの堅牢な処理が必要です。
大規模な言語モデル(LLMS)における専門家の混合物(MOE)アーキテクチャの最近の成功は、パラメーターの専門化が強力なスケーラビリティを可能にすることを示しています。
この作業では、シーン専門のビジョンMOEとスキル専門のアクションMOEを備えた、MOEベースの新しいE2E-ADフレームワークであるDrivemoeを提案します。
Drivemoeは、$ \ Pi_0 $ Vision-Language-comact(VLA)ベースライン(元々は具体化されたAIフィールドから)に基づいて構築されています。
具体的には、ドライバーをトレーニングすることにより、駆動コンテキストに従って動的に関連するカメラを選択することにより、Vision Moeをドライブに追加します-$ \ Pi_0 $を追加します。
この設計は、すべての視覚情報を徹底的に処理するのではなく、ドライバーが重要な視覚的な手がかりに選択的に注意を払う人間の運転認識を反映しています。
さらに、別のルーターをトレーニングすることにより、アクションMOEを追加して、さまざまな運転行動の専門的なエキスパートモジュールをアクティブにします。
明示的な行動の専門化を通じて、Drivemoeは既存のモデルのように平均するモードに苦しむことなく、多様なシナリオを処理できます。
Bench2Driveの閉ループ評価実験では、Drivemoeは最先端(SOTA)のパフォーマンスを達成し、自律運転タスクにおけるビジョンとアクションMOEを組み合わせることの有効性を実証します。
DrivemoeとDrive-$ \ Pi_0 $のコードとモデルをリリースします。

要約(オリジナル)

End-to-end autonomous driving (E2E-AD) demands effective processing of multi-view sensory data and robust handling of diverse and complex driving scenarios, particularly rare maneuvers such as aggressive turns. Recent success of Mixture-of-Experts (MoE) architecture in Large Language Models (LLMs) demonstrates that specialization of parameters enables strong scalability. In this work, we propose DriveMoE, a novel MoE-based E2E-AD framework, with a Scene-Specialized Vision MoE and a Skill-Specialized Action MoE. DriveMoE is built upon our $\pi_0$ Vision-Language-Action (VLA) baseline (originally from the embodied AI field), called Drive-$\pi_0$. Specifically, we add Vision MoE to Drive-$\pi_0$ by training a router to select relevant cameras according to the driving context dynamically. This design mirrors human driving cognition, where drivers selectively attend to crucial visual cues rather than exhaustively processing all visual information. In addition, we add Action MoE by training another router to activate specialized expert modules for different driving behaviors. Through explicit behavioral specialization, DriveMoE is able to handle diverse scenarios without suffering from modes averaging like existing models. In Bench2Drive closed-loop evaluation experiments, DriveMoE achieves state-of-the-art (SOTA) performance, demonstrating the effectiveness of combining vision and action MoE in autonomous driving tasks. We will release our code and models of DriveMoE and Drive-$\pi_0$.

arxiv情報

著者 Zhenjie Yang,Yilin Chai,Xiaosong Jia,Qifeng Li,Yuqian Shao,Xuekai Zhu,Haisheng Su,Junchi Yan
発行日 2025-05-22 06:23:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving はコメントを受け付けていません

TacCompress: A Benchmark for Multi-Point Tactile Data Compression in Dexterous Manipulation

要約

ロボットの器用な操作は最近かなり進行していますが、手の閉塞のような課題は依然として細粒の触覚知覚を必要とし、より触覚センサーをロボットの手に統合することにつながります。
その結果、データボリュームの増加は、ハンドのコントローラーからの信号伝達にかなりの帯域幅圧を課します。
ただし、器用な手の物理的構造に基づいたマルチポイント触覚信号の獲得と圧縮は、徹底的に調査されていません。
この論文では、私たちの貢献は2つあります。
まず、器用な手握り(DEX-MPTD)のためのマルチポイント触覚データセットを紹介します。
このデータセットは、さまざまなオブジェクトや把握ポーズにわたる複数の接触センサーからの触覚信号をキャプチャし、器用なロボット操作研究を進めるための包括的なベンチマークを提供します。
第二に、触覚データを画像に変換し、効率的な圧縮のために6つのロスレスと5つの損失のある画像コーデックを適用することにより、DEX-MPTDの損失レスと損失の両方の圧縮を調査します。
実験結果は、触覚データがサブサンプルあたり0.0364ビット(BPSS)に低い0.0364ビットに圧縮され、生の触覚データと比較して約200ドルの時間$圧縮比を達成できることを示しています。
HMやVTMなどの効率的な損失のあるコンプレッサーは、許容可能なデータの忠実度を維持しながら、約1000倍のデータ削減を達成できます。
喪失した圧縮の調査により、スクリーンコンテンツターゲットのコーディングツールは、触覚データの圧縮で汎用コーデックを上回ることが明らかになりました。

要約(オリジナル)

Though robotic dexterous manipulation has progressed substantially recently, challenges like in-hand occlusion still necessitate fine-grained tactile perception, leading to the integration of more tactile sensors into robotic hands. Consequently, the increased data volume imposes substantial bandwidth pressure on signal transmission from the hand’s controller. However, the acquisition and compression of multi-point tactile signals based on the dexterous hands’ physical structures have not been thoroughly explored. In this paper, our contributions are twofold. First, we introduce a Multi-Point Tactile Dataset for Dexterous Hand Grasping (Dex-MPTD). This dataset captures tactile signals from multiple contact sensors across various objects and grasping poses, offering a comprehensive benchmark for advancing dexterous robotic manipulation research. Second, we investigate both lossless and lossy compression on Dex-MPTD by converting tactile data into images and applying six lossless and five lossy image codecs for efficient compression. Experimental results demonstrate that tactile data can be losslessly compressed to as low as 0.0364 bits per sub-sample (bpss), achieving approximately 200$\times$ compression ratio compared to the raw tactile data. Efficient lossy compressors like HM and VTM can achieve about 1000x data reductions while preserving acceptable data fidelity. The exploration of lossy compression also reveals that screen-content-targeted coding tools outperform general-purpose codecs in compressing tactile data.

arxiv情報

著者 Yang Li,Yan Zhao,Zhengxue Cheng,Hengdi Zhang
発行日 2025-05-22 06:36:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | TacCompress: A Benchmark for Multi-Point Tactile Data Compression in Dexterous Manipulation はコメントを受け付けていません

Policy Contrastive Decoding for Robotic Foundation Models

要約

ロボットファンデーションモデル、またはジェネラリストのロボットポリシーは、柔軟で汎用的で器用なロボットシステムを可能にする計り知れない可能性を保持しています。
彼らの進歩にもかかわらず、私たちの経験的実験は、既存のロボットポリシーがトレーニング前の軌跡から偽の相関関係を学ぶ傾向があり、トレーニングデータを超えて一般化能力に悪影響を与えることを明らかにしています。
これに取り組むために、新しいポリシーコントラストデコード(PCD)アプローチを提案します。これは、元の視覚入力とオブジェクトマスクされた視覚入力から派生したアクション確率分布を対比することにより、オブジェクト関連の視覚的手がかりに対するロボットポリシーの焦点をリダイレクトします。
トレーニングなしの方法として、当社のPCDは、モデルの重みを微調整またはアクセスする必要なく、さまざまな種類のロボットポリシーを改善するためのプラグインとして使用できます。
オートレーフレフなポリシーOpenVLAや拡散ベースのポリシーOCTOおよび$ \ PI_0 $など、3つのオープンソースロボットポリシーに加えて広範な実験を実施しています。
シミュレーションと現実世界の両方の環境で得られた結果は、PCDの柔軟性と有効性を証明します。たとえば、PCDは、シミュレーション環境で最先端のポリシー$ \ PI_0 $を8%、実際の環境で108%強化します。
コードとデモは、https://koorye.github.io/proj/pcdで公開されています。

要約(オリジナル)

Robotic foundation models, or generalist robot policies, hold immense potential to enable flexible, general-purpose and dexterous robotic systems. Despite their advancements, our empirical experiments reveal that existing robot policies are prone to learning spurious correlations from pre-training trajectories, adversely affecting their generalization capabilities beyond the training data. To tackle this, we propose a novel Policy Contrastive Decoding (PCD) approach, which redirects the robot policy’s focus toward object-relevant visual clues by contrasting action probability distributions derived from original and object-masked visual inputs. As a training-free method, our PCD can be used as a plugin to improve different types of robot policies without needing to finetune or access model weights. We conduct extensive experiments on top of three open-source robot policies, including the autoregressive policy OpenVLA and the diffusion-based policies Octo and $\pi_0$. The obtained results in both simulation and real-world environments prove PCD’s flexibility and effectiveness, e.g., PCD enhances the state-of-the-art policy $\pi_0$ by 8% in the simulation environment and by 108% in the real-world environment. Code and demos are publicly available at: https://Koorye.github.io/proj/PCD.

arxiv情報

著者 Shihan Wu,Ji Zhang,Xu Luo,Junlin Xie,Jingkuan Song,Heng Tao Shen,Lianli Gao
発行日 2025-05-22 07:53:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Policy Contrastive Decoding for Robotic Foundation Models はコメントを受け付けていません

Provable Ordering and Continuity in Vision-Language Pretraining for Generalizable Embodied Agents

要約

人間のアクションビデオに関するトレーニング前のビジョン言語表現は、具体化されたエージェントをトレーニングするための大規模な専門家デモへの依存を減らすための有望なアプローチとして浮上しています。
ただし、以前の方法では、目標を達成するヒューリスティックに基づいて時間対照的な学習を使用し、初期フレームから最終フレームに徐々に言語の指示を調整します。
将来のフレームのこの過剰症は、アクションが早期に終了したり、最終的には無関係な瞬間を含める可能性があるため、誤ったビジョン言語の関連付けをもたらす可能性があります。
この問題に対処するために、硬直した目標ベースの制約なしに、秩序と継続的な視覚言語表現を学ぶために、アクション時間コヒーレンス学習(Actol)を提案します。
Actolは、ビデオを連続的な軌跡として扱い、(1)フレーム間のセマンティックな違いを自然な秩序化を反映し、(2)中間フレーム間のスムーズな遷移を確保するために地元のブラウンブリッジの制約を課します。
シミュレートされたロボットと実際のロボットの両方での広範な模倣学習実験は、前提条件の特徴が、異なる言語スタイルの指示に対する高い堅牢性を備えた下流の操作タスクを大幅に強化し、一般化された具体化されたエージェントへの実行可能な経路を提供することを示しています。

要約(オリジナル)

Pre-training vision-language representations on human action videos has emerged as a promising approach to reduce reliance on large-scale expert demonstrations for training embodied agents. However, prior methods often employ time contrastive learning based on goal-reaching heuristics, progressively aligning language instructions from the initial to the final frame. This overemphasis on future frames can result in erroneous vision-language associations, as actions may terminate early or include irrelevant moments in the end. To address this issue, we propose Action Temporal Coherence Learning (AcTOL) to learn ordered and continuous vision-language representations without rigid goal-based constraint. AcTOL treats a video as a continuous trajectory where it (1) contrasts semantic differences between frames to reflect their natural ordering, and (2) imposes a local Brownian bridge constraint to ensure smooth transitions across intermediate frames. Extensive imitation learning experiments on both simulated and real robots show that the pretrained features significantly enhance downstream manipulation tasks with high robustness to different linguistic styles of instructions, offering a viable pathway toward generalized embodied agents.

arxiv情報

著者 Zhizhen Zhang,Lei Zhu,Zhen Fang,Zi Huang,Yadan Luo
発行日 2025-05-22 08:03:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Provable Ordering and Continuity in Vision-Language Pretraining for Generalizable Embodied Agents はコメントを受け付けていません

DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping

要約

器用な把握は、ロボット工学の根本的でありながら挑戦的な問題のままです。
汎用ロボットは、任意のシナリオで多様なオブジェクトを把握できる必要があります。
ただし、既存の研究は通常、単一オブジェクトの設定や限られた環境などの制限的な仮定に依存しており、一般化が制約されます。
RGBの画像認識と言語の指示に基づいて、乱雑なシーンで巧妙な脱線のための階層的なフレームワークであるDexGraspVlaを提示します。
事前に訓練されたビジョン言語モデルを高レベルのタスクプランナーとして利用し、低レベルのアクションコントローラーとして拡散ベースのポリシーを学習します。
堅牢な一般化を実現するための重要な洞察は、ドメインシフトの緩和により模倣学習を効果的に適用できる、基礎モデルを介して、多様な言語と視覚入力をドメイン不変の表現に繰り返し変換することにあります。
特に、私たちの方法は、「ゼロショット」環境での何千もの目に見えないオブジェクト、照明、および背景の組み合わせの下で90以上の成功率を達成します。
経験的分析により、環境の変動全体にわたる内部モデルの動作の一貫性が確認され、それにより設計を検証し、その一般化パフォーマンスを説明します。
DexGraspVLAは、フリーフォームの長老迅速な実行、敵対的なオブジェクトへの堅牢性と人間の妨害、および故障回復も示しています。
非摂食オブジェクトへの拡張アプリケーションは、その一般性をさらに証明します。
コード、モデル、およびビデオは、dexgraspvla.github.ioで入手できます。

要約(オリジナル)

Dexterous grasping remains a fundamental yet challenging problem in robotics. A general-purpose robot must be capable of grasping diverse objects in arbitrary scenarios. However, existing research typically relies on restrictive assumptions, such as single-object settings or limited environments, leading to constrained generalization. We present DexGraspVLA, a hierarchical framework for general dexterous grasping in cluttered scenes based on RGB image perception and language instructions. It utilizes a pre-trained Vision-Language model as the high-level task planner and learns a diffusion-based policy as the low-level Action controller. The key insight to achieve robust generalization lies in iteratively transforming diverse language and visual inputs into domain-invariant representations via foundation models, where imitation learning can be effectively applied due to the alleviation of domain shift. Notably, our method achieves a 90+% success rate under thousands of unseen object, lighting, and background combinations in a ‘zero-shot’ environment. Empirical analysis confirms the consistency of internal model behavior across environmental variations, thereby validating our design and explaining its generalization performance. DexGraspVLA also demonstrates free-form long-horizon prompt execution, robustness to adversarial objects and human disturbance, and failure recovery, which are rarely achieved simultaneously in prior work. Extended application to nonprehensile object grasping further proves its generality. Code, model, and video are available at dexgraspvla.github.io.

arxiv情報

著者 Yifan Zhong,Xuchuan Huang,Ruochong Li,Ceyao Zhang,Yitao Liang,Yaodong Yang,Yuanpei Chen
発行日 2025-05-22 08:27:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping はコメントを受け付けていません

VL-SAFE: Vision-Language Guided Safety-Aware Reinforcement Learning with World Models for Autonomous Driving

要約

強化学習(RL)ベースの自律運転政策学習は、サンプル効率の低さや一般化の低下などの重大な制限に直面しています。
オンラインのやり取りと試行錯誤の学習への依存は、安全性の高いシナリオでは特に受け入れられません。
SAFE RLを含む既存の方法は、複雑な運転コンテキストで「安全性」の真の意味的な意味をキャプチャできず、過度に保守的な運転行動または制約違反のいずれかにつながります。
これらの課題に対処するために、オフラインの安全なポリシー学習用に設計された、視覚言語モデル(VLM) – 安全測定パラダイムとしてのVision-Language Model(VLM)を備えた世界モデルベースの安全なRLフレームワークであるVL-Safeを提案します。
具体的には、エキスパートエージェントによって収集され、VLMSから派生した安全スコアでラベル付けされたデータを含むオフラインデータセットを構築します。
世界モデルは、想像上のロールアウトを安全性の推定で生成するように訓練されており、エージェントが実際の環境と対話せずに安全な計画を実行できるようにします。
これらの想像上の軌跡と安全評価に基づいて、俳優と批判の学習は、運転ポリシーをより安全かつ効率的に最適化するために、VLMベースの安全ガイダンスの下で実施されます。
広範な評価は、VLセーフが既存のベースラインと比較して優れたサンプル効率、一般化、安全性、および全体的なパフォーマンスを達成することを示しています。
私たちの知る限り、これは安全な自律運転のためのVLM誘導世界モデルベースのアプローチを導入する最初の作品です。
デモビデオとコードには、https://ys-qu.github.io/vlsafe-website/でアクセスできます。

要約(オリジナル)

Reinforcement learning (RL)-based autonomous driving policy learning faces critical limitations such as low sample efficiency and poor generalization; its reliance on online interactions and trial-and-error learning is especially unacceptable in safety-critical scenarios. Existing methods including safe RL often fail to capture the true semantic meaning of ‘safety’ in complex driving contexts, leading to either overly conservative driving behavior or constraint violations. To address these challenges, we propose VL-SAFE, a world model-based safe RL framework with Vision-Language model (VLM)-as-safety-guidance paradigm, designed for offline safe policy learning. Specifically, we construct offline datasets containing data collected by expert agents and labeled with safety scores derived from VLMs. A world model is trained to generate imagined rollouts together with safety estimations, allowing the agent to perform safe planning without interacting with the real environment. Based on these imagined trajectories and safety evaluations, actor-critic learning is conducted under VLM-based safety guidance to optimize the driving policy more safely and efficiently. Extensive evaluations demonstrate that VL-SAFE achieves superior sample efficiency, generalization, safety, and overall performance compared to existing baselines. To the best of our knowledge, this is the first work that introduces a VLM-guided world model-based approach for safe autonomous driving. The demo video and code can be accessed at: https://ys-qu.github.io/vlsafe-website/

arxiv情報

著者 Yansong Qu,Zilin Huang,Zihao Sheng,Jiancong Chen,Sikai Chen,Samuel Labi
発行日 2025-05-22 08:29:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | VL-SAFE: Vision-Language Guided Safety-Aware Reinforcement Learning with World Models for Autonomous Driving はコメントを受け付けていません

Raw2Drive: Reinforcement Learning with Aligned World Models for End-to-End Autonomous Driving (in CARLA v2)

要約

補強学習(RL)は、模倣学習(IL)に固有の因果的混乱と分布シフトを軽減できます。
ただし、RLをエンドツーエンドの自律運転(E2E-AD)に適用することは、トレーニングの難しさのためのオープンな問題であり、ILは依然として学界と産業の両方で主流のパラダイムです。
最近、モデルベースの強化学習(MBRL)は、神経計画における有望な結果を実証しています。
ただし、これらの方法は通常、生のセンサーデータではなく入力として特権情報を必要とします。
デュアルストリームMBRLアプローチであるRaw2Driveを設計することにより、このギャップを埋めます。
当初、私たちは特権情報を入力として使用するニューラルプランナーと組み合わせた補助的な特権世界モデルを効率的にトレーニングします。
その後、提案されたガイダンスメカニズムを介して訓練された生センサーの世界モデルを導入します。これにより、ロールアウト中に生センサーの世界モデルと特権世界モデルの一貫性が保証されます。
最後に、RAWセンサーの世界モデルは、特権世界モデルのヘッドに埋め込まれた事前知識を組み合わせて、生センサーポリシーのトレーニングを効果的に導きます。
Raw2Driveは、これまでのところ、Carla Leaderboard 2.0およびBench2Driveで唯一のRLベースのエンドツーエンドメソッドであり、最先端のパフォーマンスを実現しています。

要約(オリジナル)

Reinforcement Learning (RL) can mitigate the causal confusion and distribution shift inherent to imitation learning (IL). However, applying RL to end-to-end autonomous driving (E2E-AD) remains an open problem for its training difficulty, and IL is still the mainstream paradigm in both academia and industry. Recently Model-based Reinforcement Learning (MBRL) have demonstrated promising results in neural planning; however, these methods typically require privileged information as input rather than raw sensor data. We fill this gap by designing Raw2Drive, a dual-stream MBRL approach. Initially, we efficiently train an auxiliary privileged world model paired with a neural planner that uses privileged information as input. Subsequently, we introduce a raw sensor world model trained via our proposed Guidance Mechanism, which ensures consistency between the raw sensor world model and the privileged world model during rollouts. Finally, the raw sensor world model combines the prior knowledge embedded in the heads of the privileged world model to effectively guide the training of the raw sensor policy. Raw2Drive is so far the only RL based end-to-end method on CARLA Leaderboard 2.0, and Bench2Drive and it achieves state-of-the-art performance.

arxiv情報

著者 Zhenjie Yang,Xiaosong Jia,Qifeng Li,Xue Yang,Maoqing Yao,Junchi Yan
発行日 2025-05-22 08:46:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Raw2Drive: Reinforcement Learning with Aligned World Models for End-to-End Autonomous Driving (in CARLA v2) はコメントを受け付けていません

SpineWave: Harnessing Fish Rigid-Flexible Spinal Kinematics for Enhancing Biomimetic Robotic Locomotion

要約

魚は何百万年もの進化に耐えており、その明確な硬直した柔軟性のない身体構造は、限られたモビリティ、高エネルギー消費、適応性など、水中ロボット工学の課題を克服するためのインスピレーションを提供します。
このペーパーでは、魚の脊椎のような剛性柔軟性のない遷移構造を特徴とする生体模倣ロボット魚であるSpinewaveを紹介します。
この構造は、拡張可能な魚骨のようなrib骨と調整可能な磁石を統合し、魚の筋肉のストレッチと反動を模倣して、剛性と柔軟性のバランスをとります。
さらに、ロボットの流体力学を最適化するために進化的アルゴリズムを採用し、水泳パフォーマンスの大幅な改善を達成しました。
実際のテストでは、環境監視、水中探査、および産業検査の堅牢性と可能性が示されました。
これらのテストは、水生ロボット工学の変換プラットフォームとしてSpinewaveを確立しました。

要約(オリジナル)

Fish have endured millions of years of evolution, and their distinct rigid-flexible body structures offer inspiration for overcoming challenges in underwater robotics, such as limited mobility, high energy consumption, and adaptability. This paper introduces SpineWave, a biomimetic robotic fish featuring a fish-spine-like rigid-flexible transition structure. The structure integrates expandable fishbone-like ribs and adjustable magnets, mimicking the stretch and recoil of fish muscles to balance rigidity and flexibility. In addition, we employed an evolutionary algorithm to optimize the hydrodynamics of the robot, achieving significant improvements in swimming performance. Real-world tests demonstrated robustness and potential for environmental monitoring, underwater exploration, and industrial inspection. These tests established SpineWave as a transformative platform for aquatic robotics.

arxiv情報

著者 Qu He,Weikun Li,Guangmin Dai,Hao Chen,Qimeng Liu,Xiaoqing Tian,Jie You,Weicheng Cui,Michael S. Triantafyllou,Dixia Fan
発行日 2025-05-22 09:36:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | SpineWave: Harnessing Fish Rigid-Flexible Spinal Kinematics for Enhancing Biomimetic Robotic Locomotion はコメントを受け付けていません