3D-AffordanceLLM: Harnessing Large Language Models for Open-Vocabulary Affordance Detection in 3D Worlds

要約

3Dアフォーダンス検出は、さまざまなロボットタスクに関する幅広いアプリケーションの困難な問題です。
既存の方法は、通常、ラベルベースのセマンティックセグメンテーションタスクとして検出パラダイムを定式化します。
このパラダイムは、事前に定義されたラベルに依存しており、複雑な自然言語を理解する能力が欠けており、その結果、オープンワールドシーンの一般化は限られています。
これらの制限に対処するために、従来のアフォーダンス検出パラダイムを\ textIT {命令の推論アフォーダンスセグメンテーション}(IRAS)タスクに再定式化します。
このタスクは、入力ラベルの固定カテゴリを回避するクエリ推論テキストを考慮して、アフォーダンスマスク領域を出力するように設計されています。
それに応じて、3Dオープンシーンでアフォーダンス検出を推論するために設計されたフレームワークである\ textit {3d-abbordancellm}(3d-adllm)を提案します。
具体的には、3D-ADLLMは、アフォーダンスマスクを生成するためのカスタム設計のデコーダーを使用して、大規模な言語モデル(LLMS)を3Dアフォーダンス認識に導入し、オープンワールドの推論アフォーダンス検出を達成します。
さらに、大規模なモデルをトレーニングするための3Dアフォーダンスデータセットの希少性を考えると、一般的なセグメンテーションデータから知識を抽出し、アフォーダンス検出に転送しようとします。
したがって、新しいトレーニング前タスク、つまり\ textIT {refering object Part Segmentation}〜(ROPS)から始まるマルチステージトレーニング戦略を提案します。
この段階は、オブジェクトパートレベルで一般的な認識とセグメンテーション機能をモデルに装備するように設計されています。
その後、IRASタスクで微調整された後、3D-Adllmはアフォーダンス検出の推論能力を獲得します。
要約すると、3D-ADLLMは、LLMSの豊かな世界の知識と人間とオブジェクトの相互作用推論能力を活用しており、オープンホキャブラリーアフォーダンス検出タスクでMIOUで約8 \%の改善を達成しています。

要約(オリジナル)

3D Affordance detection is a challenging problem with broad applications on various robotic tasks. Existing methods typically formulate the detection paradigm as a label-based semantic segmentation task. This paradigm relies on predefined labels and lacks the ability to comprehend complex natural language, resulting in limited generalization in open-world scene. To address these limitations, we reformulate the traditional affordance detection paradigm into \textit{Instruction Reasoning Affordance Segmentation} (IRAS) task. This task is designed to output a affordance mask region given a query reasoning text, which avoids fixed categories of input labels. We accordingly propose the \textit{3D-AffordanceLLM} (3D-ADLLM), a framework designed for reasoning affordance detection in 3D open-scene. Specifically, 3D-ADLLM introduces large language models (LLMs) to 3D affordance perception with a custom-designed decoder for generating affordance masks, thus achieving open-world reasoning affordance detection. In addition, given the scarcity of 3D affordance datasets for training large models, we seek to extract knowledge from general segmentation data and transfer it to affordance detection. Thus, we propose a multi-stage training strategy that begins with a novel pre-training task, i.e., \textit{Referring Object Part Segmentation}~(ROPS). This stage is designed to equip the model with general recognition and segmentation capabilities at the object-part level. Then followed by fine-tuning with the IRAS task, 3D-ADLLM obtains the reasoning ability for affordance detection. In summary, 3D-ADLLM leverages the rich world knowledge and human-object interaction reasoning ability of LLMs, achieving approximately an 8\% improvement in mIoU on open-vocabulary affordance detection tasks.

arxiv情報

著者 Hengshuo Chu,Xiang Deng,Xiaoyang Chen,Yinchuan Li,Jianye Hao,Liqiang Nie
発行日 2025-02-27 12:29:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | 3D-AffordanceLLM: Harnessing Large Language Models for Open-Vocabulary Affordance Detection in 3D Worlds はコメントを受け付けていません

Night-Voyager: Consistent and Efficient Nocturnal Vision-Aided State Estimation in Object Maps

要約

夜間の正確で堅牢な状態推定は、自律的なロボットナビゲーションが夜行性または丸いタスクを達成するために不可欠です。
直感的な疑問が生じます:低コストの標準カメラは、夜行性の状態の推定のために活用できますか?
残念ながら、ほとんどの既存の視覚的手法は、積極的な照明や画像の強化があっても、有害な照明条件下で失敗する可能性があります。
しかし、極めて重要な洞察は、ほとんどの都市のシナリオでの街灯は、夜間に安定した顕著な事前の視覚的な手がかりとして機能し、星間ナビゲーションの宇宙船の航海を支援する深海の星を連想させることです。
これに触発されて、私たちは、多用途のローカリゼーションのために以前のオブジェクトマップとキーポイントを活用するオブジェクトレベルの夜行性視力支援状態推定フレームワークであるNight-Voyagerを提案します。
また、照明条件の低下下での従来の視覚法の主な制限は、ピクセルレベルのメトリックへの依存に起因することがわかります。
対照的に、メトリック非ピクセルレベルのオブジェクト検出は、ピクセルレベルとオブジェクトレベルのスペースの間のブリッジとして機能し、システム内のオブジェクトマップ情報の効果的な伝播と利用を可能にします。
Night-Voyagerは、グローバルなローカリゼーションの問題を解決するための迅速な初期化から始まります。
効果的な2段階のクロスモーダルデータアソシエーションを採用することにより、このシステムは、マップベースの観測を使用してグローバルに一貫した状態更新を提供します。
夜間の視覚観測における重要な不確実性の課題に対処するために、新しいマトリックスLieグループの定式化と特徴が分類されたマルチステート不変フィルターが導入され、一貫した効率的な推定が確保されます。
シミュレーションと多様な現実世界のシナリオ(約12.3 kmにまたがる)の両方で包括的な実験を通じて、夜のヴォーヤガーはその有効性、堅牢性、効率性を紹介し、夜行性視力支援状態の推定で重要なギャップを埋めます。

要約(オリジナル)

Accurate and robust state estimation at nighttime is essential for autonomous robotic navigation to achieve nocturnal or round-the-clock tasks. An intuitive question arises: Can low-cost standard cameras be exploited for nocturnal state estimation? Regrettably, most existing visual methods may fail under adverse illumination conditions, even with active lighting or image enhancement. A pivotal insight, however, is that streetlights in most urban scenarios act as stable and salient prior visual cues at night, reminiscent of stars in deep space aiding spacecraft voyage in interstellar navigation. Inspired by this, we propose Night-Voyager, an object-level nocturnal vision-aided state estimation framework that leverages prior object maps and keypoints for versatile localization. We also find that the primary limitation of conventional visual methods under poor lighting conditions stems from the reliance on pixel-level metrics. In contrast, metric-agnostic, non-pixel-level object detection serves as a bridge between pixel-level and object-level spaces, enabling effective propagation and utilization of object map information within the system. Night-Voyager begins with a fast initialization to solve the global localization problem. By employing an effective two-stage cross-modal data association, the system delivers globally consistent state updates using map-based observations. To address the challenge of significant uncertainties in visual observations at night, a novel matrix Lie group formulation and a feature-decoupled multi-state invariant filter are introduced, ensuring consistent and efficient estimation. Through comprehensive experiments in both simulation and diverse real-world scenarios (spanning approximately 12.3 km), Night-Voyager showcases its efficacy, robustness, and efficiency, filling a critical gap in nocturnal vision-aided state estimation.

arxiv情報

著者 Tianxiao Gao,Mingle Zhao,Chengzhong Xu,Hui Kong
発行日 2025-02-27 12:53:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Night-Voyager: Consistent and Efficient Nocturnal Vision-Aided State Estimation in Object Maps はコメントを受け付けていません

Student-Informed Teacher Training

要約

特権教師による模倣学習は、画像などの高次元入力から複雑な制御行動を学習するのに効果的であることが証明されています。
このフレームワークでは、教師は特権タスク情報で訓練されていますが、学生はより限られた観察を持つ教師の行動を予測しようとします。たとえば、ロボットナビゲーションタスクでは、教師は近くの障害物への距離にアクセスできますが、生徒はシーンの視覚的な観察のみを受けます。
ただし、特権的な模倣学習は重要な課題に直面しています。生徒は、部分的な観察性のために教師の行動を模倣できない場合があります。
この問題は、生徒が学習行動を模倣できるかどうかを考慮せずに教師が訓練されているためです。
この教師と学生の非対称性に対処するために、教師と生徒のポリシーの共同トレーニングのフレームワークを提案し、後者の情報へのアクセスとその部分的な観察性にもかかわらず、生徒が模倣できる行動を教師に学ぶよう奨励します。
模倣学習に縛られたパフォーマンスに基づいて、(i)教師の報酬機能に対するペナルティ用語として教師と生徒の間の近似アクション違い、および(ii)監督された教師と学生の調整ステップを追加します。
私たちは、迷路のナビゲーションタスクで方法を動機付け、複雑な視覚ベースの象限の飛行と操作タスクに対するその有効性を実証します。

要約(オリジナル)

Imitation learning with a privileged teacher has proven effective for learning complex control behaviors from high-dimensional inputs, such as images. In this framework, a teacher is trained with privileged task information, while a student tries to predict the actions of the teacher with more limited observations, e.g., in a robot navigation task, the teacher might have access to distances to nearby obstacles, while the student only receives visual observations of the scene. However, privileged imitation learning faces a key challenge: the student might be unable to imitate the teacher’s behavior due to partial observability. This problem arises because the teacher is trained without considering if the student is capable of imitating the learned behavior. To address this teacher-student asymmetry, we propose a framework for joint training of the teacher and student policies, encouraging the teacher to learn behaviors that can be imitated by the student despite the latters’ limited access to information and its partial observability. Based on the performance bound in imitation learning, we add (i) the approximated action difference between teacher and student as a penalty term to the reward function of the teacher, and (ii) a supervised teacher-student alignment step. We motivate our method with a maze navigation task and demonstrate its effectiveness on complex vision-based quadrotor flight and manipulation tasks.

arxiv情報

著者 Nico Messikommer,Jiaxu Xing,Elie Aljalbout,Davide Scaramuzza
発行日 2025-02-27 12:54:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Student-Informed Teacher Training はコメントを受け付けていません

HiFAR: Multi-Stage Curriculum Learning for High-Dynamics Humanoid Fall Recovery

要約

ヒューマノイドロボットは、特に動的および非構造化されていない環境内で、滝から自律的に回復するのにかなりの困難に遭遇します。
従来の制御方法論は、高次元のダイナミクスに関連する複雑さと、秋の回復の接触が豊富な性質に対処するには不十分なことがよくあります。
一方、強化学習手法は、まばらな報酬、複雑な衝突シナリオ、およびシミュレーションと現実世界のアプリケーションの間の矛盾に関連する問題によって妨げられています。
この研究では、Hifarと呼ばれるマルチステージカリキュラム学習フレームワークを紹介します。
このフレームワークは、ますます複雑で高次元の回復タスクを徐々に組み込んだ段階的な学習アプローチを採用しており、それにより、ロボットが効率的で安定した転倒回復戦略の獲得を促進します。
さらに、ロボットは、現実世界の秋のインシデントを効果的に管理するためにポリシーを適応させることができます。
実際のヒューマノイドロボットを使用して提案された方法の有効性を評価し、高い成功率、迅速な回復時間、堅牢性、一般化を伴う多様な転倒から自律的に回復する能力を示します。

要約(オリジナル)

Humanoid robots encounter considerable difficulties in autonomously recovering from falls, especially within dynamic and unstructured environments. Conventional control methodologies are often inadequate in addressing the complexities associated with high-dimensional dynamics and the contact-rich nature of fall recovery. Meanwhile, reinforcement learning techniques are hindered by issues related to sparse rewards, intricate collision scenarios, and discrepancies between simulation and real-world applications. In this study, we introduce a multi-stage curriculum learning framework, termed HiFAR. This framework employs a staged learning approach that progressively incorporates increasingly complex and high-dimensional recovery tasks, thereby facilitating the robot’s acquisition of efficient and stable fall recovery strategies. Furthermore, it enables the robot to adapt its policy to effectively manage real-world fall incidents. We assess the efficacy of the proposed method using a real humanoid robot, showcasing its capability to autonomously recover from a diverse range of falls with high success rates, rapid recovery times, robustness, and generalization.

arxiv情報

著者 Penghui Chen,Yushi Wang,Changsheng Luo,Wenhan Cai,Mingguo Zhao
発行日 2025-02-27 13:03:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | HiFAR: Multi-Stage Curriculum Learning for High-Dynamics Humanoid Fall Recovery はコメントを受け付けていません

BEV-DWPVO: BEV-based Differentiable Weighted Procrustes for Low Scale-drift Monocular Visual Odometry on Ground

要約

単眼の視覚臭気(MVO)は、自動運転車の費用対効果の高いリアルタイムポジショニングソリューションを提供します。
ただし、MVOシステムは、単眼カメラから固有のスケール情報が不足しているという一般的な問題に直面しています。
従来の方法は優れた解釈可能性を持っていますが、相対的なスケールを取得することしかできず、長距離タスクの深刻なスケールドリフトに苦しむことができます。
パースペクティブビューの下での学習ベースの方法は、大量のトレーニングデータを活用して、事前知識を取得し、深さ値を予測することにより絶対スケールを推定します。
ただし、各ポイントの深さを正確に推定する必要があるため、一般化能力は制限されています。
対照的に、Bev-DWPVOと呼ばれる新しいMVOシステムを提案します。
私たちのアプローチは、バードアイビュー(BEV)機能マップを使用して、グリッドベースの構造の環境を統一されたスケールの構造の環境を表す、グラウンドプレーンの一般的な仮定を活用しています。
これにより、ポーズ推定の複雑さを6度の自由度(DOF)から3-DOFに減らすことができます。
キーポイントは抽出され、BEV空間内で一致し、その後、微細な加重Procrustesソルバーを介したポーズ推定が行われます。
システム全体は完全に微分可能であり、監督のみが補助タスクなしでエンドツーエンドのトレーニングをサポートしています。
挑戦的な長シーケンスデータセットNCLT、オックスフォード、キッティでBEV-DWPVOを検証し、ほとんどの評価メトリックで既存のMVOメソッドよりも優れた結果を達成します。

要約(オリジナル)

Monocular Visual Odometry (MVO) provides a cost-effective, real-time positioning solution for autonomous vehicles. However, MVO systems face the common issue of lacking inherent scale information from monocular cameras. Traditional methods have good interpretability but can only obtain relative scale and suffer from severe scale drift in long-distance tasks. Learning-based methods under perspective view leverage large amounts of training data to acquire prior knowledge and estimate absolute scale by predicting depth values. However, their generalization ability is limited due to the need to accurately estimate the depth of each point. In contrast, we propose a novel MVO system called BEV-DWPVO. Our approach leverages the common assumption of a ground plane, using Bird’s-Eye View (BEV) feature maps to represent the environment in a grid-based structure with a unified scale. This enables us to reduce the complexity of pose estimation from 6 Degrees of Freedom (DoF) to 3-DoF. Keypoints are extracted and matched within the BEV space, followed by pose estimation through a differentiable weighted Procrustes solver. The entire system is fully differentiable, supporting end-to-end training with only pose supervision and no auxiliary tasks. We validate BEV-DWPVO on the challenging long-sequence datasets NCLT, Oxford, and KITTI, achieving superior results over existing MVO methods on most evaluation metrics.

arxiv情報

著者 Yufei Wei,Sha Lu,Wangtao Lu,Rong Xiong,Yue Wang
発行日 2025-02-27 13:36:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | BEV-DWPVO: BEV-based Differentiable Weighted Procrustes for Low Scale-drift Monocular Visual Odometry on Ground はコメントを受け付けていません

Minds on the Move: Decoding Trajectory Prediction in Autonomous Driving with Cognitive Insights

要約

混合自律運転環境では、周囲の車両の将来の軌跡を正確に予測することは、自律車両(AVS)の安全な操作に不可欠です。
運転シナリオでは、車両の軌跡は、人間のドライバーの意思決定プロセスによって決定されます。
ただし、既存のモデルは主にデータの固有の統計パターンに焦点を当てており、多くの場合、人間のドライバーの意思決定プロセスを理解する重要な側面を無視します。
この監視の結果、人間のドライバーの真の意図を把握できないモデルが生じ、長期的な軌跡予測で最適ではないパフォーマンスにつながります。
この制限に対処するために、ドライバーの意思決定メカニズムを解釈するために、認知概念、知覚された安全性を組み込んだ認知情報に基づいたトランス(CITF)を導入します。
知覚された安全性は、異なる運転行動を持つドライバー全体のさまざまなリスク許容度をカプセル化します。
具体的には、シナリオ内で被験者のリスクレベルを測定するための定量的な安全性評価と、ドライバーの行動を特徴付けるドライバーの動作プロファイリングを含む、知覚される安全性認識モジュールを開発します。
さらに、車両間の社会的相互作用をキャプチャするように設計された新しいモジュールであるLeanformerを提示します。
CITFは、3つの確立されたデータセットで大幅なパフォーマンスの改善を示しています。
長期予測の観点から、NGSIMで既存のベンチマークを12.0%、HighDで28.2%、MoCADデータセットで20.8%を上回ります。
さらに、データが限られているか欠落しているシナリオでの堅牢性は明らかであり、最も最先端の(SOTA)ベースラインを上回り、実際のアプリケーションの道を開いています。

要約(オリジナル)

In mixed autonomous driving environments, accurately predicting the future trajectories of surrounding vehicles is crucial for the safe operation of autonomous vehicles (AVs). In driving scenarios, a vehicle’s trajectory is determined by the decision-making process of human drivers. However, existing models primarily focus on the inherent statistical patterns in the data, often neglecting the critical aspect of understanding the decision-making processes of human drivers. This oversight results in models that fail to capture the true intentions of human drivers, leading to suboptimal performance in long-term trajectory prediction. To address this limitation, we introduce a Cognitive-Informed Transformer (CITF) that incorporates a cognitive concept, Perceived Safety, to interpret drivers’ decision-making mechanisms. Perceived Safety encapsulates the varying risk tolerances across drivers with different driving behaviors. Specifically, we develop a Perceived Safety-aware Module that includes a Quantitative Safety Assessment for measuring the subject risk levels within scenarios, and Driver Behavior Profiling for characterizing driver behaviors. Furthermore, we present a novel module, Leanformer, designed to capture social interactions among vehicles. CITF demonstrates significant performance improvements on three well-established datasets. In terms of long-term prediction, it surpasses existing benchmarks by 12.0% on the NGSIM, 28.2% on the HighD, and 20.8% on the MoCAD dataset. Additionally, its robustness in scenarios with limited or missing data is evident, surpassing most state-of-the-art (SOTA) baselines, and paving the way for real-world applications.

arxiv情報

著者 Haicheng Liao,Chengyue Wang,Kaiqun Zhu,Yilong Ren,Bolin Gao,Shengbo Eben Li,Chengzhong Xu,Zhenning Li
発行日 2025-02-27 13:43:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Minds on the Move: Decoding Trajectory Prediction in Autonomous Driving with Cognitive Insights はコメントを受け付けていません

RIZE: Regularized Imitation Learning via Distributional Reinforcement Learning

要約

固定報酬の割り当ての制限と暗黙の報酬の正則化における制約のある柔軟性を克服する新しい逆補強学習(IRL)アプローチを導入します。
トレーニング中に動的に調整された2乗時間差(TD)の正規者と適応ターゲットを使用して、最大エントロピーIRLフレームワークを拡張することにより、補強学習の原則を組み込んでいる間、この方法を間接的に最適化します。
さらに、分布RLを統合して、より豊富な返品情報をキャプチャします。
私たちのアプローチは、挑戦的なムホコのタスクに関する最先端のパフォーマンスを達成し、3つのデモンストレーションでヒューマノイドタスクの専門家レベルの結果を示しています。
広範な実験とアブレーション研究は、私たちの方法の有効性を検証し、適応ターゲットに関する洞察を提供し、模倣学習におけるダイナミクスに報酬を与えます。

要約(オリジナル)

We introduce a novel Inverse Reinforcement Learning (IRL) approach that overcomes limitations of fixed reward assignments and constrained flexibility in implicit reward regularization. By extending the Maximum Entropy IRL framework with a squared temporal-difference (TD) regularizer and adaptive targets, dynamically adjusted during training, our method indirectly optimizes a reward function while incorporating reinforcement learning principles. Furthermore, we integrate distributional RL to capture richer return information. Our approach achieves state-of-the-art performance on challenging MuJoCo tasks, demonstrating expert-level results on the Humanoid task with only 3 demonstrations. Extensive experiments and ablation studies validate the effectiveness of our method, providing insights into adaptive targets and reward dynamics in imitation learning.

arxiv情報

著者 Adib Karimi,Mohammad Mehdi Ebadzadeh
発行日 2025-02-27 13:47:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | RIZE: Regularized Imitation Learning via Distributional Reinforcement Learning はコメントを受け付けていません

Pushing Through Clutter With Movability Awareness of Blocking Obstacles

要約

可動障害物(NAMO)間のナビゲーションは、障害物がパスをブロックしたときに従来のパス計画方法に課題をもたらし、目標に到達するためにプッシュアクションを必要とします。
明示的な障害物の配置に依存することなく、この課題を克服できるようにする可能性のあるモービリティ対応計画を可能にするフレームワークを提案します。
当社のフレームワークは、グローバルなセマンティック可視性グラフとローカルモデルの予測パス積分(SVG-MPPI)アプローチを統合して、障害物の移動性の連続範囲を考慮して、ロールアウトを効率的にサンプリングします。
物理エンジンが採用され、環境とのロールアウトの相互作用結果をシミュレートし、接触力を最小限に抑える軌道を生成します。
定性的および定量的実験では、SVG-MPPIは、計画にバイナリ可動性のみを使用する既存のパラダイムよりも優れており、累積接触力を減らしてより高い成功率を達成します。
私たちのコードは、https://github.com/tud-amr/svg-mppiで入手できます

要約(オリジナル)

Navigation Among Movable Obstacles (NAMO) poses a challenge for traditional path-planning methods when obstacles block the path, requiring push actions to reach the goal. We propose a framework that enables movability-aware planning to overcome this challenge without relying on explicit obstacle placement. Our framework integrates a global Semantic Visibility Graph and a local Model Predictive Path Integral (SVG-MPPI) approach to efficiently sample rollouts, taking into account the continuous range of obstacle movability. A physics engine is adopted to simulate the interaction result of the rollouts with the environment, and generate trajectories that minimize contact force. In qualitative and quantitative experiments, SVG-MPPI outperforms the existing paradigm that uses only binary movability for planning, achieving higher success rates with reduced cumulative contact forces. Our code is available at: https://github.com/tud-amr/SVG-MPPI

arxiv情報

著者 Joris J. Weeda,Saray Bakker,Gang Chen,Javier Alonso-Mora
発行日 2025-02-27 14:00:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Pushing Through Clutter With Movability Awareness of Blocking Obstacles はコメントを受け付けていません

VDT-Auto: End-to-end Autonomous Driving with VLM-Guided Diffusion Transformers

要約

自律運転では、動的な環境とコーナーケースは、エゴ車両の意思決定の堅牢性に大きな課題をもたらします。
これらの課題に対処するために、エンドツーエンドの自律運転パラダイムでの状態アクションマッピングの表現から始まり、新しいパイプラインであるVDT-Autoを紹介します。
拡散トランスベースのアクション生成を組み込んだ視覚言語モデル(VLM)の状態理解の進歩を活用して、VDT-Autoは、拡散プロセスの条件付けのために幾何学的およびコンテキスト的に環境を解析します。
幾何学的には、鳥瞰図(BEV)エンコーダーを使用して、周囲の画像から特徴グリッドを抽出します。
コンテキストでは、微調整されたVLMの構造化された出力は、テキストの埋め込みと騒々しいパスに処理されます。
拡散プロセス中に、フォワードプロセスの追加ノイズは、微調整されたVLMの騒々しいパス出力からサンプリングされますが、抽出されたBEV機能グリッドと埋め込みテキストは、拡散トランスの逆プロセスを条件付けます。
私たちのVDT-Autoは、ヌスケンのオープンループ計画評価で平均L2エラーで0.52m、平均衝突率で21%を達成しました。
さらに、実際のデモンストレーションは、VDT-Autoの顕著な一般化可能性を示しました。
コードとデータセットは、受け入れた後にリリースされます。

要約(オリジナル)

In autonomous driving, dynamic environment and corner cases pose significant challenges to the robustness of ego vehicle’s decision-making. To address these challenges, commencing with the representation of state-action mapping in the end-to-end autonomous driving paradigm, we introduce a novel pipeline, VDT-Auto. Leveraging the advancement of the state understanding of Visual Language Model (VLM), incorporating with diffusion Transformer-based action generation, our VDT-Auto parses the environment geometrically and contextually for the conditioning of the diffusion process. Geometrically, we use a bird’s-eye view (BEV) encoder to extract feature grids from the surrounding images. Contextually, the structured output of our fine-tuned VLM is processed into textual embeddings and noisy paths. During our diffusion process, the added noise for the forward process is sampled from the noisy path output of the fine-tuned VLM, while the extracted BEV feature grids and embedded texts condition the reverse process of our diffusion Transformers. Our VDT-Auto achieved 0.52m on average L2 errors and 21% on average collision rate in the nuScenes open-loop planning evaluation. Moreover, the real-world demonstration exhibited prominent generalizability of our VDT-Auto. The code and dataset will be released after acceptance.

arxiv情報

著者 Ziang Guo,Konstantin Gubernatorov,Selamawit Asfaw,Zakhar Yagudin,Dzmitry Tsetserukou
発行日 2025-02-27 14:02:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | VDT-Auto: End-to-end Autonomous Driving with VLM-Guided Diffusion Transformers はコメントを受け付けていません

Discovering Antagonists in Networks of Systems: Robot Deployment

要約

文脈上の異常検出方法が提案され、カバレッジタスクを実行するロボット群れの物理的動きに適用されます。
群れの通常の動作のシミュレーションを使用して、環境の現在のコンテキスト内でロボットの動きの可能性を予測するように正規化されたフローが訓練されています。
適用中、観測された動きの予測可能性は、ロボットエージェントを通常または拮抗的であると分類する検出基準によって使用されます。
提案された方法は、拮抗行動の5つの異なる戦略で評価されます。
重要なことに、通常のロボット動作の容易に入手可能なシミュレーションデータのみがトレーニングに使用され、異常の性質を事前に知らないことです。
最良の検出基準は、通常のロボットエージェントでは5%未満の誤検知速度を維持しながら、各拮抗型の少なくとも80%を正しく分類します。
さらに、この方法はハードウェア実験で検証されており、シミュレートされたシナリオと同様の結果が得られます。
最先端のアプローチと比較して、正規化フローの予測パフォーマンスと検出基準の堅牢性の両方が増加します。

要約(オリジナル)

A contextual anomaly detection method is proposed and applied to the physical motions of a robot swarm executing a coverage task. Using simulations of a swarm’s normal behavior, a normalizing flow is trained to predict the likelihood of a robot motion within the current context of its environment. During application, the predicted likelihood of the observed motions is used by a detection criterion that categorizes a robot agent as normal or antagonistic. The proposed method is evaluated on five different strategies of antagonistic behavior. Importantly, only readily available simulated data of normal robot behavior is used for training such that the nature of the anomalies need not be known beforehand. The best detection criterion correctly categorizes at least 80% of each antagonistic type while maintaining a false positive rate of less than 5% for normal robot agents. Additionally, the method is validated in hardware experiments, yielding results similar to the simulated scenarios. Compared to the state-of-the-art approach, both the predictive performance of the normalizing flow and the robustness of the detection criterion are increased.

arxiv情報

著者 Ingeborg Wenger,Peter Eberhard,Henrik Ebel
発行日 2025-02-27 14:16:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA, cs.RO, G.3 | Discovering Antagonists in Networks of Systems: Robot Deployment はコメントを受け付けていません