Lightweight Multimodal Artificial Intelligence Framework for Maritime Multi-Scene Recognition

要約

海上マルチシーン認識は、特に海洋保護、環境監視、災害対応などの用途で、インテリジェントな海洋ロボット工学の能力を高めるために重要です。
ただし、このタスクは、海洋条件が画質を分解する環境干渉と、正確な認識のためのより深い推論が必要な海上シーンの複雑さのために大きな課題を提示します。
純粋なビジョンモデルだけでは、これらの問題に対処するには不十分です。
これらの制限を克服するために、画像データ、テキストの説明、およびマルチモーダル大手言語モデル(MLLM)によって生成された分類ベクターを統合する新しいマルチモーダル人工知能(AI)フレームワークを提案し、より豊かなセマンティック理解を提供し、認識の精度を改善します。
私たちのフレームワークは、複雑な海上環境でのモデルの堅牢性と適応性をさらに高めるために、効率的なマルチモーダル融合メカニズムを採用しています。
実験結果は、私たちのモデルが98 $ \%$の精度を達成し、以前のSOTAモデルを3.5 $ \%$を超えることを示しています。
リソース制約のあるプラットフォームでの展開を最適化するために、アクティベーションアウェア重量量子化(AWQ)を軽量技術として採用し、計算オーバーヘッドを大幅に低下させながら、0.5 $ \%$ $の精度低下でモデルサイズを68.75MBに削減します。
この作業は、リアルタイムの海上シーン認識のための高性能ソリューションを提供し、リソースに制限された設定での環境監視と災害対応をサポートする自律的な地表車(ASV)を可能にします。

要約(オリジナル)

Maritime Multi-Scene Recognition is crucial for enhancing the capabilities of intelligent marine robotics, particularly in applications such as marine conservation, environmental monitoring, and disaster response. However, this task presents significant challenges due to environmental interference, where marine conditions degrade image quality, and the complexity of maritime scenes, which requires deeper reasoning for accurate recognition. Pure vision models alone are insufficient to address these issues. To overcome these limitations, we propose a novel multimodal Artificial Intelligence (AI) framework that integrates image data, textual descriptions and classification vectors generated by a Multimodal Large Language Model (MLLM), to provide richer semantic understanding and improve recognition accuracy. Our framework employs an efficient multimodal fusion mechanism to further enhance model robustness and adaptability in complex maritime environments. Experimental results show that our model achieves 98$\%$ accuracy, surpassing previous SOTA models by 3.5$\%$. To optimize deployment on resource-constrained platforms, we adopt activation-aware weight quantization (AWQ) as a lightweight technique, reducing the model size to 68.75MB with only a 0.5$\%$ accuracy drop while significantly lowering computational overhead. This work provides a high-performance solution for real-time maritime scene recognition, enabling Autonomous Surface Vehicles (ASVs) to support environmental monitoring and disaster response in resource-limited settings.

arxiv情報

著者 Xinyu Xi,Hua Yang,Shentai Zhang,Yijie Liu,Sijin Sun,Xiuju Fu
発行日 2025-03-10 06:47:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Lightweight Multimodal Artificial Intelligence Framework for Maritime Multi-Scene Recognition はコメントを受け付けていません

Griffin: Aerial-Ground Cooperative Detection and Tracking Dataset and Benchmark

要約

大幅な進歩にもかかわらず、自律駆動システムは、単一視点センシングの固有の制限により、閉塞されたオブジェクトと長距離検出に苦労し続けています。
空中協力は、UAVの航空ビューを地上車両のローカル観測と統合することにより、有望なソリューションを提供します。
ただし、この新興分野の進捗は、パブリックデータセットと標準化された評価ベンチマークがないことにより妨げられています。
To address this gap, this paper presents a comprehensive solution for aerial-ground cooperative 3D perception through three key contributions: (1) Griffin, a large-scale multi-modal dataset featuring over 200 dynamic scenes (30k+ frames) with varied UAV altitudes (20-60m), diverse weather conditions, and occlusion-aware 3D annotations, enhanced by CARLA-AirSim co-simulation
現実的なUAVダイナミクスのため。
(2)通信効率、潜在耐性、高度適応性を評価するためのプロトコルを含む、航空地面の協調的検出および追跡タスクのための統一されたベンチマークフレームワーク。
(3)アジャイルは、クエリベースの相互作用を通じてクロスビューの特徴を動的に整列させ、通信オーバーヘッドと知覚精度の有利なバランスを達成するインスタンスレベルの中間融合ベースラインです。
広範な実験は、航空機の協同組合の認識の有効性を証明し、さらなる研究の方向を実証します。
データセットとコードは、https://github.com/wang-jh18-svm/griffinで入手できます。

要約(オリジナル)

Despite significant advancements, autonomous driving systems continue to struggle with occluded objects and long-range detection due to the inherent limitations of single-perspective sensing. Aerial-ground cooperation offers a promising solution by integrating UAVs’ aerial views with ground vehicles’ local observations. However, progress in this emerging field has been hindered by the absence of public datasets and standardized evaluation benchmarks. To address this gap, this paper presents a comprehensive solution for aerial-ground cooperative 3D perception through three key contributions: (1) Griffin, a large-scale multi-modal dataset featuring over 200 dynamic scenes (30k+ frames) with varied UAV altitudes (20-60m), diverse weather conditions, and occlusion-aware 3D annotations, enhanced by CARLA-AirSim co-simulation for realistic UAV dynamics; (2) A unified benchmarking framework for aerial-ground cooperative detection and tracking tasks, including protocols for evaluating communication efficiency, latency tolerance, and altitude adaptability; (3) AGILE, an instance-level intermediate fusion baseline that dynamically aligns cross-view features through query-based interaction, achieving an advantageous balance between communication overhead and perception accuracy. Extensive experiments prove the effectiveness of aerial-ground cooperative perception and demonstrate the direction of further research. The dataset and codes are available at https://github.com/wang-jh18-SVM/Griffin.

arxiv情報

著者 Jiahao Wang,Xiangyu Cao,Jiaru Zhong,Yuner Zhang,Haibao Yu,Lei He,Shaobing Xu
発行日 2025-03-10 07:00:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Griffin: Aerial-Ground Cooperative Detection and Tracking Dataset and Benchmark はコメントを受け付けていません

Parametric Value Approximation for General-sum Differential Games with State Constraints

要約

一般的な微分ゲームは、情報が不完全な場合に効率的な推論のためのハミルトン・ジャコビ・イサクス(HJI)方程式によって解決される値を近似できます。
ただし、従来の方法でそのようなゲームを解決することは、次元(COD)の呪いに遭遇します。
物理学に基づいたニューラルネットワーク(PINN)は、CODと近似値を軽減するためのスケーラブルなアプローチを提供しますが、状態の制約が特に安全性が批判的なアプリケーションで大きなリプシッツ定数を持つ値につながる場合、バニラPINNを介した値近似に収束の問題が存在します。
CODのアドレス指定に加えて、特定のプレーヤータイプの構成ごとに複数のゲームをトレーニングするのではなく、ゲームのパラメトリックスペースで一般化可能な値を学習する必要があります。
これらの課題を克服するために、ハイブリッドニューラルオペレーター(HNO)を提案します。これは、ゲームのパラメーター関数をマッピングして関数を評価できるオペレーターです。
HNOは、モデル改良のための空間的空間空間全体にわたって有益な監視されたデータとサンプルPDE駆動型データを活用します。
非線形ダイナミクスと状態制約を備えた9Dおよび13DシナリオでHNOを評価し、それを監視されたニューラル演算子(Deeponetのバリアント)と比較します。
同じ計算予算とトレーニングデータの下で、HNOは安全性能のためにSNOを上回ります。
この作業は、複雑なヒトロボットまたはマルチエージェント相互作用のリアルタイム推論を可能にするスケーラブルで一般化可能な値関数近似に向けたステップを提供します。

要約(オリジナル)

General-sum differential games can approximate values solved by Hamilton-Jacobi-Isaacs (HJI) equations for efficient inference when information is incomplete. However, solving such games through conventional methods encounters the curse of dimensionality (CoD). Physics-informed neural networks (PINNs) offer a scalable approach to alleviate the CoD and approximate values, but there exist convergence issues for value approximations through vanilla PINNs when state constraints lead to values with large Lipschitz constants, particularly in safety-critical applications. In addition to addressing CoD, it is necessary to learn a generalizable value across a parametric space of games, rather than training multiple ones for each specific player-type configuration. To overcome these challenges, we propose a Hybrid Neural Operator (HNO), which is an operator that can map parameter functions for games to value functions. HNO leverages informative supervised data and samples PDE-driven data across entire spatial-temporal space for model refinement. We evaluate HNO on 9D and 13D scenarios with nonlinear dynamics and state constraints, comparing it against a Supervised Neural Operator (a variant of DeepONet). Under the same computational budget and training data, HNO outperforms SNO for safety performance. This work provides a step toward scalable and generalizable value function approximation, enabling real-time inference for complex human-robot or multi-agent interactions.

arxiv情報

著者 Lei Zhang,Mukesh Ghimire,Wenlong Zhang,Zhe Xu,Yi Ren
発行日 2025-03-10 07:19:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Parametric Value Approximation for General-sum Differential Games with State Constraints はコメントを受け付けていません

Physics-informed Neural Network Predictive Control for Quadruped Locomotion

要約

この研究では、オンラインペイロード識別ベースの物理学に基づいたニューラルネットワーク予測制御(OPI-PINNPC)と名付けられた、未知のペイロードを使用した正確な四足動力の課題に対処する統一された制御フレームワークを紹介します。
オンラインペイロード識別を物理学に基づいたニューラルネットワーク(PINN)と統合することにより、このアプローチは、識別された質量パラメーターをニューラルネットワークの損失関数に直接埋め込み、負荷条件の変化に適応しながら物理的な一貫性を確保します。
物理的に制約された神経表現は、非線形モデル予測コントローラー内の効率的な代理モデルとして機能し、足の移動の複雑なダイナミクスにもかかわらずリアルタイムの最適化を可能にします。
四足動物プラットフォームでの実験的検証は、多様なペイロード条件(25〜100 kg)にわたって位置と方向追跡の精度が35%改善され、以前の適応制御方法と比較して大幅に速い収束を示しています。
私たちのフレームワークは、計算効率を犠牲にすることなく、可変ペイロード条件下で移動性能を維持するための適応ソリューションを提供します。

要約(オリジナル)

This study introduces a unified control framework that addresses the challenge of precise quadruped locomotion with unknown payloads, named as online payload identification-based physics-informed neural network predictive control (OPI-PINNPC). By integrating online payload identification with physics-informed neural networks (PINNs), our approach embeds identified mass parameters directly into the neural network’s loss function, ensuring physical consistency while adapting to changing load conditions. The physics-constrained neural representation serves as an efficient surrogate model within our nonlinear model predictive controller, enabling real-time optimization despite the complex dynamics of legged locomotion. Experimental validation on our quadruped robot platform demonstrates 35% improvement in position and orientation tracking accuracy across diverse payload conditions (25-100 kg), with substantially faster convergence compared to previous adaptive control methods. Our framework provides a adaptive solution for maintaining locomotion performance under variable payload conditions without sacrificing computational efficiency.

arxiv情報

著者 Haolin Li,Yikang Chai,Bailin Lv,Lecheng Ruan,Hang Zhao,Ye Zhao,Jianwen Luo
発行日 2025-03-10 07:19:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Physics-informed Neural Network Predictive Control for Quadruped Locomotion はコメントを受け付けていません

Offline Adaptation of Quadruped Locomotion using Diffusion Models

要約

複数のスキルと(モード)との間の学習と補間の制限に同時に対処し、トレーニング後に新しい移動行動に適応する(モード)補間に対処する四角形の移動に対する拡散ベースのアプローチを提示します。
これは、四足動力に分類器を使用していない誘導拡散を適用し、元々の非標識データセットから目標条件付けされた動作を抽出することにより、その有効性を実証する最初のフレームワークです。
これらの機能は、マルチスキルポリシーと互換性があり、ほとんど変更と最小限のコンピューティングオーバーヘッドで適用できることを示しています。
Anymal四足動物プラットフォームでのハードウェア実験でアプローチの妥当性を検証します。

要約(オリジナル)

We present a diffusion-based approach to quadrupedal locomotion that simultaneously addresses the limitations of learning and interpolating between multiple skills and of (modes) offline adapting to new locomotion behaviours after training. This is the first framework to apply classifier-free guided diffusion to quadruped locomotion and demonstrate its efficacy by extracting goal-conditioned behaviour from an originally unlabelled dataset. We show that these capabilities are compatible with a multi-skill policy and can be applied with little modification and minimal compute overhead, i.e., running entirely on the robots onboard CPU. We verify the validity of our approach with hardware experiments on the ANYmal quadruped platform.

arxiv情報

著者 Reece O’Mahoney,Alexander L. Mitchell,Wanming Yu,Ingmar Posner,Ioannis Havoutis
発行日 2025-03-10 07:30:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Offline Adaptation of Quadruped Locomotion using Diffusion Models はコメントを受け付けていません

HELM: Human-Preferred Exploration with Language Models

要約

自律調査タスクでは、動的で不確実な条件で効率的に計画しながら、未知の環境を探索およびマッピングするためにロボットが必要です。
環境の大幅なばらつきを考えると、人間のオペレーターは、特定の領域の優先順位付けや効率のさまざまな側面の最適化など、探索の特定の優先要件をしばしば持っています。
ただし、既存の方法は、これらの人間の好みに適応的に対応するのに苦労しており、多くの場合、広範なパラメーターチューニングまたはネットワーク再訓練が必要です。
テキストベースの計画と複雑な推論に広く適用されている大規模な言語モデル(LLMS)の最近の進歩により、自律探査を強化する可能性はますます有望になっています。
これに動機付けられて、モバイルロボットシステムをLLMとシームレスに統合するLLMベースのヒトプロファーレーリングエクスプレーションフレームワークを提案します。
LLMSの推論と適応性を活用することにより、当社のアプローチにより、最先端の従来の方法に匹敵するタスクの成功率を維持しながら、自然言語を通じて直感的で柔軟な選好制御が可能になります。
実験結果は、私たちのフレームワークが、自律探査における人間の意図と政策選好のギャップを効果的に橋渡しし、実際のロボットアプリケーション向けのよりユーザーフレンドリーで適応性のあるソリューションを提供することを示しています。

要約(オリジナル)

In autonomous exploration tasks, robots are required to explore and map unknown environments while efficiently planning in dynamic and uncertain conditions. Given the significant variability of environments, human operators often have specific preference requirements for exploration, such as prioritizing certain areas or optimizing for different aspects of efficiency. However, existing methods struggle to accommodate these human preferences adaptively, often requiring extensive parameter tuning or network retraining. With the recent advancements in Large Language Models (LLMs), which have been widely applied to text-based planning and complex reasoning, their potential for enhancing autonomous exploration is becoming increasingly promising. Motivated by this, we propose an LLM-based human-preferred exploration framework that seamlessly integrates a mobile robot system with LLMs. By leveraging the reasoning and adaptability of LLMs, our approach enables intuitive and flexible preference control through natural language while maintaining a task success rate comparable to state-of-the-art traditional methods. Experimental results demonstrate that our framework effectively bridges the gap between human intent and policy preference in autonomous exploration, offering a more user-friendly and adaptable solution for real-world robotic applications.

arxiv情報

著者 Shuhao Liao,Xuxin Lv,Yuhong Cao,Jeric Lew,Wenjun Wu,Guillaume Sartoretti
発行日 2025-03-10 07:40:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | HELM: Human-Preferred Exploration with Language Models はコメントを受け付けていません

Learning Nash Equilibrial Hamiltonian for Two-Player Collision-Avoiding Interactions

要約

2プレイヤーのリスクに敏感な衝突を回避する相互作用のためのナッシュ平衡ポリシーを学ぶ問題を検討します。
このような一般的な微分ゲームのハミルトン・ジャコビ・イサクス方程式をリアルタイムで解決することは、状態空間の平衡値の不連続性のために、オープンな挑戦です。
一般的な解決策は、特定のシステム状態とアクションの平衡ハミルトニアンに近いニューラルネットワークを学習することです。
ただし、学習は通常監視されており、衝突のリスクを軽減するために、さまざまな初期状態からの大量のサンプル平衡ポリシーが必要です。
このホワイトペーパーでは、平衡ポリシーのよりデータ効率の高い学習に対する2つの貢献を主張しています。まず、バリューネットワークを介してハミルトニアンを計算する代わりに、平衡回避がエージェントの損失機能を支配する場合、衝突回避がエージェントの損失機能を支配している場合、したがって学習するためのデータ効率であることを示します。
第二に、理論主導のアクティブ学習を導入してデータサンプリングをガイドします。ここでは、取得関数が予測された共同ステートのポントリアギンの最大原則へのコンプライアンスを測定します。
制御されていない交差点の場合、提案された方法は、同じデータ収集予算の下での最先端よりも平衡ポリシーのより一般化可能な近似につながり、衝突確率が低くなります。

要約(オリジナル)

We consider the problem of learning Nash equilibrial policies for two-player risk-sensitive collision-avoiding interactions. Solving the Hamilton-Jacobi-Isaacs equations of such general-sum differential games in real time is an open challenge due to the discontinuity of equilibrium values on the state space. A common solution is to learn a neural network that approximates the equilibrium Hamiltonian for given system states and actions. The learning, however, is usually supervised and requires a large amount of sample equilibrium policies from different initial states in order to mitigate the risks of collisions. This paper claims two contributions towards more data-efficient learning of equilibrium policies: First, instead of computing Hamiltonian through a value network, we show that the equilibrium co-states have simple structures when collision avoidance dominates the agents’ loss functions and system dynamics is linear, and therefore are more data-efficient to learn. Second, we introduce theory-driven active learning to guide data sampling, where the acquisition function measures the compliance of the predicted co-states to Pontryagin’s Maximum Principle. On an uncontrolled intersection case, the proposed method leads to more generalizable approximation of the equilibrium policies, and in turn, lower collision probabilities, than the state-of-the-art under the same data acquisition budget.

arxiv情報

著者 Lei Zhang,Siddharth Das,Tanner Merry,Wenlong Zhang,Yi Ren
発行日 2025-03-10 07:52:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG, cs.RO | Learning Nash Equilibrial Hamiltonian for Two-Player Collision-Avoiding Interactions はコメントを受け付けていません

How to Train Your Robots? The Impact of Demonstration Modality on Imitation Learning

要約

模倣学習は、ユーザーが提供するデータを使用してロボットポリシーを学習するための有望なアプローチです。
デモンストレーションが提供される方法、つまりデモのモダリティは、データの品質に影響を与えます。
既存の研究では、活動性の教育(ロボットの物理的ガイド)が直感性と使いやすさのためにユーザーが好むことを示していますが、既存の操作データセットの大部分はVRコントローラーまたは空間を介してテレオ操作を通じて収集されました。
この作業では、さまざまなデモのモダリティがダウンストリーム学習パフォーマンスとユーザーエクスペリエンスにどのように影響するかを調査します。
具体的には、運動感覚教育、VRコントローラーによるテレオ操作、宇宙造影剤コントローラーとのテレオ操作など、低コストのデモンストレーションモダリティを比較します。
さまざまなモーション制約を備えた3つのテーブルトップ操作タスクを実験します。
さまざまなデモモダリティからのデータを使用して、模倣学習パフォーマンスを評価および比較し、ユーザーエクスペリエンスに関する主観的なフィードバックを収集しました。
私たちの結果は、運動感覚の教育がロボットを制御するのに最も直感的であると評価されており、最高の下流の学習パフォーマンスのための最もクリーンなデータを提供することを示しています。
ただし、物理的な負荷のため、大規模なデータ収集の方法としては好まれません。
このような洞察に基づいて、少数のデータ収集の努力を維持しながら、テレオ操作を通じて収集されたデータと混合されたデータと混合された少数の運動感覚デモに依存する単純なデータ収集スキームを提案します。

要約(オリジナル)

Imitation learning is a promising approach for learning robot policies with user-provided data. The way demonstrations are provided, i.e., demonstration modality, influences the quality of the data. While existing research shows that kinesthetic teaching (physically guiding the robot) is preferred by users for the intuitiveness and ease of use, the majority of existing manipulation datasets were collected through teleoperation via a VR controller or spacemouse. In this work, we investigate how different demonstration modalities impact downstream learning performance as well as user experience. Specifically, we compare low-cost demonstration modalities including kinesthetic teaching, teleoperation with a VR controller, and teleoperation with a spacemouse controller. We experiment with three table-top manipulation tasks with different motion constraints. We evaluate and compare imitation learning performance using data from different demonstration modalities, and collected subjective feedback on user experience. Our results show that kinesthetic teaching is rated the most intuitive for controlling the robot and provides cleanest data for best downstream learning performance. However, it is not preferred as the way for large-scale data collection due to the physical load. Based on such insight, we propose a simple data collection scheme that relies on a small number of kinesthetic demonstrations mixed with data collected through teleoperation to achieve the best overall learning performance while maintaining low data-collection effort.

arxiv情報

著者 Haozhuo Li,Yuchen Cui,Dorsa Sadigh
発行日 2025-03-10 07:57:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | How to Train Your Robots? The Impact of Demonstration Modality on Imitation Learning はコメントを受け付けていません

Combating Partial Perception Deficit in Autonomous Driving with Multimodal LLM Commonsense

要約

部分的な認識障害は、環境の理解を混乱させることにより、自律的な車両の安全性を損なう可能性があります。
現在のプロトコルは通常、即時の停止または最小限のリスクの操作で応答し、トラフィックの流れが悪化し、まれな運転シナリオの柔軟性がありません。
このホワイトペーパーでは、LLM-RCOを提案します。LLM-RCOは、人間のような運転の常識を知覚障害に直面する自律システムに統合するための大規模な言語モデルを活用するフレームワークであると提案します。
LLM-RCOには、ハザード推論、短期モーションプランナー、アクション条件検証剤、および安全制約ジェネレーターの4つの重要なモジュールがあります。
これらのモジュールは、動的な駆動環境と相互作用し、自律エージェントの元の制御ポリシーをオーバーライドするためのプロアクティブでコンテキスト対応の制御アクションを可能にします。
このような困難な条件での安全性を改善するために、LLMベースのハザード推論とモーションプランニング微調整の注釈を備えた、安全性が批判的なオブジェクトの赤字を備えた53,895のビデオクリップのデータセットであるDrivelm-Deficitを構築します。
CARLAシミュレーターによる有害な運転条件の広範な実験は、LLM-RCOを装備したシステムが運転性能を大幅に改善し、有害な知覚障害に対する自律運転の回復力を高める可能性を強調することを示しています。
また、我々の結果は、Drivelm-Deficitで微調整されたLLMが、知覚赤字の文脈で保守的な停止の代わりに、より積極的な動きを可能にする可能性があることを示しています。

要約(オリジナル)

Partial perception deficits can compromise autonomous vehicle safety by disrupting environmental understanding. Current protocols typically respond with immediate stops or minimal-risk maneuvers, worsening traffic flow and lacking flexibility for rare driving scenarios. In this paper, we propose LLM-RCO, a framework leveraging large language models to integrate human-like driving commonsense into autonomous systems facing perception deficits. LLM-RCO features four key modules: hazard inference, short-term motion planner, action condition verifier, and safety constraint generator. These modules interact with the dynamic driving environment, enabling proactive and context-aware control actions to override the original control policy of autonomous agents. To improve safety in such challenging conditions, we construct DriveLM-Deficit, a dataset of 53,895 video clips featuring deficits of safety-critical objects, complete with annotations for LLM-based hazard inference and motion planning fine-tuning. Extensive experiments in adverse driving conditions with the CARLA simulator demonstrate that systems equipped with LLM-RCO significantly improve driving performance, highlighting its potential for enhancing autonomous driving resilience against adverse perception deficits. Our results also show that LLMs fine-tuned with DriveLM-Deficit can enable more proactive movements instead of conservative stops in the context of perception deficits.

arxiv情報

著者 Yuting Hu,Chenhui Xu,Ruiyang Qin,Dancheng Liu,Amir Nassereldine,Yiyu Shi,Jinjun Xiong
発行日 2025-03-10 08:01:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Combating Partial Perception Deficit in Autonomous Driving with Multimodal LLM Commonsense はコメントを受け付けていません

VMTS: Vision-Assisted Teacher-Student Reinforcement Learning for Multi-Terrain Locomotion in Bipedal Robots

要約

Bipedal Robotsは、擬人化された設計により、さまざまなアプリケーションでかなりの可能性を提供しますが、その制御は構造の複雑さによって妨げられています。
現在、ほとんどの研究は、複雑な地形を克服する能力を欠いている固有受容ベースの方法に焦点を当てています。
視覚的認識は人間中心の環境での動作に不可欠ですが、その統合は制御をさらに複雑にします。
最近の強化学習(RL)アプローチは、特に固有受容ベースの方法で、足のロボットの移動を強化することに有望であることを示しています。
ただし、特に二足歩行ロボットの地形適応性は、依然として大きな課題であり、ほとんどの研究は平坦な地形シナリオに焦点を当てています。
このペーパーでは、専門家の教師と学生のネットワークRL戦略の新しい混合物を紹介します。これは、シンプルで効果的なアプローチを通じて視覚入力に基づいて教師と学生のポリシーのパフォーマンスを向上させます。
私たちの方法は、地形の選択戦略と教師ポリシーを組み合わせて、従来のモデルと比較して優れたパフォーマンスをもたらします。
さらに、多様な地形をナビゲートする学生の能力を向上させるために、厳格な類似性を強制するのではなく、教師と生徒のネットワーク間にアライメント損失を導入します。
Limx Dynamic P1 Bipedal Robotでアプローチを実験的に検証し、複数の地形タイプにわたってその実現可能性と堅牢性を示しています。

要約(オリジナル)

Bipedal robots, due to their anthropomorphic design, offer substantial potential across various applications, yet their control is hindered by the complexity of their structure. Currently, most research focuses on proprioception-based methods, which lack the capability to overcome complex terrain. While visual perception is vital for operation in human-centric environments, its integration complicates control further. Recent reinforcement learning (RL) approaches have shown promise in enhancing legged robot locomotion, particularly with proprioception-based methods. However, terrain adaptability, especially for bipedal robots, remains a significant challenge, with most research focusing on flat-terrain scenarios. In this paper, we introduce a novel mixture of experts teacher-student network RL strategy, which enhances the performance of teacher-student policies based on visual inputs through a simple yet effective approach. Our method combines terrain selection strategies with the teacher policy, resulting in superior performance compared to traditional models. Additionally, we introduce an alignment loss between the teacher and student networks, rather than enforcing strict similarity, to improve the student’s ability to navigate diverse terrains. We validate our approach experimentally on the Limx Dynamic P1 bipedal robot, demonstrating its feasibility and robustness across multiple terrain types.

arxiv情報

著者 Fu Chen,Rui Wan,Peidong Liu,Nanxing Zheng,Bo Zhou
発行日 2025-03-10 08:35:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | VMTS: Vision-Assisted Teacher-Student Reinforcement Learning for Multi-Terrain Locomotion in Bipedal Robots はコメントを受け付けていません