Systematic Evaluation of Initial States and Exploration-Exploitation Strategies in PID Auto-Tuning: A Framework-Driven Approach Applied on Mobile Robots

要約

PIDコントローラーは、そのシンプルさと有効性のため、制御システムで広く使用されています。
ベイジアンの最適化や差別的進化などの高度な最適化手法が適用されていますが、PIDコントローラーの自動チューニングの課題に対処するためには、収束と探査と搾取のバランスに対する初期システム状態の影響は未定です。
さらに、モバイルロボットなどの実際のサイバー物理システムへの影響を直接実験することは、現実的な洞察を得るために重要です。
本論文では、ベイジアンの最適化と微分進化を利用するPID自動調整プロセスに対するこれらの要因を体系的に変化させる影響を評価するために、新しいフレームワークが導入されています。
テストは、収束速度、沈降時間、立ち上がり時間、オーバーシュート率への影響を評価するために、2つの異なるPID制御ロボットプラットフォーム、全方向ロボットとディファレンシャルドライブモバイルロボットで実施されました。
その結果、実験結果は、体系的な変動の影響に関する証拠をもたらし、それにより、この分野での将来の研究研究の経験的根拠を提供します。

要約(オリジナル)

PID controllers are widely used in control systems because of their simplicity and effectiveness. Although advanced optimization techniques such as Bayesian Optimization and Differential Evolution have been applied to address the challenges of automatic tuning of PID controllers, the influence of initial system states on convergence and the balance between exploration and exploitation remains underexplored. Moreover, experimenting the influence directly on real cyber-physical systems such as mobile robots is crucial for deriving realistic insights. In the present paper, a novel framework is introduced to evaluate the impact of systematically varying these factors on the PID auto-tuning processes that utilize Bayesian Optimization and Differential Evolution. Testing was conducted on two distinct PID-controlled robotic platforms, an omnidirectional robot and a differential drive mobile robot, to assess the effects on convergence rate, settling time, rise time, and overshoot percentage. As a result, the experimental outcomes yield evidence on the effects of the systematic variations, thereby providing an empirical basis for future research studies in the field.

arxiv情報

著者 Zaid Ghazal,Ali Al-Bustami,Khouloud Gaaloul,Jaerock Kwon
発行日 2025-05-06 04:12:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Systematic Evaluation of Initial States and Exploration-Exploitation Strategies in PID Auto-Tuning: A Framework-Driven Approach Applied on Mobile Robots はコメントを受け付けていません

Visual-Based Forklift Learning System Enabling Zero-Shot Sim2Real Without Real-World Data

要約

フォークリフトはさまざまな産業環境で広く使用されており、自動化に対する需要が高くなっています。
特に、カウンターバランスフォークリフトは非常に用途が広く、多様なシナリオで採用されています。
ただし、これらのプロセスを自動化する努力は、主に安全でパフォーマンス検証可能な開発環境がないため、不足しています。
この研究では、この課題に対処するために、フォトリアリスティックなデジタル学習環境と1/14スケールのロボットフォークリフト環境を組み合わせた学習システムを提案しています。
Forkliftオペレーターが採用したトレーニングベースの学習アプローチに触発され、エンドツーエンドのビジョンベースのディープ強化学習アプローチを採用しています。
学習は、CADデータから作成されたデジタル化された環境で実施され、安全になり、実際のデータの必要性を排除します。
さらに、実際のフォークリフトと同様の構成を備えた1/14スケールのロボットフォークリフトを使用して、物理的な設定でメソッドを安全に検証します。
ロボットフォークリフトを使用した実際の実験で、パレットロードタスクで60%の成功率を達成しました。
私たちのアプローチは、ヒューリスティックな追加を必要としない簡単な方法でゼロショットSIM2REALを示しています。
この学習ベースのアプローチは、カウンターバランスフォークリフトの自動化に向けた最初のステップと考えられています。

要約(オリジナル)

Forklifts are used extensively in various industrial settings and are in high demand for automation. In particular, counterbalance forklifts are highly versatile and employed in diverse scenarios. However, efforts to automate these processes are lacking, primarily owing to the absence of a safe and performance-verifiable development environment. This study proposes a learning system that combines a photorealistic digital learning environment with a 1/14-scale robotic forklift environment to address this challenge. Inspired by the training-based learning approach adopted by forklift operators, we employ an end-to-end vision-based deep reinforcement learning approach. The learning is conducted in a digitalized environment created from CAD data, making it safe and eliminating the need for real-world data. In addition, we safely validate the method in a physical setting utilizing a 1/14-scale robotic forklift with a configuration similar to that of a real forklift. We achieved a 60% success rate in pallet loading tasks in real experiments using a robotic forklift. Our approach demonstrates zero-shot sim2real with a simple method that does not require heuristic additions. This learning-based approach is considered a first step towards the automation of counterbalance forklifts.

arxiv情報

著者 Koshi Oishi,Teruki Kato,Hiroya Makino,Seigo Ito
発行日 2025-05-06 04:15:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Visual-Based Forklift Learning System Enabling Zero-Shot Sim2Real Without Real-World Data はコメントを受け付けていません

Enhancing Multi-Robot Semantic Navigation Through Multimodal Chain-of-Thought Score Collaboration

要約

人間がセマンティックな知識をどのように活用して慣れ親しんでいない環境を探求し、ナビゲーションの方向を決定するかを理解することは、ハウスサービスのマルチロボットシステムにとって重要です。
以前の方法は、主にシングルロボット集中計画戦略に焦点を当てており、探査効率が厳しく制限されていました。
最近の研究では、複数のロボットの分散化計画戦略が検討されており、個別の計画モデルを各ロボットに割り当てていますが、これらのアプローチはコミュニケーションコストを見落としていることがよくあります。
この作業では、複数のロボットの共同セマンティックナビゲーションを計画するためにマルチモーダルチェーンのチェーンを利用するモジュール式アプローチであるマルチモーダルチェーンコナビゲーション(MCOCONAV)を提案します。
McOconavは、視覚的知覚とビジョン言語モデル(VLM)を組み合わせて、確率的スコアリングを通じて探査値を評価し、時間コストを削減し、安定した出力を達成します。
さらに、グローバルセマンティックマップは通信ブリッジとして使用され、観察結果を統合しながら通信オーバーヘッドを最小限に抑えます。
探査の傾向を反映するスコアに導かれ、ロボットはこのマップを利用して、新しいフロンティアポイントを探索するか、履歴ノードを再訪するかを評価します。
HM3D_V0.2およびMP3Dの実験は、アプローチの有効性を示しています。
私たちのコードは、https://github.com/frankzxshen/mcoconav.gitで入手できます。

要約(オリジナル)

Understanding how humans cooperatively utilize semantic knowledge to explore unfamiliar environments and decide on navigation directions is critical for house service multi-robot systems. Previous methods primarily focused on single-robot centralized planning strategies, which severely limited exploration efficiency. Recent research has considered decentralized planning strategies for multiple robots, assigning separate planning models to each robot, but these approaches often overlook communication costs. In this work, we propose Multimodal Chain-of-Thought Co-Navigation (MCoCoNav), a modular approach that utilizes multimodal Chain-of-Thought to plan collaborative semantic navigation for multiple robots. MCoCoNav combines visual perception with Vision Language Models (VLMs) to evaluate exploration value through probabilistic scoring, thus reducing time costs and achieving stable outputs. Additionally, a global semantic map is used as a communication bridge, minimizing communication overhead while integrating observational results. Guided by scores that reflect exploration trends, robots utilize this map to assess whether to explore new frontier points or revisit history nodes. Experiments on HM3D_v0.2 and MP3D demonstrate the effectiveness of our approach. Our code is available at https://github.com/FrankZxShen/MCoCoNav.git.

arxiv情報

著者 Zhixuan Shen,Haonan Luo,Kexun Chen,Fengmao Lv,Tianrui Li
発行日 2025-05-06 04:16:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Enhancing Multi-Robot Semantic Navigation Through Multimodal Chain-of-Thought Score Collaboration はコメントを受け付けていません

Automated Data Curation Using GPS & NLP to Generate Instruction-Action Pairs for Autonomous Vehicle Vision-Language Navigation Datasets

要約

命令アクション(IA)データペアは、ロボットシステム、特に自動運転車(AV)のトレーニングに役立ちますが、人間が手動でこのデータを注釈付けすることは、費用がかかり、時間がかかりません。
このホワイトペーパーでは、モバイルアプリケーショングローバルポジショニングシステム(GPS)参照と自然言語処理(NLP)を使用して、人間が生成または遡及的にデータを生成または遡及的にタグ付けすることなく、大量のIAコマンドと応答を自動的に生成する可能性を調査します。
パイロットデータの収集では、さまざまな目的地まで走行し、GPSアプリケーションから音声命令を収集することにより、多様な一連の命令を収集および分類する手段を実証し、さらにビデオデータを伴って完全なビジョン言語アクショントライアドを形成します。
完全に自動化されたデータ収集プロトタイプシステムであるAdvlat-Engineの詳細を提供します。
収集されたGPSの音声命令を8つの異なる分類に特徴付け、自由に利用可能なモバイルアプリケーションからのキュレーションに利用できるコマンドと参照性の幅を強調しています。
GPS参照を使用してIAデータペアの自動化の研究と調査を通じて、高品質のIAデータセットが作成される速度と量を増やす可能性がありますが、コストを最小限に抑えながら、堅牢な視覚言語アクション(VLA)モデルが視覚障害ナビゲーション(VLN)と人間のインタラクティブな自動的なシステムのタスクを提供する方法を開くことができます。

要約(オリジナル)

Instruction-Action (IA) data pairs are valuable for training robotic systems, especially autonomous vehicles (AVs), but having humans manually annotate this data is costly and time-inefficient. This paper explores the potential of using mobile application Global Positioning System (GPS) references and Natural Language Processing (NLP) to automatically generate large volumes of IA commands and responses without having a human generate or retroactively tag the data. In our pilot data collection, by driving to various destinations and collecting voice instructions from GPS applications, we demonstrate a means to collect and categorize the diverse sets of instructions, further accompanied by video data to form complete vision-language-action triads. We provide details on our completely automated data collection prototype system, ADVLAT-Engine. We characterize collected GPS voice instructions into eight different classifications, highlighting the breadth of commands and referentialities available for curation from freely available mobile applications. Through research and exploration into the automation of IA data pairs using GPS references, the potential to increase the speed and volume at which high-quality IA datasets are created, while minimizing cost, can pave the way for robust vision-language-action (VLA) models to serve tasks in vision-language navigation (VLN) and human-interactive autonomous systems.

arxiv情報

著者 Guillermo Roque,Erika Maquiling,Jose Giovanni Tapia Lopez,Ross Greer
発行日 2025-05-06 04:38:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | Automated Data Curation Using GPS & NLP to Generate Instruction-Action Pairs for Autonomous Vehicle Vision-Language Navigation Datasets はコメントを受け付けていません

RADE: Learning Risk-Adjustable Driving Environment via Multi-Agent Conditional Diffusion

要約

忠実度の高いシミュレーションで安全クリティカルなシナリオを生成することで、自律車両の効率的なテストのための有望で費用対効果の高いアプローチが提供されます。
既存の方法は通常、洗練された設計された目的を通じて、単一の車両の軌跡を操作して、多くの場合、リアリズムとスケーラビリティを犠牲にして敵対的な相互作用を誘導することに依存しています。
この作業では、統計的に現実的でリスク調整可能なトラフィックシーンを生成するシミュレーションフレームワークであるリスク調整可能な運転環境(RADE)を提案します。
マルチエージェント拡散アーキテクチャの上に構築されたレイドは、環境内のすべてのエージェントの動作を共同でモデル化し、代理リスク測定で軌跡を条件にします。
従来の敵対的な方法とは異なり、Radeはデータから直接リスクコンディショニングされた行動を学習し、制御可能なリスクレベルとの自然主義的なマルチエージェント相互作用を維持します。
物理的な妥当性を確保するために、モーションボキャブラリーを使用して生成された軌跡を効率的にフィルターするトークン化ダイナミクスチェックモジュールを組み込みます。
実際のラウンドデータセットでRadeを検証し、さまざまなリスクレベル全体で統計的リアリズムを保持し、希望するリスクレベルが成長するにつれて安全性批判的なイベントの可能性を自然に増加させることを実証します。
私たちの結果は、AV安全評価のためのスケーラブルで現実的なツールとしてのRadeの可能性を強調しています。

要約(オリジナル)

Generating safety-critical scenarios in high-fidelity simulations offers a promising and cost-effective approach for efficient testing of autonomous vehicles. Existing methods typically rely on manipulating a single vehicle’s trajectory through sophisticated designed objectives to induce adversarial interactions, often at the cost of realism and scalability. In this work, we propose the Risk-Adjustable Driving Environment (RADE), a simulation framework that generates statistically realistic and risk-adjustable traffic scenes. Built upon a multi-agent diffusion architecture, RADE jointly models the behavior of all agents in the environment and conditions their trajectories on a surrogate risk measure. Unlike traditional adversarial methods, RADE learns risk-conditioned behaviors directly from data, preserving naturalistic multi-agent interactions with controllable risk levels. To ensure physical plausibility, we incorporate a tokenized dynamics check module that efficiently filters generated trajectories using a motion vocabulary. We validate RADE on the real-world rounD dataset, demonstrating that it preserves statistical realism across varying risk levels and naturally increases the likelihood of safety-critical events as the desired risk level grows up. Our results highlight RADE’s potential as a scalable and realistic tool for AV safety evaluation.

arxiv情報

著者 Jiawei Wang,Xintao Yan,Yao Mu,Haowei Sun,Zhong Cao,Henry X. Liu
発行日 2025-05-06 04:41:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | RADE: Learning Risk-Adjustable Driving Environment via Multi-Agent Conditional Diffusion はコメントを受け付けていません

Leveraging Computation of Expectation Models for Commonsense Affordance Estimation on 3D Scene Graphs

要約

この記事では、都市環境で具体化されたロボットエージェントの人間に近いタスク計画とタスクの最適化を可能にするための常識的なオブジェクトアフォーダンスの概念を研究しています。
オブジェクトアフォーダンスの焦点は、タスク実行中にオブジェクトの固有のユーティリティを効果的に識別する方法を推論することです。この作業では、3Dシーングラフのまばらな情報のコンテキスト関係の分析を通じて有効になります。
提案されたフレームワークは、グラフ畳み込みネットワークを使用して確率分布を学習する相関情報(CECI)モデルを開発し、セマンティッククラスの個々のメンバーの常識的なアフォーダンスを抽出できます。
全体的なフレームワークは、実世界の屋内環境で実験的に検証され、人間の常識とレベルを合わせる方法の能力を示しています。
記事のビデオについては、実験的なデモンストレーションを紹介するには、次のリンクを参照してください:https://youtu.be/bdcmvx2giqe

要約(オリジナル)

This article studies the commonsense object affordance concept for enabling close-to-human task planning and task optimization of embodied robotic agents in urban environments. The focus of the object affordance is on reasoning how to effectively identify object’s inherent utility during the task execution, which in this work is enabled through the analysis of contextual relations of sparse information of 3D scene graphs. The proposed framework develops a Correlation Information (CECI) model to learn probability distributions using a Graph Convolutional Network, allowing to extract the commonsense affordance for individual members of a semantic class. The overall framework was experimentally validated in a real-world indoor environment, showcasing the ability of the method to level with human commonsense. For a video of the article, showcasing the experimental demonstration, please refer to the following link: https://youtu.be/BDCMVx2GiQE

arxiv情報

著者 Mario A. V. Saucedo,Nikolaos Stathoulopoulos,Akash Patel,Christoforos Kanellakis,George Nikolakopoulos
発行日 2025-05-06 06:35:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Leveraging Computation of Expectation Models for Commonsense Affordance Estimation on 3D Scene Graphs はコメントを受け付けていません

Variable-Speed Teaching-Playback as Real-World Data Augmentation for Imitation Learning

要約

模倣学習は、シミュレートが難しい設定での人間のデモに依存しているため、この方法に力制御を含めると、速度が単純に変化しても、データが不足しています。
データの増強分野はデータの不足に対処していますが、ロボット操作のための従来のデータ増強方法は、シミュレーションベースの方法または位置制御のためのダウンサンプリングに限定されています。
このペーパーでは、強制制御に適用可能なデータ増強の新しい方法を提案し、実際のデータセットの利点を保持します。
実際のデータ増強として、さまざまな速度でティーチングプレイバックを適用して、さまざまな速度での環境反応の量と質の両方を向上させました。
位置制御を備えた模倣学習方法を使用した両側制御ベースの模倣学習について実験を行いました。
現実世界のデータ増強が、それぞれが固定速度で2つの人間のデモンストレーションから、さまざまな速度で、ピックアンドプレイスと拭き取りの2つのタスクに対する効果を評価しました。
結果は、さまざまな速度で環境反応を収集することにより、実際の反応の速度の単純な速度の変化と、期間/頻度コマンドに沿った精度の向上から成功率が最大55%増加することを示しました。

要約(オリジナル)

Because imitation learning relies on human demonstrations in hard-to-simulate settings, the inclusion of force control in this method has resulted in a shortage of training data, even with a simple change in speed. Although the field of data augmentation has addressed the lack of data, conventional methods of data augmentation for robot manipulation are limited to simulation-based methods or downsampling for position control. This paper proposes a novel method of data augmentation that is applicable to force control and preserves the advantages of real-world datasets. We applied teaching-playback at variable speeds as real-world data augmentation to increase both the quantity and quality of environmental reactions at variable speeds. An experiment was conducted on bilateral control-based imitation learning using a method of imitation learning equipped with position-force control. We evaluated the effect of real-world data augmentation on two tasks, pick-and-place and wiping, at variable speeds, each from two human demonstrations at fixed speed. The results showed a maximum 55% increase in success rate from a simple change in speed of real-world reactions and improved accuracy along the duration/frequency command by gathering environmental reactions at variable speeds.

arxiv情報

著者 Nozomu Masuya,Hiroshi Sato,Koki Yamane,Takuya Kusume,Sho Sakaino,Toshiaki Tsuji
発行日 2025-05-06 06:54:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Variable-Speed Teaching-Playback as Real-World Data Augmentation for Imitation Learning はコメントを受け付けていません

GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data

要約

具体化されたファンデーションモデルは、ゼロショットの一般化、スケーラビリティ、およびトレーニング後の少数による新しいタスクへの適応性について、注目を集めています。
ただし、既存のモデルは現実世界のデータに大きく依存しており、これは収集するのに費用がかかり、労働集約的です。
合成データは費用対効果の高い代替品を提供しますが、その可能性はほとんど露出度の低いままです。
このギャップを埋めるために、大規模な合成アクションデータを使用して、ビジョン言語アクションモデルのトレーニングの実現可能性を完全に調査します。
シミュレーションで生成された10億フレームのロボット把持データセットであるSyngrasp-1Bをキュレートし、ドメインのランダム化を広範囲にします。
これに基づいて、把握タスクの基礎モデルとして、大規模な合成アクションデータを前提としたVLAモデルであるGRASPVLAを提示します。
GRASPVLAは、オートレーフレフな知覚タスクとフローマッチングベースのアクション生成を、合成アクションデータとインターネットセマンティクスデータに関する共同トレーニングを可能にします。
この設計は、SIMからリアルのギャップを緩和し、より広範なインターネットで覆われたオブジェクトへの学習アクションの転送を容易にし、把握におけるオープンボキャブラリーの一般化を達成するのに役立ちます。
現実世界とシミュレーションベンチマーク全体の広範な評価は、GraspVLAの高度なゼロショットの一般化可能性と特定の人間の好みに対する少数のショット適応性を示しています。
コミュニティに利益をもたらすために、Syngrasp-1Bデータセットと事前に訓練された重量をリリースします。

要約(オリジナル)

Embodied foundation models are gaining increasing attention for their zero-shot generalization, scalability, and adaptability to new tasks through few-shot post-training. However, existing models rely heavily on real-world data, which is costly and labor-intensive to collect. Synthetic data offers a cost-effective alternative, yet its potential remains largely underexplored. To bridge this gap, we explore the feasibility of training Vision-Language-Action models entirely with large-scale synthetic action data. We curate SynGrasp-1B, a billion-frame robotic grasping dataset generated in simulation with photorealistic rendering and extensive domain randomization. Building on this, we present GraspVLA, a VLA model pretrained on large-scale synthetic action data as a foundational model for grasping tasks. GraspVLA integrates autoregressive perception tasks and flow-matching-based action generation into a unified Chain-of-Thought process, enabling joint training on synthetic action data and Internet semantics data. This design helps mitigate sim-to-real gaps and facilitates the transfer of learned actions to a broader range of Internet-covered objects, achieving open-vocabulary generalization in grasping. Extensive evaluations across real-world and simulation benchmarks demonstrate GraspVLA’s advanced zero-shot generalizability and few-shot adaptability to specific human preferences. We will release SynGrasp-1B dataset and pre-trained weights to benefit the community.

arxiv情報

著者 Shengliang Deng,Mi Yan,Songlin Wei,Haixin Ma,Yuxin Yang,Jiayi Chen,Zhiqi Zhang,Taoyu Yang,Xuheng Zhang,Heming Cui,Zhizheng Zhang,He Wang
発行日 2025-05-06 06:59:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data はコメントを受け付けていません

RobotxR1: Enabling Embodied Robotic Intelligence on Large Language Models through Closed-Loop Reinforcement Learning

要約

実際の環境で動作する将来のロボットシステムには、連続クラウド接続なしでオンボード具体化されたインテリジェンスが必要になり、計算能力とメモリの制約とのバランスをとります。
この作業は、R1-Zeroアプローチの拡張を提示します。これにより、ロボットドメインでの低パラメーターカウント大手言語モデル(LLM)の使用が可能になります。
R1-Zeroアプローチは、静的データセットを使用してLLMSで数学的推論を可能にするために開発されました。
閉ループ補強学習(RL)フレームワークに統合することにより、ロボットドメインに拡張します。
この拡張は、監視された微調整(SFT)を介して大規模なモデルの蒸留のみに依存することなく、具体化された人工知能(具体化されたAI)設定の推論を強化します。
小規模LLMは、環境との閉ループの相互作用を学習することにより、効果的な推論パフォーマンスを実現できることを示しています。
自律運転環境では、QWEN2.5-1.5BモデルでSFTベースのベースラインで20.2%のパフォーマンスゲインが観察されます。
提案されたトレーニング手順を使用して、QWEN2.5-3Bは63.3%の制御適応性スコアを達成し、はるかに大きいクラウドバウンドGPT-4Oによって得られた58.5%を上回ります。
これらの結果は、小さなLLMの実用的なオンボード展開は実行可能であるだけでなく、環境フィードバックを通じて訓練された場合、より大きなモデルを上回ることができることを強調しており、静的監督ではなく実務経験に基づいたロボット具体化されたAIのインタラクティブな学習フレームワークの重要性を強調しています。

要約(オリジナル)

Future robotic systems operating in real-world environments will require on-board embodied intelligence without continuous cloud connection, balancing capabilities with constraints on computational power and memory. This work presents an extension of the R1-zero approach, which enables the usage of low parameter-count Large Language Models (LLMs) in the robotic domain. The R1-Zero approach was originally developed to enable mathematical reasoning in LLMs using static datasets. We extend it to the robotics domain through integration in a closed-loop Reinforcement Learning (RL) framework. This extension enhances reasoning in Embodied Artificial Intelligence (Embodied AI) settings without relying solely on distillation of large models through Supervised Fine-Tuning (SFT). We show that small-scale LLMs can achieve effective reasoning performance by learning through closed-loop interaction with their environment, which enables tasks that previously required significantly larger models. In an autonomous driving setting, a performance gain of 20.2%-points over the SFT-based baseline is observed with a Qwen2.5-1.5B model. Using the proposed training procedure, Qwen2.5-3B achieves a 63.3% control adaptability score, surpassing the 58.5% obtained by the much larger, cloud-bound GPT-4o. These results highlight that practical, on-board deployment of small LLMs is not only feasible but can outperform larger models if trained through environmental feedback, underscoring the importance of an interactive learning framework for robotic Embodied AI, one grounded in practical experience rather than static supervision.

arxiv情報

著者 Liam Boyle,Nicolas Baumann,Paviththiren Sivasothilingam,Michele Magno,Luca Benini
発行日 2025-05-06 07:07:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | RobotxR1: Enabling Embodied Robotic Intelligence on Large Language Models through Closed-Loop Reinforcement Learning はコメントを受け付けていません

Model Predictive Fuzzy Control: A Hierarchical Multi-Agent Control Architecture for Outdoor Search-and-Rescue Robots

要約

未知の捜索救助(SAR)環境に展開された自律的なロボットは、閉じ込められた犠牲者の迅速なローカリゼーションと救助を支援することにより、ミッションの効率を大幅に改善できます。
未知の環境を効率的にマッピングするマルチロボットSARシステムの自律ミッション計画のために、モデル予測制御(MPC)とファジーロジックコントロール(FLC)を組み合わせて、ロボットがローカルコントローラーによってローカルなコントロールを制御されている場合、モデル予測ロジックコントロール(FLC)を組み合わせて、モデル予測制御(MPC)とファジーロジックコントロール(FLC)を組み合わせて、モデル予測制御(MPC)とファジーロジックコントロール(FLC)を組み合わせているため、モデル予測ファジー制御(MPFC)と呼ばれる新しい統合階層制御アーキテクチャを提案します。
MPCコントローラー、定期的またはイベントトリガーされた方法で。
提案されたアーキテクチャは、3つの主な利点を提供します。(1)制御決定はFLCコントローラーによって行われるため、リアルタイムの計算時間は手頃な価格です。
(2)集中化されたMPCコントローラーは、システムダイナミクスのグローバルで予測的なビジョンでパフォーマンス基準を最適化し、それに応じてFLCコントローラーのパラメーターを更新します。
(3)FLCコントローラーは本質的にヒューリスティックであるため、決定の最適性を考慮しませんが、MPCコントローラーを介した調整されたパラメーターは、ロボットのローカル決定にある程度の最適性を間接的に組み込むことができます。
災害環境での被害者の検出のためのシミュレーション環境は、離散的な2Dグリッドベースのモデルを使用してMATLABで設計されました。
計算効率のポイントから同等である一方で、統合されたMPFCアーキテクチャは、分散型FLCコントローラーと比較してマルチロボットSARシステムのパフォーマンスを改善します。
さらに、MPFCのパフォーマンスは、SARロボットのパス計画のための集中化されたMPCのパフォーマンスに匹敵しますが、MPFCはコントロール問題の最適化変数の数が減少するため、大幅に少ない計算リソースを必要とします。

要約(オリジナル)

Autonomous robots deployed in unknown search-and-rescue (SaR) environments can significantly improve the efficiency of the mission by assisting in fast localisation and rescue of the trapped victims. We propose a novel integrated hierarchical control architecture, called model predictive fuzzy control (MPFC), for autonomous mission planning of multi-robot SaR systems that should efficiently map an unknown environment: We combine model predictive control (MPC) and fuzzy logic control (FLC), where the robots are locally controlled by computationally efficient FLC controllers, and the parameters of these local controllers are tuned via a centralised MPC controller, in a regular or event-triggered manner. The proposed architecture provides three main advantages: (1) The control decisions are made by the FLC controllers, thus the real-time computation time is affordable. (2) The centralised MPC controller optimises the performance criteria with a global and predictive vision of the system dynamics, and updates the parameters of the FLC controllers accordingly. (3) FLC controllers are heuristic by nature and thus do not take into account optimality in their decisions, while the tuned parameters via the MPC controller can indirectly incorporate some level of optimality in local decisions of the robots. A simulation environment for victim detection in a disaster environment was designed in MATLAB using discrete, 2-D grid-based models. While being comparable from the point of computational efficiency, the integrated MPFC architecture improves the performance of the multi-robot SaR system compared to decentralised FLC controllers. Moreover, the performance of MPFC is comparable to the performance of centralised MPC for path planning of SaR robots, whereas MPFC requires significantly less computational resources, since the number of the optimisation variables in the control problem are reduced.

arxiv情報

著者 Craig Maxwell,Mirko Baglioni,Anahita Jamshidnejad
発行日 2025-05-06 07:37:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Model Predictive Fuzzy Control: A Hierarchical Multi-Agent Control Architecture for Outdoor Search-and-Rescue Robots はコメントを受け付けていません