Know Where You’re Uncertain When Planning with Multimodal Foundation Models: A Formal Framework

要約

マルチモーダルファンデーションモデルは、実行可能な計画を生成するために感覚入力を処理することにより、ロボットの知覚と計画のための有望なフレームワークを提供します。
ただし、知覚(感覚解釈)と意思決定(計画生成)の両方の不確実性に対処することは、タスクの信頼性を確保するための重要な課題のままです。
これらの2つの形式の不確実性を解きほぐし、定量化し、軽減するための包括的なフレームワークを提示します。
最初に、不確実性の解体の枠組みを紹介し、生成された計画の堅牢性に関連する視覚的理解と決定の不確実性の制限から生じる知覚の不確実性を分離します。
各タイプの不確実性を定量化するために、知覚と意思決定のユニークな特性に合わせた方法を提案します。コンフォーマル予測を使用して知覚の不確実性を調整し、正式なメソッド駆動型予測(FMDP)を導入して意思決定の不確実性を定量化し、理論保証の正式な検証技術を活用します。
この定量化に基づいて、2つの標的介入メカニズムを実装します。視覚的な入力品質を向上させるために高度な確実なシーンを動的に再観測するアクティブなセンシングプロセスと、モデルを高確認データで微調整し、タスク仕様を満たす機能を改善する自動改良手順です。
現実世界およびシミュレートされたロボットタスクの経験的検証は、私たちの不確実性の解体フレームワークが変動性を最大40%減らし、ベースラインと比較してタスクの成功率を5%増強することを示しています。
これらの改善は、両方の介入の複合効果と、自律システムの堅牢性と信頼性を高めるターゲットを絞った介入を促進する不確実性解体の重要性を強調しています。
微調整されたモデル、コード、およびデータセットは、https://uncentaverty-in-planning.github.io/で入手できます。

要約(オリジナル)

Multimodal foundation models offer a promising framework for robotic perception and planning by processing sensory inputs to generate actionable plans. However, addressing uncertainty in both perception (sensory interpretation) and decision-making (plan generation) remains a critical challenge for ensuring task reliability. We present a comprehensive framework to disentangle, quantify, and mitigate these two forms of uncertainty. We first introduce a framework for uncertainty disentanglement, isolating perception uncertainty arising from limitations in visual understanding and decision uncertainty relating to the robustness of generated plans. To quantify each type of uncertainty, we propose methods tailored to the unique properties of perception and decision-making: we use conformal prediction to calibrate perception uncertainty and introduce Formal-Methods-Driven Prediction (FMDP) to quantify decision uncertainty, leveraging formal verification techniques for theoretical guarantees. Building on this quantification, we implement two targeted intervention mechanisms: an active sensing process that dynamically re-observes high-uncertainty scenes to enhance visual input quality and an automated refinement procedure that fine-tunes the model on high-certainty data, improving its capability to meet task specifications. Empirical validation in real-world and simulated robotic tasks demonstrates that our uncertainty disentanglement framework reduces variability by up to 40% and enhances task success rates by 5% compared to baselines. These improvements are attributed to the combined effect of both interventions and highlight the importance of uncertainty disentanglement, which facilitates targeted interventions that enhance the robustness and reliability of autonomous systems. Fine-tuned models, code, and datasets are available at https://uncertainty-in-planning.github.io/.

arxiv情報

著者 Neel P. Bhatt,Yunhao Yang,Rohan Siva,Daniel Milan,Ufuk Topcu,Zhangyang Wang
発行日 2025-04-15 22:37:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Know Where You’re Uncertain When Planning with Multimodal Foundation Models: A Formal Framework はコメントを受け付けていません

Linearity, Time Invariance, and Passivity of a Novice Person in Human Teleoperation

要約

医療処置の低コストの遠隔誘導は、遠隔地やサービスの行き届いていないコミュニティに医療を提供するために不可欠になっています。
人間の操作は、複合現実(MR)インターフェイスを通じて比較的精度と効率を持つ初心者を導くための有望な新しい方法です。
以前の研究では、初心者、または「フォロワー」が、テレロボットシステムとは異なり、パフォーマンスでMR入力を確実に追跡できることが示されています。
結果として、システムのパフォーマンスを最適化し、安定した透明な両側の視聴を許可するために、フォロワーのダイナミクスを理解して制御することは興味深いものです。
この目的のために、線形性、時間不変性、軸間結合、および受動性は、遠隔操作とコントローラーの設計において重要です。
したがって、このペーパーでは、人間の操作におけるフォロワーの人に関するこれらの効果を探ります。
モデリングと実験を通じて、フォロワーは実際にほぼ線形および時間不変として扱われることが実用的であり、実際の周波数でのカップリングがほとんどなく、受動性が大きくなります。
さらに、フォロワーダイナミクスの確率モデルが導出されます。
これらの結果は、コントローラーの設計と分析が人間の視聴の性能を向上させることを可能にします。

要約(オリジナル)

Low-cost teleguidance of medical procedures is becoming essential to provide healthcare to remote and underserved communities. Human teleoperation is a promising new method for guiding a novice person with relatively high precision and efficiency through a mixed reality (MR) interface. Prior work has shown that the novice, or ‘follower’, can reliably track the MR input with performance not unlike a telerobotic system. As a consequence, it is of interest to understand and control the follower’s dynamics to optimize the system performance and permit stable and transparent bilateral teleoperation. To this end, linearity, time-invariance, inter-axis coupling, and passivity are important in teleoperation and controller design. This paper therefore explores these effects with regard to the follower person in human teleoperation. It is demonstrated through modeling and experiments that the follower can indeed be treated as approximately linear and time invariant, with little coupling and a large excess of passivity at practical frequencies. Furthermore, a stochastic model of the follower dynamics is derived. These results will permit controller design and analysis to improve the performance of human teleoperation.

arxiv情報

著者 David Black,Septimiu Salcudean
発行日 2025-04-15 22:41:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO, cs.SY, eess.SY | Linearity, Time Invariance, and Passivity of a Novice Person in Human Teleoperation はコメントを受け付けていません

DM-OSVP++: One-Shot View Planning Using 3D Diffusion Models for Active RGB-Based Object Reconstruction

要約

アクティブオブジェクトの再構築は、多くのロボットアプリケーションにとって重要です。
これらのシナリオの重要な側面は、オブジェクト固有のビュー構成を生成して、再構築のための有益な測定値を取得することです。
ワンショットビュー計画は、すべてのビューを一度に予測し、時間のかかるオンライン再生の必要性を排除することにより、効率的なデータ収集を可能にします。
私たちの主な洞察は、3D拡散モデルの生成力を貴重な事前情報として活用することです。
最初のマルチビュー画像を条件付けすることにより、3D拡散モデルからプライアーを悪用して、おおよそのオブジェクトモデルを生成し、ビュー計画の基礎として機能します。
私たちの斬新なアプローチでは、オブジェクトモデルの幾何学的およびテクスチャー分布をビュー計画プロセスに統合し、再構築するオブジェクトの複雑な部分に焦点を当てたビューを生成します。
シミュレーションと現実世界の両方の実験を通じて提案されたアクティブオブジェクト再構成システムを検証し、ワンショットビュー計画に3D拡散前に使用する有効性を実証します。

要約(オリジナル)

Active object reconstruction is crucial for many robotic applications. A key aspect in these scenarios is generating object-specific view configurations to obtain informative measurements for reconstruction. One-shot view planning enables efficient data collection by predicting all views at once, eliminating the need for time-consuming online replanning. Our primary insight is to leverage the generative power of 3D diffusion models as valuable prior information. By conditioning on initial multi-view images, we exploit the priors from the 3D diffusion model to generate an approximate object model, serving as the foundation for our view planning. Our novel approach integrates the geometric and textural distributions of the object model into the view planning process, generating views that focus on the complex parts of the object to be reconstructed. We validate the proposed active object reconstruction system through both simulation and real-world experiments, demonstrating the effectiveness of using 3D diffusion priors for one-shot view planning.

arxiv情報

著者 Sicong Pan,Liren Jin,Xuying Huang,Cyrill Stachniss,Marija Popović,Maren Bennewitz
発行日 2025-04-16 00:14:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | DM-OSVP++: One-Shot View Planning Using 3D Diffusion Models for Active RGB-Based Object Reconstruction はコメントを受け付けていません

Inferring Short-Sightedness in Dynamic Noncooperative Games

要約

動的ゲーム理論は、マルチエージェントをモデリングするためのますます人気のあるツールです。
ヒューマンロボット、相互作用。
ゲーム理論モデルは、各エージェントが他者の行動に依存するプライベートコスト関数を最小限に抑えたいと考えています。
これらのゲームは通常、固定期間にわたって進化し、各エージェントが将来の計画を立てています。
ただし、実際の設定では、意思決定者の近視が異なる場合があります。
オンラインデータから各エージェントの先見性を定量化および推定することで、他のエージェントとより安全で効率的な相互作用が可能になると推測します。
この目的のために、この推論の問題を\ end {inverse}動的ゲームとしてフレーム化します。
近視および先見の明のある計画をスムーズに補間する各エージェントの目的関数の特定のパラメーター化を検討します。
このフォームのゲームは、パラメトリックな混合相補性の問題に容易に変換されます。
私たちは、エージェントの先見性を解決するために、それらの隠されたパラメーターに関して、これらの問題に対する解決策の方向性の違いを活用します。
2種類の実験を実施します。1つは横断歩道で合成された歩行者の動きを、もう1つは歩行、自転車、運転車を含む現実世界の交差データを使用しています。
これらの実験の結果は、エージェントの先見性を明示的に推測することにより、ゲーム理論モデルがエージェントの動作をより正確にモデル化することを可能にすることを示しています。
具体的には、我々の結果は、実際のシナリオのベースラインと比較して、平均して予測された行動の33%の正確な予測を示しています。

要約(オリジナル)

Dynamic game theory is an increasingly popular tool for modeling multi-agent, e.g. human-robot, interactions. Game-theoretic models presume that each agent wishes to minimize a private cost function that depends on others’ actions. These games typically evolve over a fixed time horizon, specifying how far into the future each agent plans. In practical settings, however, decision-makers may vary in foresightedness. We conjecture that quantifying and estimating each agent’s foresightedness from online data will enable safer and more efficient interactions with other agents. To this end, we frame this inference problem as an \emph{inverse} dynamic game. We consider a specific parametrization of each agent’s objective function that smoothly interpolates myopic and farsighted planning. Games of this form are readily transformed into parametric mixed complementarity problems; we exploit the directional differentiability of solutions to these problems with respect to their hidden parameters to solve for agents’ foresightedness. We conduct two types of experiments: one with synthetically generated pedestrian motion at a crosswalk and the other with real-world intersection data involving people walking, biking, and driving vehicles. The results of these experiments demonstrate that explicitly inferring agents’ foresightedness enables game-theoretic models to more accurately model agents’ behavior. Specifically, our results show 33% more accurate prediction of foresighted behavior on average compared to the baseline in real-world scenarios.

arxiv情報

著者 Cade Armstrong,Ryan Park,Xinjie Liu,Kushagra Gupta,David Fridovich-Keil
発行日 2025-04-16 01:31:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.MA, cs.RO, cs.SY, eess.SY | Inferring Short-Sightedness in Dynamic Noncooperative Games はコメントを受け付けていません

An Online Adaptation Method for Robust Depth Estimation and Visual Odometry in the Open World

要約

最近、学習ベースのロボットナビゲーションシステムは、広範な研究の注目を集め、大きな進歩を遂げました。
ただし、オープンワールドシナリオの多様性は、そのようなシステムの一般化にとって実際のシナリオに大きな課題をもたらします。
具体的には、現場の測定と状態の推定のための学習システムは、アプリケーションシナリオがトレーニングデータから逸脱している場合に劣化する傾向があり、信頼性の低い深さとポーズ推定が発生します。
この問題への対処に向けて、この作業は、オンラインで多様な新しい環境に迅速に適応できる視覚的臭気システムを開発することを目的としています。
この目的のために、オンラインアップデートの深度推定モジュールによって支援された単眼の視覚匂いのための自己監視されたオンライン適応フレームワークを構築します。
第一に、効率的なオンライン適応を可能にする軽量の精製モジュールを使用して、単眼深度推定ネットワークを設計します。
次に、視覚臭気システムの出力とシーンのコンテキストセマンティック情報に基づいて、深度推定モジュールの自己監視学習の目的を構築します。
具体的には、カメラのポーズとコンテキストセマンティクスを活用して、オンライン適応のための有効なマスクを生成するために、カメラのポーズとコンテキストセマンティクスを活用するために、スパース深度密度密度モジュールと動的な一貫性強化モジュールが提案されています。
最後に、都市部、社内データセット、ロボットプラットフォームでの最先端の学習ベースのアプローチと比較して、提案された方法の堅牢性と一般化能力を示します。
コードは、https://github.com/jixingwu/sol-slamで公開されています。

要約(オリジナル)

Recently, learning-based robotic navigation systems have gained extensive research attention and made significant progress. However, the diversity of open-world scenarios poses a major challenge for the generalization of such systems to practical scenarios. Specifically, learned systems for scene measurement and state estimation tend to degrade when the application scenarios deviate from the training data, resulting to unreliable depth and pose estimation. Toward addressing this problem, this work aims to develop a visual odometry system that can fast adapt to diverse novel environments in an online manner. To this end, we construct a self-supervised online adaptation framework for monocular visual odometry aided by an online-updated depth estimation module. Firstly, we design a monocular depth estimation network with lightweight refiner modules, which enables efficient online adaptation. Then, we construct an objective for self-supervised learning of the depth estimation module based on the output of the visual odometry system and the contextual semantic information of the scene. Specifically, a sparse depth densification module and a dynamic consistency enhancement module are proposed to leverage camera poses and contextual semantics to generate pseudo-depths and valid masks for the online adaptation. Finally, we demonstrate the robustness and generalization capability of the proposed method in comparison with state-of-the-art learning-based approaches on urban, in-house datasets and a robot platform. Code is publicly available at: https://github.com/jixingwu/SOL-SLAM.

arxiv情報

著者 Xingwu Ji,Haochen Niu,Dexin Duan,Rendong Ying,Fei Wen,Peilin Liu
発行日 2025-04-16 01:48:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | An Online Adaptation Method for Robust Depth Estimation and Visual Odometry in the Open World はコメントを受け付けていません

Safety with Agency: Human-Centered Safety Filter with Application to AI-Assisted Motorsports

要約

人間の機関を損なうことなくシステムの安全性を大幅に向上させる共有自律性のために、人間中心の安全フィルター(HCSF)を提案します。
当社のHCSFは、神経安全価値関数に基づいて構築されています。これは、最初にブラックボックスの相互作用を介して拡張的に学習し、次に展開時に使用して、新しい品質制御バリア機能(Q-CBF)の安全上の制約を実施します。
このQ-CBF安全フィルターは、合成とランタイムの安全性の監視と介入の両方について、システムのダイナミクスに関する知識を必要としないため、私たちの方法は複雑なブラックボックス共有の自律システムに容易に適用されます。
特に、HCSFのCBFベースの介入は、多くの従来の安全フィルターによって提供される突然の土壇場の修正を回避し、人間の行動を最小限かつスムーズに変更します。
Assetto Corsa-A Highfichity Car Racing Simulatorを使用して、Assetto Corsa-A High-Fidelity Car Racing Simulatorを使用して、「エッジ上での運転」シナリオでの堅牢性を評価する包括的な対面ユーザー調査におけるアプローチを検証します。
軌道データと、HCSF支援に対するドライバーの認識の両方を、非支援運転と従来の安全フィルターと比較します。
実験結果は、1)支援がないのと比較して、HCSFは人間の代理店や快適さを損なうことなく安全性とユーザーの満足度の両方を改善し、2)従来の安全フィルターと比較して、提案されているHCSFは、堅牢性を維持しながら人間の代理店、快適性、満足度を高めます。

要約(オリジナル)

We propose a human-centered safety filter (HCSF) for shared autonomy that significantly enhances system safety without compromising human agency. Our HCSF is built on a neural safety value function, which we first learn scalably through black-box interactions and then use at deployment to enforce a novel quality control barrier function (Q-CBF) safety constraint. Since this Q-CBF safety filter does not require any knowledge of the system dynamics for both synthesis and runtime safety monitoring and intervention, our method applies readily to complex, black-box shared autonomy systems. Notably, our HCSF’s CBF-based interventions modify the human’s actions minimally and smoothly, avoiding the abrupt, last-moment corrections delivered by many conventional safety filters. We validate our approach in a comprehensive in-person user study using Assetto Corsa-a high-fidelity car racing simulator with black-box dynamics-to assess robustness in ‘driving on the edge’ scenarios. We compare both trajectory data and drivers’ perceptions of our HCSF assistance against unassisted driving and a conventional safety filter. Experimental results show that 1) compared to having no assistance, our HCSF improves both safety and user satisfaction without compromising human agency or comfort, and 2) relative to a conventional safety filter, our proposed HCSF boosts human agency, comfort, and satisfaction while maintaining robustness.

arxiv情報

著者 Donggeon David Oh,Justin Lidard,Haimin Hu,Himani Sinhmar,Elle Lazarski,Deepak Gopinath,Emily S. Sumner,Jonathan A. DeCastro,Guy Rosman,Naomi Ehrich Leonard,Jaime Fernández Fisac
発行日 2025-04-16 02:42:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Safety with Agency: Human-Centered Safety Filter with Application to AI-Assisted Motorsports はコメントを受け付けていません

Inversion of biological strategies in engineering technology: in case underwater soft robot

要約

このペーパーでは、生物学的戦略の反転に基づいた生体模倣設計フレームワークを提案し、自然界で進化したソリューションを体系的にマッピングすることを目的としています。
自然言語処理(NLP)およびマルチ基準の意思決定方法と組み合わせて、「機能障害 – 栄養環境」(EのF-B-CS)知識モデルを構築することにより、生物学的戦略から工学ソリューションへの効率的な変換を達成します。
ケーススタディとして水中ソフトロボット設計を使用すると、ドライブメカニズム、配電、モーションパターンの設計を最適化する際のフレームワークの有効性が検証されています。
この研究は、学際的な生体模倣イノベーションに対するスケーラブルな方法論的サポートを提供します。

要約(オリジナル)

This paper proposes a biomimetic design framework based on biological strategy inversion, aiming to systematically map solutions evolved in nature to the engineering field. By constructing a ‘Function-Behavior-Feature-Environment’ (F-B-Cs in E) knowledge model, combined with natural language processing (NLP) and multi-criteria decision-making methods, it achieves efficient conversion from biological strategies to engineering solutions. Using underwater soft robot design as a case study, the effectiveness of the framework in optimizing drive mechanisms, power distribution, and motion pattern design is verified. This research provides scalable methodological support for interdisciplinary biomimetic innovation.

arxiv情報

著者 Siqing Chen,He Xua,Xueyu Zhang,Zhen Ma
発行日 2025-04-16 02:48:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Inversion of biological strategies in engineering technology: in case underwater soft robot はコメントを受け付けていません

Steerable rolling of a 1-DoF robot using an internal pendulum

要約

丸いシェルと内部振り子で構成される1つのフリードームロボットであるロック(ローリングワンモーター制御ロック)を紹介します。
不均一なシェル表面は、振り子の動きのみを使用してステアリングを可能にし、大量または小さなサイズにスケーリングできる機械的にシンプルなデザインを可能にします。
シミュレーションで補強学習を使用して制御ポリシーをトレーニングし、ロボットに展開して長方形の軌跡を完成させます。

要約(オリジナル)

We present ROCK (Rolling One-motor Controlled rocK), a 1 degree-of-freedom robot consisting of a round shell and an internal pendulum. An uneven shell surface enables steering by using only the movement of the pendulum, allowing for mechanically simple designs that may be feasible to scale to large quantities or small sizes. We train a control policy using reinforcement learning in simulation and deploy it onto the robot to complete a rectangular trajectory.

arxiv情報

著者 Christopher Y. Xu,Jack Yan,Kathleen Lum,Justin K. Yim
発行日 2025-04-16 03:59:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Steerable rolling of a 1-DoF robot using an internal pendulum はコメントを受け付けていません

GrabS: Generative Embodied Agent for 3D Object Segmentation without Scene Supervision

要約

監督のために3Dシーンの人間のラベルを必要とせずに、複雑な点雲における3Dオブジェクトセグメンテーションの困難な問題を研究します。
前提条件の2D機能の類似性またはオブジェクトとして3Dポイントをグループ化するモーションなどの外部信号の類似性に依存することにより、既存の監視なしの方法は通常、車やそのセグメント化されたオブジェクトなどの単純なオブジェクトを識別することに限定されます。
この論文では、Grabsと呼ばれる新しい2段階のパイプラインを提案します。
私たちの方法の核となる概念は、第1段階のオブジェクトデータセットからの基礎として生成的で識別的なオブジェクト中心のプライアーを学習し、具体化されたエージェントを設計して、第2段階で前提条件の生成プライアーに対してクエリすることで複数のオブジェクトを発見することを学ぶことです。
2つの実際のデータセットと新しく作成された合成データセットでの方法を広範囲に評価し、顕著なセグメンテーションパフォーマンスを実証し、既存のすべての監視なしの方法を明確に上回ります。

要約(オリジナル)

We study the hard problem of 3D object segmentation in complex point clouds without requiring human labels of 3D scenes for supervision. By relying on the similarity of pretrained 2D features or external signals such as motion to group 3D points as objects, existing unsupervised methods are usually limited to identifying simple objects like cars or their segmented objects are often inferior due to the lack of objectness in pretrained features. In this paper, we propose a new two-stage pipeline called GrabS. The core concept of our method is to learn generative and discriminative object-centric priors as a foundation from object datasets in the first stage, and then design an embodied agent to learn to discover multiple objects by querying against the pretrained generative priors in the second stage. We extensively evaluate our method on two real-world datasets and a newly created synthetic dataset, demonstrating remarkable segmentation performance, clearly surpassing all existing unsupervised methods.

arxiv情報

著者 Zihui Zhang,Yafei Yang,Hongtao Wen,Bo Yang
発行日 2025-04-16 04:13:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | GrabS: Generative Embodied Agent for 3D Object Segmentation without Scene Supervision はコメントを受け付けていません

RoboMorph: Evolving Robot Morphology using Large Language Models

要約

Robomorphは、大規模な言語モデル(LLM)と進化的アルゴリズムを使用してモジュラーロボット設計を生成および最適化するための自動化されたアプローチであるRobomorphを紹介します。
このフレームワークでは、各ロボット設計を文法として表し、LLMの機能を活用して、従来時間がかかり、計算的に要求が厳しい広範なロボット設計スペースをナビゲートします。
Best-Shotプロンプト技術と強化学習ベースの制御アルゴリズムを導入することにより、Robomorphはフィードバックループを通じてロボット設計を改善します。
実験結果は、Robomorphがさまざまな地形用に最適化された非些細なロボットを成功裏に生成し、連続した進化よりもロボットの形態の改善を紹介することを示しています。
私たちのアプローチは、データ駆動型のモジュラーロボット設計にLLMを使用する可能性を強調し、同様の設計フレームワークを持つ他のドメインに拡張できる有望な方法論を提供します。

要約(オリジナル)

We introduce RoboMorph, an automated approach for generating and optimizing modular robot designs using large language models (LLMs) and evolutionary algorithms. In this framework, we represent each robot design as a grammar and leverage the capabilities of LLMs to navigate the extensive robot design space, which is traditionally time-consuming and computationally demanding. By introducing a best-shot prompting technique and a reinforcement learning-based control algorithm, RoboMorph iteratively improves robot designs through feedback loops. Experimental results demonstrate that RoboMorph successfully generates nontrivial robots optimized for different terrains while showcasing improvements in robot morphology over successive evolutions. Our approach highlights the potential of using LLMs for data-driven, modular robot design, providing a promising methodology that can be extended to other domains with similar design frameworks.

arxiv情報

著者 Kevin Qiu,Władysław Pałucki,Krzysztof Ciebiera,Paweł Fijałkowski,Marek Cygan,Łukasz Kuciński
発行日 2025-04-16 04:31:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | RoboMorph: Evolving Robot Morphology using Large Language Models はコメントを受け付けていません