ActivePusher: Active Learning and Planning with Residual Physics for Nonprehensile Manipulation

要約

学習したダイナミクスモデルを使用した計画は、特に正確な分析モデルの取得が困難なプッシュやローリングなどの非摂食設定で、現実世界の長距離操作に対する有望なアプローチを提供します。
学習ベースの方法は有望ですが、トレーニングデータの収集は、必ずしも最も有益なものではないランダムにサンプリングされた相互作用に依存することが多いため、費用と非効率的です。
この課題に対処するために、ActivePusherを提案します。これは、最も有益なスキルパラメーターにデータ収集を集中させるために、残留物理モデリングとカーネルベースの不確実性駆動型のアクティブ学習を組み合わせた新しいフレームワークです。
さらに、ActivePusherはモデルベースの運動力学プランナーとシームレスに統合され、より信頼性の高いアクションに向けたサンプリングをバイアス制御するために不確実性の推定値を活用します。
シミュレーションと実際の環境の両方でアプローチを評価し、ベースライン方法と比較してデータの効率と計画の成功率を改善することを実証します。

要約(オリジナル)

Planning with learned dynamics models offers a promising approach toward real-world, long-horizon manipulation, particularly in nonprehensile settings such as pushing or rolling, where accurate analytical models are difficult to obtain. Although learning-based methods hold promise, collecting training data can be costly and inefficient, as it often relies on randomly sampled interactions that are not necessarily the most informative. To address this challenge, we propose ActivePusher, a novel framework that combines residual-physics modeling with kernel-based uncertainty-driven active learning to focus data acquisition on the most informative skill parameters. Additionally, ActivePusher seamlessly integrates with model-based kinodynamic planners, leveraging uncertainty estimates to bias control sampling toward more reliable actions. We evaluate our approach in both simulation and real-world environments and demonstrate that it improves data efficiency and planning success rates compared to baseline methods.

arxiv情報

著者 Zhuoyun Zhong,Seyedali Golestaneh,Constantinos Chamzas
発行日 2025-06-05 05:28:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | ActivePusher: Active Learning and Planning with Residual Physics for Nonprehensile Manipulation はコメントを受け付けていません

Application of SDRE to Achieve Gait Control in a Bipedal Robot for Knee-Type Exoskeleton Testing

要約

外骨格は、人間の動きを支援するためにリハビリテーションおよび産業用途で広く使用されています。
ただし、外骨格の誤動作と一貫性のない動きの複製により、直接的な人間の検査はリスクをもたらします。
より安全で、より繰り返し可能なテスト環境を提供するために、この研究では、二足歩行ロボットプラットフォームを採用して人間の歩行を再現し、制御された外骨格評価を可能にします。
状態依存性Riccati方程式(SDRE)に基づく制御戦略が策定され、正確な歩行複製のための最適なトルク制御を実現します。
Bipedal Robot Dynamicsは、二重振りモデルを使用して表されます。ここでは、SDRE-Optimized Control Inputは人間の運動軌跡からの逸脱を最小限に抑えます。
運動挙動の制約に合わせるために、人間の歩行を効果的に複製しながら制御プロセスを簡素化するためにパラメーター化された制御方法が導入されます。
提案されたアプローチは、当初、ランピーの台形速度モデルを採用し、その後、モーターコマンドの上書きを介して区分的線形速度表現に適合します。
この変更により、運動ダイナミクスとの互換性を確保しながら、歩行相遷移をより細かく制御できます。
対応するコスト関数は、制御パラメーターを最適化して、SDREコントロールの結果と比較して、関節角、速度、トルクのエラーを最小限に抑えます。
運動制限に従って速度遷移を構築することにより、この方法はリアルタイム制御に関連する計算負荷を減らします。
実験結果は、人間の歩行を再現する際の提案されたパラメーター化された制御方法の実現可能性を検証します。
Bipedal Robotプラットフォームは、膝型エクソスケレトンの信頼性が高く再現可能なテストメカニズムを提供し、制御された条件下での外骨格性能に関する洞察を提供します。

要約(オリジナル)

Exoskeletons are widely used in rehabilitation and industrial applications to assist human motion. However, direct human testing poses risks due to possible exoskeleton malfunctions and inconsistent movement replication. To provide a safer and more repeatable testing environment, this study employs a bipedal robot platform to reproduce human gait, allowing for controlled exoskeleton evaluations. A control strategy based on the State-Dependent Riccati Equation (SDRE) is formulated to achieve optimal torque control for accurate gait replication. The bipedal robot dynamics are represented using double pendulum model, where SDRE-optimized control inputs minimize deviations from human motion trajectories. To align with motor behavior constraints, a parameterized control method is introduced to simplify the control process while effectively replicating human gait. The proposed approach initially adopts a ramping trapezoidal velocity model, which is then adapted into a piecewise linear velocity-time representation through motor command overwriting. This modification enables finer control over gait phase transitions while ensuring compatibility with motor dynamics. The corresponding cost function optimizes the control parameters to minimize errors in joint angles, velocities, and torques relative to SDRE control result. By structuring velocity transitions in accordance with motor limitations, the method reduce the computational load associated with real-time control. Experimental results verify the feasibility of the proposed parameterized control method in reproducing human gait. The bipedal robot platform provides a reliable and repeatable testing mechanism for knee-type exoskeletons, offering insights into exoskeleton performance under controlled conditions.

arxiv情報

著者 Ping-Kong Huang,Chien-Wu Lan,Chin-Tien Wu
発行日 2025-06-05 07:00:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, math.OC | Application of SDRE to Achieve Gait Control in a Bipedal Robot for Knee-Type Exoskeleton Testing はコメントを受け付けていません

Real-Time LPV-Based Non-Linear Model Predictive Control for Robust Trajectory Tracking in Autonomous Vehicles

要約

このペーパーでは、多様な運転条件下で自動運転車の軌跡追跡のためのモデル予測制御(MPC)フレームワークの開発と実装を紹介します。
提案されたアプローチには、状態推定、車両のダイナミクスモデリング、および最適化を統合してリアルタイムのパフォーマンスを確保するモジュラーアーキテクチャが組み込まれています。
状態空間方程式は、さまざまな(LPV)形式(LPV)形式で定式化され、さまざまな軌道の重量マトリックスを最適化するために曲率ベースのチューニング方法が導入されています。
MPCフレームワークは、状態推定と制御の最適化を並行して実行するためにロボットオペレーティングシステム(ROS)を使用して実装され、スケーラビリティと最小レイテンシを確保します。
複数の事前定義された軌跡で広範なシミュレーションとリアルタイムの実験が行われ、積極的な操作や高速条件下であっても、最小限のクロストラックと方向エラーを伴う高精度を示しました。
結果は、提案されたシステムの堅牢性と適応性を強調し、シミュレートされたパフォーマンスと実際のパフォーマンスの間のシームレスなアライメントを実現します。
この作業は、動的な重量調整と協力的な自律ナビゲーションシステムへの統合の基礎を築き、自律運転アプリケーションの安全性と効率を向上させる方法を開催しています。

要約(オリジナル)

This paper presents the development and implementation of a Model Predictive Control (MPC) framework for trajectory tracking in autonomous vehicles under diverse driving conditions. The proposed approach incorporates a modular architecture that integrates state estimation, vehicle dynamics modeling, and optimization to ensure real-time performance. The state-space equations are formulated in a Linear Parameter Varying (LPV) form, and a curvature-based tuning method is introduced to optimize weight matrices for varying trajectories. The MPC framework is implemented using the Robot Operating System (ROS) for parallel execution of state estimation and control optimization, ensuring scalability and minimal latency. Extensive simulations and real-time experiments were conducted on multiple predefined trajectories, demonstrating high accuracy with minimal cross-track and orientation errors, even under aggressive maneuvers and high-speed conditions. The results highlight the robustness and adaptability of the proposed system, achieving seamless alignment between simulated and real-world performance. This work lays the foundation for dynamic weight tuning and integration into cooperative autonomous navigation systems, paving the way for enhanced safety and efficiency in autonomous driving applications.

arxiv情報

著者 Nitish Kumar,Rajalakshmi Pachamuthu
発行日 2025-06-05 07:04:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Real-Time LPV-Based Non-Linear Model Predictive Control for Robust Trajectory Tracking in Autonomous Vehicles はコメントを受け付けていません

QueryCAD: Grounded Question Answering for CAD Models

要約

CADモデルは業界で広く使用されており、ロボット自動化プロセスに不可欠です。
ただし、これらのモデルは、情報の分析、解釈、または抽出のためにCADモデルを組み込むことを可能にする容易に利用可能な方法がないため、ロボットプログラムの自動合成など、新しいAIベースのアプローチではめったに考慮されません。
これらの制限に対処するために、CAD質問の回答用に設計された最初のシステムであるQueryCadを提案し、自然言語クエリを使用してCADモデルからの正確な情報を抽出できるようにします。
QueryCadには、パーツの説明に基づいてCADモデルの特定の部分を識別および選択するために開発したオープンボキャブラリーインスタンスセグメンテーションモデルであるSegcadが組み込まれています。
さらに、QueryCadを評価し、将来の研究の基盤を確立するために、CAD質問に応答するベンチマークを提案します。
最後に、QueryCadを自動ロボットプログラム合成フレームワークに統合し、CADモデル(https://claudius-kienle.github.com/querycad)を処理できるようにすることで、ロボット工学の深い学習ソリューションを強化する能力を検証します。

要約(オリジナル)

CAD models are widely used in industry and are essential for robotic automation processes. However, these models are rarely considered in novel AI-based approaches, such as the automatic synthesis of robot programs, as there are no readily available methods that would allow CAD models to be incorporated for the analysis, interpretation, or extraction of information. To address these limitations, we propose QueryCAD, the first system designed for CAD question answering, enabling the extraction of precise information from CAD models using natural language queries. QueryCAD incorporates SegCAD, an open-vocabulary instance segmentation model we developed to identify and select specific parts of the CAD model based on part descriptions. We further propose a CAD question answering benchmark to evaluate QueryCAD and establish a foundation for future research. Lastly, we integrate QueryCAD within an automatic robot program synthesis framework, validating its ability to enhance deep-learning solutions for robotics by enabling them to process CAD models (https://claudius-kienle.github.com/querycad).

arxiv情報

著者 Claudius Kienle,Benjamin Alt,Darko Katic,Rainer Jäkel,Jan Peters
発行日 2025-06-05 07:17:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | QueryCAD: Grounded Question Answering for CAD Models はコメントを受け付けていません

Tire Wear Aware Trajectory Tracking Control for Multi-axle Swerve-drive Autonomous Mobile Robots

要約

独立して操縦可能なホイールを備えたマルチアクスルスウェーブドライブ自律モバイルロボット(MS-AGV)は、一般的に高賃金の輸送に使用されます。
この作業では、目的関数でタイヤ摩耗最小化の考慮を必要とするMS-AGV軌道追跡のための新しいモデル予測制御(MPC)メソッドを提示します。
問題解決プロセスをスピードアップするために、階層コントローラーの設計を提案し、\ textit {Magic Formula Tire Model}と\ TextIT {Simplied Tire Wear Model}を統合することにより、動的モデルを簡素化します。
実験では、提案された方法は、通常のパーソナルコンピューターでリアルタイムでシミュレートされたアニーリングと目的関数にタイヤ摩耗を組み込むことで解決できます。タイヤ摩耗は、曲線追跡実験の追跡精度を維持しながら19.19 \%減少します。
より挑戦的なシーンでは、目的の軌道は車両の見出しから60度相殺され、タイヤ摩耗の最適化を考慮せずに、タイヤ摩耗の減少は運動学モデルと比較して65.20 \%に増加しました。

要約(オリジナル)

Multi-axle Swerve-drive Autonomous Mobile Robots (MS-AGVs) equipped with independently steerable wheels are commonly used for high-payload transportation. In this work, we present a novel model predictive control (MPC) method for MS-AGV trajectory tracking that takes tire wear minimization consideration in the objective function. To speed up the problem-solving process, we propose a hierarchical controller design and simplify the dynamic model by integrating the \textit{magic formula tire model} and \textit{simplified tire wear model}. In the experiment, the proposed method can be solved by simulated annealing in real-time on a normal personal computer and by incorporating tire wear into the objective function, tire wear is reduced by 19.19\% while maintaining the tracking accuracy in curve-tracking experiments. In the more challenging scene: the desired trajectory is offset by 60 degrees from the vehicle’s heading, the reduction in tire wear increased to 65.20\% compared to the kinematic model without considering the tire wear optimization.

arxiv情報

著者 Tianxin Hu,Xinhang Xu,Thien-Minh Nguyen,Fen Liu,Shenghai Yuan,Lihua Xie
発行日 2025-06-05 08:38:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Tire Wear Aware Trajectory Tracking Control for Multi-axle Swerve-drive Autonomous Mobile Robots はコメントを受け付けていません

MineInsight: A Multi-sensor Dataset for Humanitarian Demining Robotics in Off-Road Environments

要約

人道的脱出におけるロボット工学の使用には、地雷検出能力を改善するためのコンピュータービジョン技術がますます関与しています。
ただし、多様で現実的なデータセットがない場合、アルゴリズムの信頼できる検証は、研究コミュニティにとって依然として課題です。
このペーパーでは、オフロードの地雷検出用に設計された公開されているマルチセンサーのマルチスペクトルデータセットであるMineInsightを紹介します。
データセットには、3つの異なるトラックに沿って分布している35の異なるターゲット(15の地形と20の一般的に発見されたオブジェクト)があり、多様で現実的なテスト環境を提供します。
MineInsightは、私たちの知る限り、無人の地上車両とそのロボットアームの両方からデュアルビューセンサースキャンを統合した最初のデータセットであり、閉塞を緩和し、空間認識を改善するための複数の視点を提供します。
2つのLIDARと、可視(RGB、モノクロ)、可視短波赤外線(Viswir)、および長波赤外線(LWIR)を含む多様なスペクトル範囲でキャプチャされた画像を備えています。
さらに、データセットには、ターゲットの位置の推定が付いており、検出アルゴリズムを評価するためのベンチマークを提供します。
昼間と夜間の両方の条件で約1時間のデータを記録し、約38,000 RGBフレーム、53,000型のviswirフレーム、および108,000 LWIRフレームを記録しました。
MineInsightは、地雷検出アルゴリズムを開発および評価するためのベンチマークとして機能します。
データセットはhttps://github.com/mariomlz99/mineinsightで入手できます。

要約(オリジナル)

The use of robotics in humanitarian demining increasingly involves computer vision techniques to improve landmine detection capabilities. However, in the absence of diverse and realistic datasets, the reliable validation of algorithms remains a challenge for the research community. In this paper, we introduce MineInsight, a publicly available multi-sensor, multi-spectral dataset designed for off-road landmine detection. The dataset features 35 different targets (15 landmines and 20 commonly found objects) distributed along three distinct tracks, providing a diverse and realistic testing environment. MineInsight is, to the best of our knowledge, the first dataset to integrate dual-view sensor scans from both an Unmanned Ground Vehicle and its robotic arm, offering multiple viewpoints to mitigate occlusions and improve spatial awareness. It features two LiDARs, as well as images captured at diverse spectral ranges, including visible (RGB, monochrome), visible short-wave infrared (VIS-SWIR), and long-wave infrared (LWIR). Additionally, the dataset comes with an estimation of the location of the targets, offering a benchmark for evaluating detection algorithms. We recorded approximately one hour of data in both daylight and nighttime conditions, resulting in around 38,000 RGB frames, 53,000 VIS-SWIR frames, and 108,000 LWIR frames. MineInsight serves as a benchmark for developing and evaluating landmine detection algorithms. Our dataset is available at https://github.com/mariomlz99/MineInsight.

arxiv情報

著者 Mario Malizia,Charles Hamesse,Ken Hasselmann,Geert De Cubber,Nikolaos Tsiogkas,Eric Demeester,Rob Haelterman
発行日 2025-06-05 10:08:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | MineInsight: A Multi-sensor Dataset for Humanitarian Demining Robotics in Off-Road Environments はコメントを受け付けていません

LLMs for sensory-motor control: Combining in-context and iterative learning

要約

連続観測ベクトルを連続アクションベクトルに直接マッピングすることにより、大規模な言語モデル(LLM)が具体化されたエージェントを制御できるようにする方法を提案します。
当初、LLMSは、エージェント、その環境、および意図した目標のテキストの説明に基づいて制御戦略を生成します。
この戦略は、評価中に収集されたパフォーマンスフィードバックと感覚運動データを使用して、LLMSが現在の戦略を改善するように繰り返し促される学習プロセスを通じて繰り返し洗練されます。
この方法は、Gymnasium Libraryからの古典的な制御タスクと、Mujocoライブラリの倒立振り子タスクで検証されています。
ほとんどの場合、エージェントが環境と相互作用するときに収集されたサブシンボリック感覚運動データと推論を通じて導出された象徴的な知識を統合することにより、最適または高性能のソリューションを正常に識別します。

要約(オリジナル)

We propose a method that enables large language models (LLMs) to control embodied agents by directly mapping continuous observation vectors to continuous action vectors. Initially, the LLMs generate a control strategy based on a textual description of the agent, its environment, and the intended goal. This strategy is then iteratively refined through a learning process in which the LLMs are repeatedly prompted to improve the current strategy, using performance feedback and sensory-motor data collected during its evaluation. The method is validated on classic control tasks from the Gymnasium library and the inverted pendulum task from the MuJoCo library. In most cases, it successfully identifies optimal or high-performing solutions by integrating symbolic knowledge derived through reasoning with sub-symbolic sensory-motor data gathered as the agent interacts with its environment.

arxiv情報

著者 Jônata Tyska Carvalho,Stefano Nolfi
発行日 2025-06-05 10:38:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG, cs.RO | LLMs for sensory-motor control: Combining in-context and iterative learning はコメントを受け付けていません

Efficient Path Planning and Task Allocation Algorithm for Boolean Specifications

要約

このペーパーでは、グローバルなブール仕様を満たすはずのマルチロボットシステムの新しいパス計画およびタスク割り当てアルゴリズムを紹介します。
提案された方法は、整数線形プログラミング(ILP)製剤に基づいており、スケーラビリティと計算効率を改善するために、ペトリ網からの構造的洞察と組み合わされています。
特定のクラスの問題について、\ emph {constraint Matrix}が完全に単調(Tu)であることを証明することにより、ILPの定式化は、ソリューションの積分を失うことなく線形プログラミング(LP)問題に緩和できます。
この緩和は、複雑な組み合わせ技術を排除し、計算オーバーヘッドを大幅に削減し、大規模システムのスケーラビリティを確保します。
この論文で提案されているアプローチを使用して、最大500のロボットを構成するチームのパス計画問題を解決できます。
このメソッドは、計算の牽引性を保証し、衝突回避を処理し、反復LP最適化技術を通じて計算需要を減らします。
ケーススタディは、複雑な環境でナビゲートする大規模なロボットチームのスケーラブルで衝突のないパスを生成する際のアルゴリズムの効率を示しています。
衝突回避の保守的な性質は、追加の制約、したがって計算要件を導入しますが、ソリューションは多様なアプリケーションに実用的かつ影響を受け続けています。
このアルゴリズムは、自律的なロボットがさまざまな環境でタスクまたは検索とレスキューの操作を効率的に調整する必要がある倉庫ロジスティクスなど、実際のシナリオに特に適用できます。
この作業は、理論的および実際には、スケーラブルなマルチロボットパス計画とタスク割り当ての両方に貢献し、共有環境で自律エージェントを調整するための効率的なフレームワークを提供します。

要約(オリジナル)

This paper presents a novel path-planning and task assignment algorithm for multi-robot systems that should fulfill a global Boolean specification. The proposed method is based on Integer Linear Programming (ILP) formulations, which are combined with structural insights from Petri nets to improve scalability and computational efficiency. By proving that the \emph{constraint matrix} is totally unimodular (TU) for certain classes of problems, the ILP formulation can be relaxed into a Linear Programming (LP) problem without losing the integrality of the solution. This relaxation eliminates complex combinatorial techniques, significantly reducing computational overhead and thus ensuring scalability for large-scale systems. Using the approach proposed in this paper, we can solve path-planning problems for teams made up to 500 robots. The method guarantees computational tractability, handles collision avoidance and reduces computational demands through iterative LP optimization techniques. Case studies demonstrate the efficiency of the algorithm in generating scalable, collision-free paths for large robot teams navigating in complex environments. While the conservative nature of collision avoidance introduces additional constraints, and thus, computational requirements, the solution remains practical and impactful for diverse applications. The algorithm is particularly applicable to real-world scenarios, including warehouse logistics where autonomous robots must efficiently coordinate tasks or search-and-rescue operations in various environments. This work contributes both theoretically and practically to scalable multi-robot path planning and task allocation, offering an efficient framework for coordinating autonomous agents in shared environments.

arxiv情報

著者 Ioana Hustiu,Roozbeh Abolpour,Cristian Mahulea,Marius Kloetzer
発行日 2025-06-05 11:00:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Efficient Path Planning and Task Allocation Algorithm for Boolean Specifications はコメントを受け付けていません

ArtVIP: Articulated Digital Assets of Visual Realism, Modular Interaction, and Physical Fidelity for Robot Learning

要約

ロボット学習は、柔軟な操作や正確な相互作用などの複雑な能力を進めるためにシミュレーションにますます依存しているため、SIMからリアルのギャップを埋めるために高品質のデジタル資産を必要とします。
ただし、シミュレーションのための既存のオープンソースの明確なオブジェクトデータセットは、視覚的リアリズムが不十分であり、物理的な忠実度が低く、現実世界でロボットタスクをマスターするモデルのトレーニングの有用性を妨げます。
これらの課題に対処するために、高品質のデジタルツインアーティキュレートオブジェクトを含む包括的なオープンソースデータセットであるArtVipを紹介します。
統一された基準を順守するプロフェッショナルな3Dモデラーが作成したArtVIPは、正確な幾何学的メッシュと高解像度テクスチャを介して視覚的リアリズムを保証しますが、物理的な忠実度は微調整された動的パラメーターを介して達成されます。
一方、データセットの先駆者は、資産内およびピクセルレベルのアフォーダンス注釈内にモジュラー相互作用行動を組み込みました。
機能マップの視覚化と光学モーションキャプチャを採用して、ARTVIPの視覚的および物理的忠実度を定量的に実証し、その適用性が模倣学習と強化学習実験を通じて検証されています。
詳細な制作ガイドラインを備えたUSD形式で提供される\ oursは完全にオープンソースであり、研究コミュニティに利益をもたらし、ロボット学習研究を進めています。
私たちのプロジェクトはhttps://x-humanoid-artvip.github.io/にあります

要約(オリジナル)

Robot learning increasingly relies on simulation to advance complex ability such as dexterous manipulations and precise interactions, necessitating high-quality digital assets to bridge the sim-to-real gap. However, existing open-source articulated-object datasets for simulation are limited by insufficient visual realism and low physical fidelity, which hinder their utility for training models mastering robotic tasks in real world. To address these challenges, we introduce ArtVIP, a comprehensive open-source dataset comprising high-quality digital-twin articulated objects, accompanied by indoor-scene assets. Crafted by professional 3D modelers adhering to unified standards, ArtVIP ensures visual realism through precise geometric meshes and high-resolution textures, while physical fidelity is achieved via fine-tuned dynamic parameters. Meanwhile, the dataset pioneers embedded modular interaction behaviors within assets and pixel-level affordance annotations. Feature-map visualization and optical motion capture are employed to quantitatively demonstrate ArtVIP ‘s visual and physical fidelity, with its applicability validated across imitation learning and reinforcement learning experiments. Provided in USD format with detailed production guidelines, \ours is fully open-source, benefiting the research community and advancing robot learning research. Our project is at https://x-humanoid-artvip.github.io/

arxiv情報

著者 Zhao Jin,Zhengping Che,Zhen Zhao,Kun Wu,Yuheng Zhang,Yinuo Zhao,Zehui Liu,Qiang Zhang,Xiaozhu Ju,Jing Tian,Yousong Xue,Jian Tang
発行日 2025-06-05 12:16:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | ArtVIP: Articulated Digital Assets of Visual Realism, Modular Interaction, and Physical Fidelity for Robot Learning はコメントを受け付けていません

Navigating Motion Agents in Dynamic and Cluttered Environments through LLM Reasoning

要約

このペーパーは、動的および乱雑な環境での自律的なナビゲーションに向けて大規模な言語モデル(LLM)によって力を与えられたモーションエージェントを進め、LLMの空間的推論に関する第1および最近の独創的ではあるが限られた研究を大幅に上回ります。
具体的には、LLMSを空間的な推論者として調査して、均一にエンコードする環境(例えば、実際の屋内フロアプラン)、動的障害物である可能性のあるエージェント、および言語トークンに似た離散トークンとしてのエージェントによってLLMSを調査します。
当社のトレーニングフリーフレームワークは、再訓練や微調整なしでマルチエージェント調整、閉ループリプラン、および動的障害物回避をサポートしています。
LLMは、テキストベースのインタラクションのみを使用してエージェント、タスク、環境間で一般化し、シミュレーションと具体化されたシステムの両方で意味的に接地されたインタラクティブナビゲーションの新しい可能性を開きます。

要約(オリジナル)

This paper advances motion agents empowered by large language models (LLMs) toward autonomous navigation in dynamic and cluttered environments, significantly surpassing first and recent seminal but limited studies on LLM’s spatial reasoning, where movements are restricted in four directions in simple, static environments in the presence of only single agents much less multiple agents. Specifically, we investigate LLMs as spatial reasoners to overcome these limitations by uniformly encoding environments (e.g., real indoor floorplans), agents which can be dynamic obstacles and their paths as discrete tokens akin to language tokens. Our training-free framework supports multi-agent coordination, closed-loop replanning, and dynamic obstacle avoidance without retraining or fine-tuning. We show that LLMs can generalize across agents, tasks, and environments using only text-based interactions, opening new possibilities for semantically grounded, interactive navigation in both simulation and embodied systems.

arxiv情報

著者 Yubo Zhao,Qi Wu,Yifan Wang,Yu-Wing Tai,Chi-Keung Tang
発行日 2025-06-05 12:17:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Navigating Motion Agents in Dynamic and Cluttered Environments through LLM Reasoning はコメントを受け付けていません