A0: An Affordance-Aware Hierarchical Model for General Robotic Manipulation

要約

ロボット操作は、オブジェクトの相互作用の「「ここ」と「どのように」という空間アフォーダンスを理解する上で重要な課題に直面しています。
モジュラーベースおよびエンドツーエンドのアプローチを含む既存の方法には、多くの場合、堅牢な空間的推論機能が欠けています。
密な空間表現または軌道モデリングに焦点を当てた最近のポイントベースおよびフローベースのアフォーダンス方法とは異なり、操作タスクを高レベルの空間アフォーダンス理解と低レベルのアクション実行に分解する階層的なアフォーダンス認識拡散モデルであるA0を提案します。
A0は、コンタクトポイントと接触後の軌道を予測することにより、オブジェクト中心の空間アフォーダンスをキャプチャする具体化と存在するアフォーダンス表現を活用します。
A0は、100万個の接点データで事前に訓練され、注釈付きの軌跡で微調整されており、プラットフォーム間で一般化を可能にします。
重要なコンポーネントには、モーションアウェア機能抽出の位置オフセット注意と、正確な座標マッピングのための空間情報集約レイヤーが含まれます。
モデルの出力は、アクション実行モジュールによって実行されます。
複数のロボットシステム(Franka、Kinova、Realman、およびDobot)の実験は、複雑なタスクでA0の優れたパフォーマンスを示し、その効率、柔軟性、および実際の適用性を示しています。

要約(オリジナル)

Robotic manipulation faces critical challenges in understanding spatial affordances–the ‘where’ and ‘how’ of object interactions–essential for complex manipulation tasks like wiping a board or stacking objects. Existing methods, including modular-based and end-to-end approaches, often lack robust spatial reasoning capabilities. Unlike recent point-based and flow-based affordance methods that focus on dense spatial representations or trajectory modeling, we propose A0, a hierarchical affordance-aware diffusion model that decomposes manipulation tasks into high-level spatial affordance understanding and low-level action execution. A0 leverages the Embodiment-Agnostic Affordance Representation, which captures object-centric spatial affordances by predicting contact points and post-contact trajectories. A0 is pre-trained on 1 million contact points data and fine-tuned on annotated trajectories, enabling generalization across platforms. Key components include Position Offset Attention for motion-aware feature extraction and a Spatial Information Aggregation Layer for precise coordinate mapping. The model’s output is executed by the action execution module. Experiments on multiple robotic systems (Franka, Kinova, Realman, and Dobot) demonstrate A0’s superior performance in complex tasks, showcasing its efficiency, flexibility, and real-world applicability.

arxiv情報

著者 Rongtao Xu,Jian Zhang,Minghao Guo,Youpeng Wen,Haoting Yang,Min Lin,Jianzheng Huang,Zhe Li,Kaidong Zhang,Liqiong Wang,Yuxuan Kuang,Meng Cao,Feng Zheng,Xiaodan Liang
発行日 2025-04-17 04:45:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A0: An Affordance-Aware Hierarchical Model for General Robotic Manipulation はコメントを受け付けていません

Autonomous Drone for Dynamic Smoke Plume Tracking

要約

このペーパーでは、非常に不安定な大気条件でプルームをナビゲートおよび追跡できる新しい自律的なドローンベースの煙プルーム追跡システムを紹介します。
このシステムは、高度なハードウェアとソフトウェアと包括的なシミュレーション環境を統合して、制御された実世界の設定で堅牢なパフォーマンスを確保します。
高解像度のイメージングシステムと高度なオンボードコンピューティングユニットを備えた象限は、変動条件下で動的な煙プルームを正確に検出および追跡しながら、正確な操作を実行します。
当社のソフトウェアは、2相飛行操作を実装しています。つまり、検出時に煙の動きを継続的に監視すると、煙のプルームに降りています。
比例積分誘導症(PID)制御を活用し、近位のポリシー最適化ベースのディープ補強学習(DRL)コントローラーにより、プルームダイナミクスへの適応が可能になります。
Unreal Engineシミュレーションは、安定した流れから複雑で不安定な変動まで、さまざまな煙の風のシナリオでパフォーマンスを評価し、PIDコントローラーがより単純なシナリオで適切に機能する一方で、DRLベースのコントローラーはより挑戦的な環境で優れていることを示しています。
フィールドテストは、これらの調査結果を裏付けています。
このシステムは、山火事管理や大気質評価などの分野でドローンベースの監視の新しい可能性を開きます。
リアルタイムの意思決定のためのDRLの統合が成功すると、動的環境の自律ドローン制御が進みます。

要約(オリジナル)

This paper presents a novel autonomous drone-based smoke plume tracking system capable of navigating and tracking plumes in highly unsteady atmospheric conditions. The system integrates advanced hardware and software and a comprehensive simulation environment to ensure robust performance in controlled and real-world settings. The quadrotor, equipped with a high-resolution imaging system and an advanced onboard computing unit, performs precise maneuvers while accurately detecting and tracking dynamic smoke plumes under fluctuating conditions. Our software implements a two-phase flight operation, i.e., descending into the smoke plume upon detection and continuously monitoring the smoke movement during in-plume tracking. Leveraging Proportional Integral-Derivative (PID) control and a Proximal Policy Optimization based Deep Reinforcement Learning (DRL) controller enables adaptation to plume dynamics. Unreal Engine simulation evaluates performance under various smoke-wind scenarios, from steady flow to complex, unsteady fluctuations, showing that while the PID controller performs adequately in simpler scenarios, the DRL-based controller excels in more challenging environments. Field tests corroborate these findings. This system opens new possibilities for drone-based monitoring in areas like wildfire management and air quality assessment. The successful integration of DRL for real-time decision-making advances autonomous drone control for dynamic environments.

arxiv情報

著者 Srijan Kumar Pal,Shashank Sharma,Nikil Krishnakumar,Jiarong Hong
発行日 2025-04-17 05:50:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, physics.flu-dyn | Autonomous Drone for Dynamic Smoke Plume Tracking はコメントを受け付けていません

A Genetic Approach to Gradient-Free Kinodynamic Planning in Uneven Terrains

要約

このペーパーでは、三角メッシュとしてモデル化された不均一な地形をナビゲートする車のような車両の遺伝的アルゴリズムベースの運動力学計画アルゴリズム(GAKD)を提案します。
アルゴリズムの明確な機能は、ヒューリスティックベースの突然変異を備えた遺伝的アルゴリズムを使用して、固定長の後退地平線上の軌跡の最適化であり、車両のコントロールが有効な動作範囲内にとどまることを保証します。
Change Face Normalsなどの不均一な地形メッシュによってもたらされる課題に対処することにより、GAKDは複雑な環境でのパス計画のための実用的なソリューションを提供します。
モデル予測パス積分(MPPI)およびlog-MPPIメソッドに対する比較評価は、GAKDが同等のパス長を維持しながら、移動性コストを最大20%改善することを示しています。
これらの結果は、挑戦的な地形での車両ナビゲーションの改善におけるGAKDの可能性を示しています。

要約(オリジナル)

This paper proposes a genetic algorithm-based kinodynamic planning algorithm (GAKD) for car-like vehicles navigating uneven terrains modeled as triangular meshes. The algorithm’s distinct feature is trajectory optimization over a fixed-length receding horizon using a genetic algorithm with heuristic-based mutation, ensuring the vehicle’s controls remain within its valid operational range. By addressing challenges posed by uneven terrain meshes, such as changing face normals, GAKD offers a practical solution for path planning in complex environments. Comparative evaluations against Model Predictive Path Integral (MPPI) and log-MPPI methods show that GAKD achieves up to 20 percent improvement in traversability cost while maintaining comparable path length. These results demonstrate GAKD’s potential in improving vehicle navigation on challenging terrains.

arxiv情報

著者 Otobong Jerome,Alexandr Klimchik,Alexander Maloletov,Geesara Kulathunga
発行日 2025-04-17 06:11:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A Genetic Approach to Gradient-Free Kinodynamic Planning in Uneven Terrains はコメントを受け付けていません

Embedding high-resolution touch across robotic hands enables adaptive human-like grasping

要約

現実世界のダイナミクスに適応するロボットハンドの開発は、ロボット工学とマシンインテリジェンスにおける根本的な課題のままです。
人間の手の運動学と制御アルゴリズムの複製における大幅な進歩にもかかわらず、ロボットシステムは、主に触覚的なフィードバックが不十分なため、動的環境で人間の能力と一致するのに苦労しています。
このギャップを埋めるために、表面積の70%にわたって高解像度の触覚センシング(0.1mm空間分解能)を特徴とする生体模倣ハンドであるF-TACハンドを提示します。
最適化されたハンドデザインを通じて、あらゆる運動を維持しながら、高解像度の触覚センサーを統合する際の従来の課題を克服します。
人間のような手構成を合成する生成アルゴリズムを搭載した手は、動的な現実世界条件で堅牢な把握能力を示しています。
600の現実世界の試験にわたる広範な評価は、この触覚装置のシステムが複雑な操作タスクにおける非触覚情報の代替品を大幅に上回ることを示しています(P <0.0001)。 これらの結果は、高度なロボットインテリジェンスの開発における豊富な触覚実施形態の重要な役割の経験的証拠を提供し、身体的センシング能力とインテリジェントな行動との関係に関する新しい視点を提供します。

要約(オリジナル)

Developing robotic hands that adapt to real-world dynamics remains a fundamental challenge in robotics and machine intelligence. Despite significant advances in replicating human hand kinematics and control algorithms, robotic systems still struggle to match human capabilities in dynamic environments, primarily due to inadequate tactile feedback. To bridge this gap, we present F-TAC Hand, a biomimetic hand featuring high-resolution tactile sensing (0.1mm spatial resolution) across 70% of its surface area. Through optimized hand design, we overcome traditional challenges in integrating high-resolution tactile sensors while preserving the full range of motion. The hand, powered by our generative algorithm that synthesizes human-like hand configurations, demonstrates robust grasping capabilities in dynamic real-world conditions. Extensive evaluation across 600 real-world trials demonstrates that this tactile-embodied system significantly outperforms non-tactile-informed alternatives in complex manipulation tasks (p<0.0001). These results provide empirical evidence for the critical role of rich tactile embodiment in developing advanced robotic intelligence, offering new perspectives on the relationship between physical sensing capabilities and intelligent behavior.

arxiv情報

著者 Zihang Zhao,Wanlin Li,Yuyang Li,Tengyu Liu,Boren Li,Meng Wang,Kai Du,Hangxin Liu,Yixin Zhu,Qining Wang,Kaspar Althoefer,Song-Chun Zhu
発行日 2025-04-17 06:46:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Embedding high-resolution touch across robotic hands enables adaptive human-like grasping はコメントを受け付けていません

Embodied Neuromorphic Control Applied on a 7-DOF Robotic Manipulator

要約

環境とのリアルタイムの相互作用に対する人工知能の開発は、具体化された知性とロボット工学の重要な側面です。
逆ダイナミクスは、ロボットシステムのジョイント空間からトルク空間にマッピングする基本的なロボット工学の問題です。
それを解決するための従来の方法は、非線形性と外乱のために困難または不可能なロボットの直接的な物理モデリングに依存しています。
最近、この問題に対処するために、データベースのモデル学習アルゴリズムが採用されています。
ただし、多くの場合、手動パラメーターのチューニングと高い計算コストが必要です。
神経形態のコンピューティングは、非常に低コストでロボットモーションコントロールで時空間的特徴を処理するのに本質的に適しています。
ただし、現在の研究はまだ初期段階にあります。既存の作業は、低自由度のシステムのみを制御し、パフォーマンスの定量化と比較を欠いています。
このホワイトペーパーでは、7つのフリードームのロボットマニピュレーターを制御するための神経形成制御フレームワークを提案します。
スパイキングニューラルネットワークを使用して、モーションデータの時空間的連続性を活用して制御精度を向上させ、手動パラメーターの調整を排除します。
2つのロボットプラットフォームでアルゴリズムを検証しました。これにより、トルク予測エラーが少なくとも60%減少し、ターゲット位置追跡タスクを正常に実行します。
この作業は、概念実証から複雑な現実世界のタスクのアプリケーションに1つのステップで具体化された神経型制御を進めます。

要約(オリジナル)

The development of artificial intelligence towards real-time interaction with the environment is a key aspect of embodied intelligence and robotics. Inverse dynamics is a fundamental robotics problem, which maps from joint space to torque space of robotic systems. Traditional methods for solving it rely on direct physical modeling of robots which is difficult or even impossible due to nonlinearity and external disturbance. Recently, data-based model-learning algorithms are adopted to address this issue. However, they often require manual parameter tuning and high computational costs. Neuromorphic computing is inherently suitable to process spatiotemporal features in robot motion control at extremely low costs. However, current research is still in its infancy: existing works control only low-degree-of-freedom systems and lack performance quantification and comparison. In this paper, we propose a neuromorphic control framework to control 7 degree-of-freedom robotic manipulators. We use Spiking Neural Network to leverage the spatiotemporal continuity of the motion data to improve control accuracy, and eliminate manual parameters tuning. We validated the algorithm on two robotic platforms, which reduces torque prediction error by at least 60% and performs a target position tracking task successfully. This work advances embodied neuromorphic control by one step forward from proof of concept to applications in complex real-world tasks.

arxiv情報

著者 Ziqi Wang,Jingyue Zhao,Jichao Yang,Yaohua Wang,Xun Xiao,Yuan Li,Chao Xiao,Lei Wang
発行日 2025-04-17 07:13:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.NE, cs.RO | Embodied Neuromorphic Control Applied on a 7-DOF Robotic Manipulator はコメントを受け付けていません

Listen to Your Map: An Online Representation for Spatial Sonification

要約

ロボット認識は、ナビゲーションエイズにとって重要な技術になりつつあり、特に空間的な超音波処理を通じて視覚障害のある個人を支援しています。
このホワイトペーパーでは、物理的な空間を聴覚体験に変えるためのシーンのジオメトリを正確にキャプチャするマッピング表現を紹介します。
深さセンサーを使用して、刻々と構築された3Dシーンを、角度および距離情報を使用したコンパクトな360度表現にエンコードし、この方法で人間の聴覚空間知覚に合わせます。
提案されたフレームワークは、効率的なオンラインシーンの再構築のために、VDB-Gaussianプロセス距離フィールドを介してローカリゼーションとマッピングを実行します。
重要な側面は、センサー中心の構造であり、2D円形または3D円形のラスターベースの投影のいずれかを維持します。
この空間表現は、代表的な部屋からの単純な事前録音された応答を使用して、バイノーラル聴覚信号に変換されます。
定量的および定性的評価は、動的オブジェクトの効果的な取り扱いを伴う、他のアプローチと比較して、精度、カバレッジ、タイミング、および超音波の適合性の改善を示しています。
付随するビデオは、部屋のような環境における空間的な超音波検査を示しています。
https://tinyurl.com/listententoyourmap

要約(オリジナル)

Robotic perception is becoming a key technology for navigation aids, especially helping individuals with visual impairments through spatial sonification. This paper introduces a mapping representation that accurately captures scene geometry for sonification, turning physical spaces into auditory experiences. Using depth sensors, we encode an incrementally built 3D scene into a compact 360-degree representation with angular and distance information, aligning this way with human auditory spatial perception. The proposed framework performs localisation and mapping via VDB-Gaussian Process Distance Fields for efficient online scene reconstruction. The key aspect is a sensor-centric structure that maintains either a 2D-circular or 3D-cylindrical raster-based projection. This spatial representation is then converted into binaural auditory signals using simple pre-recorded responses from a representative room. Quantitative and qualitative evaluations show improvements in accuracy, coverage, timing and suitability for sonification compared to other approaches, with effective handling of dynamic objects as well. An accompanying video demonstrates spatial sonification in room-like environments. https://tinyurl.com/ListenToYourMap

arxiv情報

著者 Lan Wu,Craig Jin,Monisha Mushtary Uttsha,Teresa Vidal-Calleja
発行日 2025-04-17 07:23:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Listen to Your Map: An Online Representation for Spatial Sonification はコメントを受け付けていません

B*: Efficient and Optimal Base Placement for Fixed-Base Manipulators

要約

B*は、固定ベースのマニピュレーターロボット工学の重要な課題に対処する新しい最適化フレームワークである最適なベース配置です。
現在の方法は、ソリューションを検索するためにサンプリングを通じて生成された事前に計算された運動学データベースに依存しています。
ただし、サンプリング解像度を決定する際に、ソリューションの最適性と計算効率との間に固有のトレードオフに直面しています。
これらの制限に対処するために、b*はデータベース依存性なしで複数の目標を統合します。
このフレームワークは、2層の階層的アプローチを採用しています。
外層は、特にベースモビリティのために、進行性の締め付けを通じて端末の制約を体系的に管理し、実行可能な初期化と広範なソリューション探査を可能にします。
内層は、シーケンシャルの局所線形化を介して各外層層のサブ問題の非概念に対処し、元の問題を扱いやすい連続線形プログラミング(SLP)に変換します。
複数のロボットプラットフォームにまたがるテストは、B*の有効性を示しています。
このフレームワークは、完全な成功率を維持し、計算オーバーヘッドを削減しながら、サンプリングベースのアプローチよりも5桁優れたソリューションの最適性を実現します。
構成スペースで直接動作するB*は、カスタマイズ可能な最適化基準を備えた同時パス計画を有効にします。
B*は、実現可能な軌跡の存在が基本的な理論的モーション計画と実際の展開との間のギャップを埋める重要な初期化ツールとして機能します。

要約(オリジナル)

B* is a novel optimization framework that addresses a critical challenge in fixed-base manipulator robotics: optimal base placement. Current methods rely on pre-computed kinematics databases generated through sampling to search for solutions. However, they face an inherent trade-off between solution optimality and computational efficiency when determining sampling resolution. To address these limitations, B* unifies multiple objectives without database dependence. The framework employs a two-layer hierarchical approach. The outer layer systematically manages terminal constraints through progressive tightening, particularly for base mobility, enabling feasible initialization and broad solution exploration. The inner layer addresses non-convexities in each outer-layer subproblem through sequential local linearization, converting the original problem into tractable sequential linear programming (SLP). Testing across multiple robot platforms demonstrates B*’s effectiveness. The framework achieves solution optimality five orders of magnitude better than sampling-based approaches while maintaining perfect success rates and reduced computational overhead. Operating directly in configuration space, B* enables simultaneous path planning with customizable optimization criteria. B* serves as a crucial initialization tool that bridges the gap between theoretical motion planning and practical deployment, where feasible trajectory existence is fundamental.

arxiv情報

著者 Zihang Zhao,Leiyao Cui,Sirui Xie,Saiyao Zhang,Zhi Han,Lecheng Ruan,Yixin Zhu
発行日 2025-04-17 07:48:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | B*: Efficient and Optimal Base Placement for Fixed-Base Manipulators はコメントを受け付けていません

Biasing the Driving Style of an Artificial Race Driver for Online Time-Optimal Maneuver Planning

要約

この作業では、オンラインの最適な軌跡計画のための人工レースドライバー(ARD)の運転スタイルにバイアスをかけるための新しいアプローチを提示します。
当社のメソッドは、時間の最小化と計画地平線の終わりに出口速度の最大化と組み合わせた非線形モデル予測制御(MPC)フレームワークを活用します。
以前のMPCステップで計画された軌道に基づいて新しいMPC端末コストの定式化を導入し、ARDがその運転スタイルを初期の頂点からリアルタイムで操作することを可能にします。
私たちのアプローチは計算的に効率的であり、低いレプラン時間と長い計画の視野が可能になります。
シミュレーションを通じてメソッドを検証し、結果をオフラインの最小LAP-Time(MLT)最適な制御とオンライン最小時間MPCソリューションと比較します。
結果は、当社の新しいターミナルコストにより、ARDがその運転スタイルにバイアスし、MLTソリューションに近いオンラインラップ時間を最小限のMPCソリューションよりも速く実現できることを示しています。
私たちのアプローチは、人間のドライバーが早期または後期の頂点操作の選択の背後にある理由をよりよく理解するための道を開きます。

要約(オリジナル)

In this work, we present a novel approach to bias the driving style of an artificial race driver (ARD) for online time-optimal trajectory planning. Our method leverages a nonlinear model predictive control (MPC) framework that combines time minimization with exit speed maximization at the end of the planning horizon. We introduce a new MPC terminal cost formulation based on the trajectory planned in the previous MPC step, enabling ARD to adapt its driving style from early to late apex maneuvers in real-time. Our approach is computationally efficient, allowing for low replan times and long planning horizons. We validate our method through simulations, comparing the results against offline minimum-lap-time (MLT) optimal control and online minimum-time MPC solutions. The results demonstrate that our new terminal cost enables ARD to bias its driving style, and achieve online lap times close to the MLT solution and faster than the minimum-time MPC solution. Our approach paves the way for a better understanding of the reasons behind human drivers’ choice of early or late apex maneuvers.

arxiv情報

著者 Sebastiano Taddei,Mattia Piccinini,Francesco Biral
発行日 2025-04-17 08:35:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Biasing the Driving Style of an Artificial Race Driver for Online Time-Optimal Maneuver Planning はコメントを受け付けていません

ExploRLLM: Guiding Exploration in Reinforcement Learning with Large Language Models

要約

ロボットの操作では、補強学習(RL)は、特に大規模な観察スペースとアクション空間で、サンプルの効率が低く、不確実な収束に苦しむことがよくあります。
Foundation Models(FMS)は、代替品を提供し、ゼロショットと少数のショット設定で約束を示しています。
ただし、身体的および空間的理解が限られているため、それらは信頼できない場合があります。
両方のパラダイムの強度を組み合わせた方法であるExplorllmを紹介します。
私たちのアプローチでは、FMSはポリシーコードと効率的な表現を生成することによりRLの収束を改善しますが、残留RLエージェントはFMSの限られた身体的理解を補正します。
Explorllmは、テーブルトップ操作タスクのFMSベースラインとRLベースラインから派生した両方のポリシーを上回ることを示します。
さらに、実際の実験は、ポリシーが有望なゼロショットSIMからリアルへの転送を示すことを示しています。
補足資料はhttps://explorllm.github.ioで入手できます。

要約(オリジナル)

In robot manipulation, Reinforcement Learning (RL) often suffers from low sample efficiency and uncertain convergence, especially in large observation and action spaces. Foundation Models (FMs) offer an alternative, demonstrating promise in zero-shot and few-shot settings. However, they can be unreliable due to limited physical and spatial understanding. We introduce ExploRLLM, a method that combines the strengths of both paradigms. In our approach, FMs improve RL convergence by generating policy code and efficient representations, while a residual RL agent compensates for the FMs’ limited physical understanding. We show that ExploRLLM outperforms both policies derived from FMs and RL baselines in table-top manipulation tasks. Additionally, real-world experiments show that the policies exhibit promising zero-shot sim-to-real transfer. Supplementary material is available at https://explorllm.github.io.

arxiv情報

著者 Runyu Ma,Jelle Luijkx,Zlatan Ajanovic,Jens Kober
発行日 2025-04-17 08:37:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | ExploRLLM: Guiding Exploration in Reinforcement Learning with Large Language Models はコメントを受け付けていません

Trajectory Adaptation using Large Language Models

要約

より直感的でスケーラブルな人間とロボットの相互作用を実現するには、新しい状況に従って人間の指示に基づいてロボットの軌跡を適応することが不可欠です。
この作業では、RRT、A-Starなどなどの既製のモーションプランナーによって生成される一般的なロボット軌道を適応させるための柔軟な言語ベースのフレームワークを提案します。
事前に訓練されたLLMSを利用して、密集したロボット操作のポリシーとしてコードを生成し、現在の方法よりも複雑で柔軟な命令を可能にすることにより、軌道ウェイポイントを適応させます。
このアプローチにより、数値入力を含む、より広範な範囲のコマンドを組み込むことができます。
トレーニングを必要とする最先端の機能ベースのシーケンスからシーケンスモデルと比較して、この方法ではタスク固有のトレーニングを必要とせず、より大きな解釈可能性とより効果的なフィードバックメカニズムを提供します。
PybulletおよびGazebo Simulation環境のロボットマニピュレーター、航空車両、および地上ロボットに関するシミュレーション実験を通じてアプローチを検証し、LLMが複雑な人間の指示に軌跡を正常に適応させることができることを示しています。

要約(オリジナル)

Adapting robot trajectories based on human instructions as per new situations is essential for achieving more intuitive and scalable human-robot interactions. This work proposes a flexible language-based framework to adapt generic robotic trajectories produced by off-the-shelf motion planners like RRT, A-star, etc, or learned from human demonstrations. We utilize pre-trained LLMs to adapt trajectory waypoints by generating code as a policy for dense robot manipulation, enabling more complex and flexible instructions than current methods. This approach allows us to incorporate a broader range of commands, including numerical inputs. Compared to state-of-the-art feature-based sequence-to-sequence models which require training, our method does not require task-specific training and offers greater interpretability and more effective feedback mechanisms. We validate our approach through simulation experiments on the robotic manipulator, aerial vehicle, and ground robot in the Pybullet and Gazebo simulation environments, demonstrating that LLMs can successfully adapt trajectories to complex human instructions.

arxiv情報

著者 Anurag Maurya,Tashmoy Ghosh,Ravi Prakash
発行日 2025-04-17 08:48:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Trajectory Adaptation using Large Language Models はコメントを受け付けていません