APEX: Action Priors Enable Efficient Exploration for Skill Imitation on Articulated Robots

要約

模倣による学習は、ロボットが十分に規制された複雑な行動を開発し、自然なデモンストレーションから直接恩恵を受ける効果的な方法を提供します。
通常、最先端の模倣学習(IL)アプローチは、通常、敵対的な運動前(AMP)を活用します。これは、印象的な結果にもかかわらず、2つの重要な制限に苦しんでいます。
彼らはモードの崩壊を起こしやすく、それはしばしばシミュレーション環境への過剰適合につながり、したがってSIMからリアルのギャップを増加させ、彼らは多様な行動を効果的に学ぶのに苦労しています。
これらの制限を克服するために、APEX(アクションプライアーが効率的な探索を有効にする)を導入します。デモンストレーションを強化学習(RL)に直接統合するシンプルでありながら多目的な模倣学習フレームワーク(RL)を統合し、専門家に基づいたプライアーとの接地行動を維持します。
これは、最初は専門家のデモンストレーションに向けて探査をバイアスするが、ポリシーが独立して探求できるようにすることを最初に偏っている崩壊するアクションプライアーの組み合わせを通じて達成します。
これは、スタイルの一貫性とタスクパフォ​​ーマンスのバランスを効果的にバランスさせるマルチクリティックRLフレームワークによって補完されます。
私たちのアプローチは、サンプル効率の高い模倣学習を実現し、単一のポリシー内で多様なスキルを獲得することを可能にします。
Apexは、さまざまな速度に一般化し、粗い地形のナビゲートや階段の登山などの複雑なタスク全体で参照のようなスタイルを保存し、以前のフラットテレイン運動モーションデータのみを利用します。
Unitree GO2四足動物での広範なハードウェア実験を通じて、フレームワークを検証します。
そこでは、Apexは、多様で機敏な移動歩行、固有の歩行遷移、およびプラットフォームで最も高い報告速度を私たちの知識を得て生成します(ハードウェアの〜3.3 m/sのピーク速度)。
我々の結果は、Apexを既存のILメソッドに代わる説得力のある代替手段として確立し、より良い効率、適応性、および現実世界のパフォーマンスを提供します。

要約(オリジナル)

Learning by imitation provides an effective way for robots to develop well-regulated complex behaviors and directly benefit from natural demonstrations. State-of-the-art imitation learning (IL) approaches typically leverage Adversarial Motion Priors (AMP), which, despite their impressive results, suffer from two key limitations. They are prone to mode collapse, which often leads to overfitting to the simulation environment and thus increased sim-to-real gap, and they struggle to learn diverse behaviors effectively. To overcome these limitations, we introduce APEX (Action Priors enable Efficient eXploration): a simple yet versatile imitation learning framework that integrates demonstrations directly into reinforcement learning (RL), maintaining high exploration while grounding behavior with expert-informed priors. We achieve this through a combination of decaying action priors, which initially bias exploration toward expert demonstrations but gradually allow the policy to explore independently. This is complemented by a multi-critic RL framework that effectively balances stylistic consistency with task performance. Our approach achieves sample-efficient imitation learning and enables the acquisition of diverse skills within a single policy. APEX generalizes to varying velocities and preserves reference-like styles across complex tasks such as navigating rough terrain and climbing stairs, utilizing only flat-terrain kinematic motion data as a prior. We validate our framework through extensive hardware experiments on the Unitree Go2 quadruped. There, APEX yields diverse and agile locomotion gaits, inherent gait transitions, and the highest reported speed for the platform to the best of our knowledge (peak velocity of ~3.3 m/s on hardware). Our results establish APEX as a compelling alternative to existing IL methods, offering better efficiency, adaptability, and real-world performance.

arxiv情報

著者 Shivam Sood,Laukik B Nakhwa,Yuhong Cao,Sun Ge,Guillaume Sartoretti
発行日 2025-05-15 07:09:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | APEX: Action Priors Enable Efficient Exploration for Skill Imitation on Articulated Robots はコメントを受け付けていません

Fast Heuristic Scheduling and Trajectory Planning for Robotic Fruit Harvesters with Multiple Cartesian Arms

要約

この作業は、複数のデカルトロボットアームを収穫する果物の結合されたスケジューリングと軌跡計画のための高速ヒューリスティックアルゴリズムを提案しています。
私たちの方法は、ワークスペースを分割し、フルーツピッキングシーケンスをアームに割り当て、緊密で実現可能なフルーツピッキングスケジュールと車両の移動速度を決定し、滑らかで衝突のない腕の軌跡を生成します。
アルゴリズムによって達成されたフルーツピッキングスループットは、合成的に生成されたフルーツ座標と最大12個のアームを備えたハーベスターデザインを使用して評価されました。
スループットは、より多くの腕が追加されるにつれて単調に増加しました。
果物の密度が低いときに腕を追加すると、ある果物から別の果物に移動するのに時間がかかったため、利益が減少しました。
ただし、十分な果物があった場合、提案されたアルゴリズムは、アームの数が増えるにつれて線形スピードアップを達成しました。

要約(オリジナル)

This work proposes a fast heuristic algorithm for the coupled scheduling and trajectory planning of multiple Cartesian robotic arms harvesting fruits. Our method partitions the workspace, assigns fruit-picking sequences to arms, determines tight and feasible fruit-picking schedules and vehicle travel speed, and generates smooth, collision-free arm trajectories. The fruit-picking throughput achieved by the algorithm was assessed using synthetically generated fruit coordinates and a harvester design featuring up to 12 arms. The throughput increased monotonically as more arms were added. Adding more arms when fruit densities were low resulted in diminishing gains because it took longer to travel from one fruit to another. However, when there were enough fruits, the proposed algorithm achieved a linear speedup as the number of arms increased.

arxiv情報

著者 Yuankai Zhu,Stavros Vougioukas
発行日 2025-05-15 07:20:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Fast Heuristic Scheduling and Trajectory Planning for Robotic Fruit Harvesters with Multiple Cartesian Arms はコメントを受け付けていません

Evaluating Robustness of Deep Reinforcement Learning for Autonomous Surface Vehicle Control in Field Tests

要約

自律的な地表車(ASV)の深部補強学習(DRL)の大幅な進歩にもかかわらず、特に外乱の下での現実世界条件での堅牢性は、十分に調査されていないままです。
この論文では、さまざまな摂動の下で浮遊廃棄物を捕獲するように設計されたDRLベースのエージェントの回復力を評価します。
ドメインのランダム化を使用してエージェントを訓練し、現実世界のフィールドテストでのパフォーマンスを評価し、非対称の抗力や中心外のペイロードなどの予期しない妨害を処理する能力を評価します。
シミュレーションと現実世界の両方の実験の両方で、これらの摂動に基づくエージェントのパフォーマンスを評価し、パフォーマンスの劣化を定量化し、MPCベースラインに対してベンチマークを付けます。
結果は、重大な乱れにもかかわらず、DRLエージェントが確実に機能することを示しています。
実装のオープンソースリリースに加えて、DRLベースのASVコントローラーを展開するための効果的なトレーニング戦略、現実世界の課題、および実用的な考慮事項に関する洞察を提供します。

要約(オリジナル)

Despite significant advancements in Deep Reinforcement Learning (DRL) for Autonomous Surface Vehicles (ASVs), their robustness in real-world conditions, particularly under external disturbances, remains insufficiently explored. In this paper, we evaluate the resilience of a DRL-based agent designed to capture floating waste under various perturbations. We train the agent using domain randomization and evaluate its performance in real-world field tests, assessing its ability to handle unexpected disturbances such as asymmetric drag and an off-center payload. We assess the agent’s performance under these perturbations in both simulation and real-world experiments, quantifying performance degradation and benchmarking it against an MPC baseline. Results indicate that the DRL agent performs reliably despite significant disturbances. Along with the open-source release of our implementation, we provide insights into effective training strategies, real-world challenges, and practical considerations for deploying DRLbased ASV controllers.

arxiv情報

著者 Luis F. W. Batista,Stéphanie Aravecchia,Seth Hutchinson,Cédric Pradalier
発行日 2025-05-15 07:29:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Evaluating Robustness of Deep Reinforcement Learning for Autonomous Surface Vehicle Control in Field Tests はコメントを受け付けていません

Temporal Triplane Transformers as Occupancy World Models

要約

世界モデルは、将来のシーンの予測を可能にする環境の表現を学習または構築し、それによってインテリジェントなモーション計画をサポートすることを目的としています。
ただし、既存のモデルはしばしば、きめの細かい予測を作成し、リアルタイムで動作するのに苦労しています。
この作業では、自律運転のための新しい4D占有世界モデルであるT $^3 $ ersを提案します。
T $^3 $前者は、3D占有を効率的にエンコードするコンパクトな{\ em Triplane}表現を事前にトレーニングすることから始まります。
次に、歴史的なトリプランからマルチスケールの時間運動機能を抽出し、将来のトリプレーンの変化を繰り返し予測するための自己回帰アプローチを採用します。
最後に、これらのトリプルの変更は以前の状態と組み合わされて、将来の占有率と自我モーションの軌跡を解読します。
実験結果は、t $^3 $前の前者が1.44 $ \ Times $ speedup(26 fps)を達成し、平均IOUを36.09に改善し、平均絶対計画誤差を1.0メートルに減らすことを示しています。
デモは補足資料で利用できます。

要約(オリジナル)

World models aim to learn or construct representations of the environment that enable the prediction of future scenes, thereby supporting intelligent motion planning. However, existing models often struggle to produce fine-grained predictions and to operate in real time. In this work, we propose T$^3$Former, a novel 4D occupancy world model for autonomous driving. T$^3$Former begins by pre-training a compact {\em triplane} representation that efficiently encodes 3D occupancy. It then extracts multi-scale temporal motion features from historical triplanes and employs an autoregressive approach to iteratively predict future triplane changes. Finally, these triplane changes are combined with previous states to decode future occupancy and ego-motion trajectories. Experimental results show that T$^3$Former achieves 1.44$\times$ speedup (26 FPS), improves mean IoU to 36.09, and reduces mean absolute planning error to 1.0 meters. Demos are available in the supplementary material.

arxiv情報

著者 Haoran Xu,Peixi Peng,Guang Tan,Yiqian Chang,Yisen Zhao,Yonghong Tian
発行日 2025-05-15 08:04:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Temporal Triplane Transformers as Occupancy World Models はコメントを受け付けていません

Multi-Robot Task Allocation for Homogeneous Tasks with Collision Avoidance via Spatial Clustering

要約

この論文では、産業環境で行われている均質な測定タスクに関するマルチロボットタスク割り当て(MRTA)と衝突回避に基づいた結合ソリューションを実現する新しいフレームワークを提示します。
私たちが提案する空間クラスタリングは、タスク割り当ての問題を同時に解決し、各ロボットの識別可能な運用ゾーンにワークスペースをカットすることにより、衝突リスクに対処することを提案します。
タスクサイトを分割し、対応するクラスター内のロボットルートをスケジュールするには、K-Meansクラスタリングと2-OPTアルゴリズムを使用します。
提示されたフレームワークは満足のいくパフォーマンスを示しています。このパフォーマンスでは、最大93%の時間削減(17.62Sに対して1.24S)で、最適なパフォーマンス方法と比較して最大7 \%のソリューション品質改善が示されています。
また、私たちの方法は、最も重要な意味で比較方法に持続する衝突点を完全に排除します。
理論分析は、空間的な分割は、まばらな地理的領域に分配される多くの同一のタスクの条件下で、明らかにばらばらのタスクの割り当てと衝突回避の問題を統一するという主張に同意します。
最終的に、この作業の調査結果は、衝突のない計算効率と操作の両方が最も重要である現実世界のアプリケーションにとって非常に重要です。

要約(オリジナル)

In this paper, a novel framework is presented that achieves a combined solution based on Multi-Robot Task Allocation (MRTA) and collision avoidance with respect to homogeneous measurement tasks taking place in industrial environments. The spatial clustering we propose offers to simultaneously solve the task allocation problem and deal with collision risks by cutting the workspace into distinguishable operational zones for each robot. To divide task sites and to schedule robot routes within corresponding clusters, we use K-means clustering and the 2-Opt algorithm. The presented framework shows satisfactory performance, where up to 93\% time reduction (1.24s against 17.62s) with a solution quality improvement of up to 7\% compared to the best performing method is demonstrated. Our method also completely eliminates collision points that persist in comparative methods in a most significant sense. Theoretical analysis agrees with the claim that spatial partitioning unifies the apparently disjoint tasks allocation and collision avoidance problems under conditions of many identical tasks to be distributed over sparse geographical areas. Ultimately, the findings in this work are of substantial importance for real world applications where both computational efficiency and operation free from collisions is of paramount importance.

arxiv情報

著者 Rathin Chandra Shit,Sharmila Subudhi
発行日 2025-05-15 08:20:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Multi-Robot Task Allocation for Homogeneous Tasks with Collision Avoidance via Spatial Clustering はコメントを受け付けていません

FlowDreamer: A RGB-D World Model with Flow-based Motion Representations for Robot Manipulation

要約

このペーパーでは、ロボット操作のためのより良い視覚世界モデル、つまり過去のフレームやロボットアクションを条件付けて将来の視覚観測を予測できるモデルを調査します。
具体的には、RGB-Dフレーム(RGB-Dワールドモデル)で動作する世界モデルを検討します。
ダイナミクスの予測を主に暗黙的に処理し、単一のモデルで視覚レンダリングと調整する標準的なアプローチとは対照的に、3Dシーンフローを明示的なモーション表現として採用するFlowDreamerを紹介します。
FlowDreamerは、最初にU-NETを使用して過去のフレームとアクション条件からの3Dシーンフローを予測し、次に拡散モデルはシーンフローを利用して将来のフレームを予測します。
FlowDreamerは、モジュール化された性質にもかかわらずエンドツーエンドのトレーニングを受けています。
4つの異なるベンチマークで実験を行い、ビデオ予測と視覚計画の両方のタスクの両方をカバーします。
結果は、FlowDreamerが他のベースラインRGB-Dワールドモデルと比較して、セマンティックの類似性で7%、ピクセル品質で11%、さまざまなロボット操作ドメインの成功率で6%を達成することを示しています。

要約(オリジナル)

This paper investigates training better visual world models for robot manipulation, i.e., models that can predict future visual observations by conditioning on past frames and robot actions. Specifically, we consider world models that operate on RGB-D frames (RGB-D world models). As opposed to canonical approaches that handle dynamics prediction mostly implicitly and reconcile it with visual rendering in a single model, we introduce FlowDreamer, which adopts 3D scene flow as explicit motion representations. FlowDreamer first predicts 3D scene flow from past frame and action conditions with a U-Net, and then a diffusion model will predict the future frame utilizing the scene flow. FlowDreamer is trained end-to-end despite its modularized nature. We conduct experiments on 4 different benchmarks, covering both video prediction and visual planning tasks. The results demonstrate that FlowDreamer achieves better performance compared to other baseline RGB-D world models by 7% on semantic similarity, 11% on pixel quality, and 6% on success rate in various robot manipulation domains.

arxiv情報

著者 Jun Guo,Xiaojian Ma,Yikai Wang,Min Yang,Huaping Liu,Qing Li
発行日 2025-05-15 08:27:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | FlowDreamer: A RGB-D World Model with Flow-based Motion Representations for Robot Manipulation はコメントを受け付けていません

EmbodiedMAE: A Unified 3D Multi-Modal Representation for Robot Manipulation

要約

ロボット操作のための統一された3Dマルチモーダル表現であるEmbodiedmaeを提示します。
現在のアプローチには、トレーニングデータセットとロボット操作タスクの間の重要なドメインギャップがあり、3D情報を効果的に組み込むことができるモデルアーキテクチャもありません。
これらの制限を克服するために、高品質の深度マップとポイントクラウドでドロイドデータセットを強化し、3D具体化されたビジョン研究の貴重なサプリメントとしてDroid-3Dを構築します。
次に、確率的マスキングとクロスモーダル融合を通じてRGB、深さ、およびポイントクラウドモダリティ全体の表現を同時に学習するマルチモーダルマスク自動エンコーダーであるEmpodiedmaeを開発します。
DROID-3DでトレーニングされたEmbodiedmaeは、70のシミュレーションタスクと2つのロボットプラットフォームでの20の実世界のロボット操作タスクにわたるトレーニング効率と最終パフォーマンスの両方で、最先端のビジョンファンデーションモデル(VFM)よりも一貫して優れています。
このモデルは、サイズで強力なスケーリング動作を示し、3D入力からの効果的なポリシー学習を促進します。
実験結果は、特に空間知覚が重要な正確な卓上操作設定で、具体化されたAIシステムの信頼できる統一された3DマルチモーダルVFMとして具体化されたものを確立します。

要約(オリジナル)

We present EmbodiedMAE, a unified 3D multi-modal representation for robot manipulation. Current approaches suffer from significant domain gaps between training datasets and robot manipulation tasks, while also lacking model architectures that can effectively incorporate 3D information. To overcome these limitations, we enhance the DROID dataset with high-quality depth maps and point clouds, constructing DROID-3D as a valuable supplement for 3D embodied vision research. Then we develop EmbodiedMAE, a multi-modal masked autoencoder that simultaneously learns representations across RGB, depth, and point cloud modalities through stochastic masking and cross-modal fusion. Trained on DROID-3D, EmbodiedMAE consistently outperforms state-of-the-art vision foundation models (VFMs) in both training efficiency and final performance across 70 simulation tasks and 20 real-world robot manipulation tasks on two robot platforms. The model exhibits strong scaling behavior with size and promotes effective policy learning from 3D inputs. Experimental results establish EmbodiedMAE as a reliable unified 3D multi-modal VFM for embodied AI systems, particularly in precise tabletop manipulation settings where spatial perception is critical.

arxiv情報

著者 Zibin Dong,Fei Ni,Yifu Yuan,Yinchuan Li,Jianye Hao
発行日 2025-05-15 09:12:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | EmbodiedMAE: A Unified 3D Multi-Modal Representation for Robot Manipulation はコメントを受け付けていません

Training People to Reward Robots

要約

デモンストレーション(LFD)から学ぶことは、専門家の教師がロボットシステムにタスク指向のスキルを教えることができる手法です。
ただし、特定の教育タスクのために初心者の教師に専門家レベルのデモンストレーションに定量的にアプローチするように導く最も効果的な方法は、未解決の問題です。
この目的のために、このペーパーでは、デモンストレーションからの強化学習(RLFD)に基づいて、初心者の教師が教育スキルを向上させるために、マシンティーチング(MT)の使用を調査します。
この論文は、初心者がMT由来のガイダンスを受けて、特定のモータースキルを8つのデモンストレーションで教える能力を訓練し、これを以前に見えなかったものに一般化する実験を報告しています。
結果は、MT調節により、トレーニングスキルのロボット学習パフォーマンスが89%増加するだけでなく、トレーニング中に被験者が見ていないスキルのロボット学習パフォーマンスを70%改善することも示しています。
これらの発見は、人間の教育行動を拡張することにおけるMT調節の有効性を強調し、最終的にRLFDのデモの質を向上させます。

要約(オリジナル)

Learning from demonstration (LfD) is a technique that allows expert teachers to teach task-oriented skills to robotic systems. However, the most effective way of guiding novice teachers to approach expert-level demonstrations quantitatively for specific teaching tasks remains an open question. To this end, this paper investigates the use of machine teaching (MT) to guide novice teachers to improve their teaching skills based on reinforcement learning from demonstration (RLfD). The paper reports an experiment in which novices receive MT-derived guidance to train their ability to teach a given motor skill with only 8 demonstrations and generalise this to previously unseen ones. Results indicate that the MT-guidance not only enhances robot learning performance by 89% on the training skill but also causes a 70% improvement in robot learning performance on skills not seen by subjects during training. These findings highlight the effectiveness of MT-guidance in upskilling human teaching behaviours, ultimately improving demonstration quality in RLfD.

arxiv情報

著者 Endong Sun,Yuqing Zhu,Matthew Howard
発行日 2025-05-15 10:23:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Training People to Reward Robots はコメントを受け付けていません

UniVLA: Learning to Act Anywhere with Task-centric Latent Actions

要約

ジェネラリストのロボットは、さまざまな環境で効果的に機能する必要があります。
ただし、ほとんどの既存のアプローチは、アクションが発表したデータのスケーリングに大きく依存して機能を強化しています。
その結果、それらは多くの場合、単一の物理的仕様に限定され、さまざまな実施形態と環境で移転可能な知識を学ぶのに苦労します。
これらの制限に立ち向かうために、クロスエンボジメントビジョン言語アクション(VLA)ポリシーを学習するための新しいフレームワークであるUnivlaを提案します。
私たちの重要な革新は、潜在的なアクションモデルを使用したビデオからタスク中心のアクション表現を導き出すことです。
これにより、幅広い実施形態と視点で広範なデータを活用することができます。
タスクに関係なくダイナミクスの効果を緩和するために、言語の指示を組み込み、Dino機能空間内に潜在アクションモデルを確立します。
インターネット規模のビデオから学んだのは、ジェネラリストのポリシーを効率的な潜在アクションデコードを通じてさまざまなロボットに展開できます。
複数の操作およびナビゲーションベンチマーク、および実際のロボット展開で最先端の結果を取得します。
Univlaは、OpenVLAよりも優れたパフォーマンスを達成し、1/20未満のプレイトレーニング計算と1/10のダウンストリームデータを獲得しています。
継続的なパフォーマンスの改善は、人間のビデオを含めても、トレーニングパイプラインに組み込まれている不均一なデータとして観察されます。
結果は、スケーラブルで効率的なロボットポリシー学習を促進するUnivlaの可能性を強調しています。

要約(オリジナル)

A generalist robot should perform effectively across various environments. However, most existing approaches heavily rely on scaling action-annotated data to enhance their capabilities. Consequently, they are often limited to single physical specification and struggle to learn transferable knowledge across different embodiments and environments. To confront these limitations, we propose UniVLA, a new framework for learning cross-embodiment vision-language-action (VLA) policies. Our key innovation is to derive task-centric action representations from videos with a latent action model. This enables us to exploit extensive data across a wide spectrum of embodiments and perspectives. To mitigate the effect of task-irrelevant dynamics, we incorporate language instructions and establish a latent action model within the DINO feature space. Learned from internet-scale videos, the generalist policy can be deployed to various robots through efficient latent action decoding. We obtain state-of-the-art results across multiple manipulation and navigation benchmarks, as well as real-robot deployments. UniVLA achieves superior performance over OpenVLA with less than 1/20 of pretraining compute and 1/10 of downstream data. Continuous performance improvements are observed as heterogeneous data, even including human videos, are incorporated into the training pipeline. The results underscore UniVLA’s potential to facilitate scalable and efficient robot policy learning.

arxiv情報

著者 Qingwen Bu,Yanting Yang,Jisong Cai,Shenyuan Gao,Guanghui Ren,Maoqing Yao,Ping Luo,Hongyang Li
発行日 2025-05-15 10:31:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | UniVLA: Learning to Act Anywhere with Task-centric Latent Actions はコメントを受け付けていません

LLM A*: Human in the Loop Large Language Models Enabled A* Search for Robotics

要約

この研究では、ロボットなどのモバイル具体化されたエージェントの(ループ中の人間でインタラクティブな方法で(PATH)計画にどのように役立つか)に焦点を当てています。
LLM A*という名前の新しいフレームワークは、LLMSの常識を活用することを目的としており、最適に近い少数のパス計画を促進するために、ユーティリティ最適なA*が提案されています。
プロンプトは、2つの主な目的に使用されます。1)LLMSに環境、コスト、ヒューリスティックなどなどの重要な情報を提供する。
2)中間計画結果に関する人間のフィードバックをLLMSに伝える。
このアプローチは、人間のフィードバックを搭載し、計画プロセス全体を人間に透明にします(「白い箱」に似ています)。
さらに、コードフリーのパス計画を容易にし、それにより、コーディングに習熟していないコミュニティに対する人工知能技術のアクセシビリティと包括性を促進します。
A*およびRLに対する比較分析は、LLM A*が検索スペースに関してより大きな効率を示し、A*に匹敵するパスを達成しながらRLを上回ることを示しています。
LLM A*のインタラクティブな性質により、共同のヒューマンロボットタスクに展開するための有望なツールになります。
コードと補足資料は、github:https://github.com/speedhawk/llm-a-にあります。

要約(オリジナル)

This research focuses on how Large Language Models (LLMs) can help with (path) planning for mobile embodied agents such as robots, in a human-in-the-loop and interactive manner. A novel framework named LLM A*, aims to leverage the commonsense of LLMs, and the utility-optimal A* is proposed to facilitate few-shot near-optimal path planning. Prompts are used for two main purposes: 1) to provide LLMs with essential information like environments, costs, heuristics, etc.; 2) to communicate human feedback on intermediate planning results to LLMs. This approach takes human feedback on board and renders the entire planning process transparent (akin to a `white box’) to humans. Moreover, it facilitates code-free path planning, thereby fostering the accessibility and inclusiveness of artificial intelligence techniques to communities less proficient in coding. Comparative analysis against A* and RL demonstrates that LLM A* exhibits greater efficiency in terms of search space and achieves paths comparable to A* while outperforming RL. The interactive nature of LLM A* also makes it a promising tool for deployment in collaborative human-robot tasks. Codes and Supplemental Materials can be found at GitHub: https://github.com/speedhawk/LLM-A-.

arxiv情報

著者 Hengjia Xiao,Peng Wang,Mingzhe Yu,Mattia Robbiani
発行日 2025-05-15 11:25:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.RO | LLM A*: Human in the Loop Large Language Models Enabled A* Search for Robotics はコメントを受け付けていません