Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation

要約

複雑な長老のロボット操作の問題を解決するには、洗練された高レベルの計画能力、物理的世界について推論する能力、および適切な運動能力を反応的に選択する能力が必要です。
インターネットデータで前処理されたビジョン言語モデル(VLM)は、原則として、このような問題に取り組むためのフレームワークを提供する可能性があります。
ただし、現在の形式では、VLMはロボット操作に必要な複雑な物理学の微妙な理解と、エラーの複合問題に対処するために長い視野を超えて推論する能力の両方に欠けています。
この論文では、マルチステージ操作タスクのVLMSの物理的推論機能を強化する新しいテスト時間計算フレームワークを紹介します。
そのアプローチでは、私たちのアプローチは、「反射」メカニズムを備えた前提条件のVLMを繰り返し改善します。生成モデルを使用して、将来の世界状態を想像し、これらの予測を活用してアクション選択を導き、潜在的な亜極性を批判的に反映して推論を改善します。
実験結果は、私たちの方法が、いくつかの最先端の商用VLMと、モンテカルロツリー検索(MCTS)などの他のトレーニング後のアプローチを大幅に上回ることを示しています。
ビデオはhttps://reflect-vlm.github.ioで入手できます。

要約(オリジナル)

Solving complex long-horizon robotic manipulation problems requires sophisticated high-level planning capabilities, the ability to reason about the physical world, and reactively choose appropriate motor skills. Vision-language models (VLMs) pretrained on Internet data could in principle offer a framework for tackling such problems. However, in their current form, VLMs lack both the nuanced understanding of intricate physics required for robotic manipulation and the ability to reason over long horizons to address error compounding issues. In this paper, we introduce a novel test-time computation framework that enhances VLMs’ physical reasoning capabilities for multi-stage manipulation tasks. At its core, our approach iteratively improves a pretrained VLM with a ‘reflection’ mechanism – it uses a generative model to imagine future world states, leverages these predictions to guide action selection, and critically reflects on potential suboptimalities to refine its reasoning. Experimental results demonstrate that our method significantly outperforms several state-of-the-art commercial VLMs as well as other post-training approaches such as Monte Carlo Tree Search (MCTS). Videos are available at https://reflect-vlm.github.io.

arxiv情報

著者 Yunhai Feng,Jiaming Han,Zhuoran Yang,Xiangyu Yue,Sergey Levine,Jianlan Luo
発行日 2025-02-23 20:42:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation はコメントを受け付けていません

NatSGLD: A Dataset with Speech, Gesture, Logic, and Demonstration for Robot Learning in Natural Human-Robot Interaction

要約

マルチモーダルヒューマンロボット相互作用(HRI)データセットの最近の進歩は、音声とジェスチャーの統合を強調し、ロボットが明示的な知識と暗黙の理解を吸収できるようにします。
ただし、既存のデータセットは、主にオブジェクトの指してプッシュするなどの基本タスクに焦点を当てており、複雑なドメインへの適用性を制限しています。
彼らはより単純な人間のコマンドデータに優先順位を付けますが、ロボットのトレーニングにあまり重点を置いて、タスクを正しく解釈し、適切に対応します。
これらのギャップに対処するために、NATSGLDデータセットを提示します。NATSGLDデータセットは、Wizard of OZ(WOZ)メソッドを使用して収集され、参加者は自律的であると考えられていたロボットと対話しました。
Natsgldは、それぞれが指揮されたタスクの根本的な解釈を提供するデモンストレーション軌跡と線形時間論的論理(LTL)式とペアになった人間のマルチモーダルコマンド(音声とジェスチャー)を記録します。
このデータセットは、HRIと機械学習の交差点での研究の基礎リソースとして機能します。
マルチモーダル入力と詳細な注釈を提供することにより、NATSGLDは、デモンストレーションからのマルチモーダル指導、計画認識、人間に恵まれた強化学習などの分野での探索を可能にします。
https://www.snehesh.com/natsgld/のMITライセンスの下でデータセットとコードをリリースして、将来のHRI研究をサポートします。

要約(オリジナル)

Recent advances in multimodal Human-Robot Interaction (HRI) datasets emphasize the integration of speech and gestures, allowing robots to absorb explicit knowledge and tacit understanding. However, existing datasets primarily focus on elementary tasks like object pointing and pushing, limiting their applicability to complex domains. They prioritize simpler human command data but place less emphasis on training robots to correctly interpret tasks and respond appropriately. To address these gaps, we present the NatSGLD dataset, which was collected using a Wizard of Oz (WoZ) method, where participants interacted with a robot they believed to be autonomous. NatSGLD records humans’ multimodal commands (speech and gestures), each paired with a demonstration trajectory and a Linear Temporal Logic (LTL) formula that provides a ground-truth interpretation of the commanded tasks. This dataset serves as a foundational resource for research at the intersection of HRI and machine learning. By providing multimodal inputs and detailed annotations, NatSGLD enables exploration in areas such as multimodal instruction following, plan recognition, and human-advisable reinforcement learning from demonstrations. We release the dataset and code under the MIT License at https://www.snehesh.com/natsgld/ to support future HRI research.

arxiv情報

著者 Snehesh Shrestha,Yantian Zha,Saketh Banagiri,Ge Gao,Yiannis Aloimonos,Cornelia Fermüller
発行日 2025-02-23 21:27:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | NatSGLD: A Dataset with Speech, Gesture, Logic, and Demonstration for Robot Learning in Natural Human-Robot Interaction はコメントを受け付けていません

Online Friction Coefficient Identification for Legged Robots on Slippery Terrain Using Smoothed Contact Gradients

要約

このペーパーでは、滑りやすい地形上の脚のあるロボットのオンライン摩擦係数識別フレームワークを提案します。
このアプローチでは、最適化問題を定式化して、剛体接触ダイナミクスの摩擦係数によってパラメーター化された実際の状態と予測状態の間の残差の合計を最小化します。
特に、提案されたフレームワークは、クーロン摩擦の相補性条件を滑らかにすることで得られる接触衝動の分析的平滑化勾配を活用して、非微細な接触ダイナミクスから誘導される非情報勾配の問題を解決します。
さらに、脚のロボットの摩擦係数識別中に接触係数を開始した後、高い正常接触速度でデータを除外する拒絶方法を導入します。
提案されたフレームワークを検証するために、滑りやすい地形で四角いロボットプラットフォームであるKaist Houndを使用して実験を実施します。
私たちのフレームワークは、さまざまな初期条件内で迅速かつ一貫した摩擦係数の識別を実現することを観察します。

要約(オリジナル)

This paper proposes an online friction coefficient identification framework for legged robots on slippery terrain. The approach formulates the optimization problem to minimize the sum of residuals between actual and predicted states parameterized by the friction coefficient in rigid body contact dynamics. Notably, the proposed framework leverages the analytic smoothed gradient of contact impulses, obtained by smoothing the complementarity condition of Coulomb friction, to solve the issue of non-informative gradients induced from the nonsmooth contact dynamics. Moreover, we introduce the rejection method to filter out data with high normal contact velocity following contact initiations during friction coefficient identification for legged robots. To validate the proposed framework, we conduct the experiments using a quadrupedal robot platform, KAIST HOUND, on slippery and nonslippery terrain. We observe that our framework achieves fast and consistent friction coefficient identification within various initial conditions.

arxiv情報

著者 Hajun Kim,Dongyun Kang,Min-Gyu Kim,Gijeong Kim,Hae-Won Park
発行日 2025-02-24 05:01:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Online Friction Coefficient Identification for Legged Robots on Slippery Terrain Using Smoothed Contact Gradients はコメントを受け付けていません

Characterizing Structured versus Unstructured Environments based on Pedestrians’ and Vehicles’ Motion Trajectories

要約

互いに近くで動作する歩行者と車両の軌道行動は、構造化された環境と比較して構造化されていない場合に異なる場合があります。
動きの動作のこれらの違いは、自律型車両の軌跡予測アルゴリズムで考慮することが価値があります。
ただし、軌道予測のベンチマークとして一般的に使用される歩行者および車両の軌跡で利用可能なデータセットは、環境の性質に基づいて分類されていません。
一方、構造化されていない構造化された環境に提供される定義は、かなり定性的であり、特定の環境のタイプを正当化するために使用するのが困難です。
この論文では、平均速度や軌跡の変動など、抽出された軌道機能のいくつかに基づいて、異なる既存のデータセットを比較しました。
K-meansクラスタリングと一般化された線形モデルを通じて、2つの異なるタイプの環境を区別するためのより定量的な測定を提案します。
我々の結果は、軌道の変動、歩行者の停止分数、密度などの機能が2つの環境タイプで異なり、既存のデータセットを分類するために使用できることを示しています。

要約(オリジナル)

Trajectory behaviours of pedestrians and vehicles operating close to each other can be different in unstructured compared to structured environments. These differences in the motion behaviour are valuable to be considered in the trajectory prediction algorithm of an autonomous vehicle. However, the available datasets on pedestrians’ and vehicles’ trajectories that are commonly used as benchmarks for trajectory prediction have not been classified based on the nature of their environment. On the other hand, the definitions provided for unstructured and structured environments are rather qualitative and hard to be used for justifying the type of a given environment. In this paper, we have compared different existing datasets based on a couple of extracted trajectory features, such as mean speed and trajectory variability. Through K-means clustering and generalized linear models, we propose more quantitative measures for distinguishing the two different types of environments. Our results show that features such as trajectory variability, stop fraction and density of pedestrians are different among the two environmental types and can be used to classify the existing datasets.

arxiv情報

著者 Mahsa Golchoubian,Moojan Ghafurian,Nasser Lashgarian Azad,Kerstin Dautenhahn
発行日 2025-02-24 05:09:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Characterizing Structured versus Unstructured Environments based on Pedestrians’ and Vehicles’ Motion Trajectories はコメントを受け付けていません

SLABIM: A SLAM-BIM Coupled Dataset in HKUST Main Building

要約

既存の屋内スラムデータセットは主にロボットセンシングに焦点を当てており、多くの場合、建物の建築物がありません。
このギャップに対処するために、最初のデータセットを設計および構築して、Slabimという名前のSlamとBimを結合します。
このデータセットは、BIMとSLAM指向のセンサーデータを提供し、どちらもHKUSTの大学の建物をモデリングします。
設計されたBIMは分解され、使いやすく変換されます。
マルチセッションデータ収集とマッピングにマルチセンサースイートを使用して、構築されたモデルを取得しています。
関連するすべてのデータはタイムスタンプおよび整理されているため、ユーザーが効果的に展開およびテストできるようになります。
さらに、高度な方法を展開し、登録、ローカリゼーション、セマンティックマッピングの3つのタスクで実験結果を報告し、スラビムの有効性と実用性を実証します。
https://github.com/hkust-aerial-robotics/slabimでデータセットをオープンソースにします。

要約(オリジナル)

Existing indoor SLAM datasets primarily focus on robot sensing, often lacking building architectures. To address this gap, we design and construct the first dataset to couple the SLAM and BIM, named SLABIM. This dataset provides BIM and SLAM-oriented sensor data, both modeling a university building at HKUST. The as-designed BIM is decomposed and converted for ease of use. We employ a multi-sensor suite for multi-session data collection and mapping to obtain the as-built model. All the related data are timestamped and organized, enabling users to deploy and test effectively. Furthermore, we deploy advanced methods and report the experimental results on three tasks: registration, localization and semantic mapping, demonstrating the effectiveness and practicality of SLABIM. We make our dataset open-source at https://github.com/HKUST-Aerial-Robotics/SLABIM.

arxiv情報

著者 Haoming Huang,Zhijian Qiao,Zehuan Yu,Chuhao Liu,Shaojie Shen,Fumin Zhang,Huan Yin
発行日 2025-02-24 05:30:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SLABIM: A SLAM-BIM Coupled Dataset in HKUST Main Building はコメントを受け付けていません

Leveraging Large Language Models for Effective and Explainable Multi-Agent Credit Assignment

要約

自律的な車両の調整から空間内アセンブリに至るまでの最近の研究は、ロボットが共有目標を達成できるようにするための共同行動を学ぶことの重要性を示しています。
この協力的な行動を学ぶための一般的なアプローチは、集中訓練の分散化された解釈パラダイムを利用することです。
ただし、このアプローチでは、新しい課題も紹介されています。各エージェントの行動がチームの全体的な成功または失敗に貢献することを評価する方法です。
このクレジットの割り当ての問題は未開拓のままであり、マルチエージェントの強化学習文献で広く研究されています。
実際、エージェントの行動を手動で検査する人間は、既存の方法よりも優れた信用評価を生成することがよくあります。
この観察結果と、多くのパターン認識タスクで大きな言語モデルが人間レベルのパフォーマンスを示していることを示す最近の作品と組み合わせることができます。
私たちの重要なアイデアは、シーケンスの改善と帰属の2つのパターン認識問題へのクレジット割り当てを再定式化することです。これは、私たちの新しいLLM-MCAメソッドを動機付けています。
私たちのアプローチは、シナリオでの各エージェントの個別の貢献に基づいて環境報酬を数値的に分解する集中化されたLLM報酬criticを利用しています。
次に、このフィードバックに基づいてエージェントのポリシーネットワークを更新します。
また、LLM批評家がシナリオで各エージェントポリシーに直接中間目標を渡すことにより、LLM批評家が明示的なタスク割り当てを実行する拡張LLM-TACAを提案します。
どちらの方法でも、レベルベースの採餌、ロボット倉庫、衝突関連の安全性の制約を組み込んだ新しいSpaceworldベンチマークなど、さまざまなベンチマークで最先端のベンチマークをはるかに上回っています。
メソッドのアーティファクトとして、LLMの批評家からサンプリングされたように、エージェントごとの報酬情報が注釈された各タイムステップを使用して、大きな軌跡データセットを生成します。

要約(オリジナル)

Recent work, spanning from autonomous vehicle coordination to in-space assembly, has shown the importance of learning collaborative behavior for enabling robots to achieve shared goals. A common approach for learning this cooperative behavior is to utilize the centralized-training decentralized-execution paradigm. However, this approach also introduces a new challenge: how do we evaluate the contributions of each agent’s actions to the overall success or failure of the team. This credit assignment problem has remained open, and has been extensively studied in the Multi-Agent Reinforcement Learning literature. In fact, humans manually inspecting agent behavior often generate better credit evaluations than existing methods. We combine this observation with recent works which show Large Language Models demonstrate human-level performance at many pattern recognition tasks. Our key idea is to reformulate credit assignment to the two pattern recognition problems of sequence improvement and attribution, which motivates our novel LLM-MCA method. Our approach utilizes a centralized LLM reward-critic which numerically decomposes the environment reward based on the individualized contribution of each agent in the scenario. We then update the agents’ policy networks based on this feedback. We also propose an extension LLM-TACA where our LLM critic performs explicit task assignment by passing an intermediary goal directly to each agent policy in the scenario. Both our methods far outperform the state-of-the-art on a variety of benchmarks, including Level-Based Foraging, Robotic Warehouse, and our new Spaceworld benchmark which incorporates collision-related safety constraints. As an artifact of our methods, we generate large trajectory datasets with each timestep annotated with per-agent reward information, as sampled from our LLM critics.

arxiv情報

著者 Kartik Nagpal,Dayi Dong,Jean-Baptiste Bouvier,Negar Mehr
発行日 2025-02-24 05:56:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA, cs.RO | Leveraging Large Language Models for Effective and Explainable Multi-Agent Credit Assignment はコメントを受け付けていません

Fast Finite-Time Sliding Mode Control for Chattering-Free Trajectory Tracking of Robotic Manipulators

要約

ロボットアームでの正確で効率的な軌道追跡を実現することは、システムの不確実性と従来のスライドモード制御(SMC)におけるチャタリング効果のために、依然として重要な課題です。
このホワイトペーパーでは、3度フリードーム(3-DOF)ロボットアームのチャタリングフリーファーストターミナルスライディングモードコントロール(FTSMC)戦略を紹介します。
制御フレームワークは、Newton-Euler Dynamicsを使用して開発され、その後、システムの角度の位置と速度をキャプチャする状態空間表現が続きます。
改善されたスライド面とリアプノフベースの安定性分析を組み込むことにより、提案されたFTSMCは、速い応答や強い妨害拒絶など、SMCの利点を維持しながら、チャタリングを効果的に軽減します。
コントローラーのパフォーマンスは、従来のPDスライディングモード制御(PDSMC)および端子スライディングモード制御(TSMC)との比較を通じて厳密に評価されます。
シミュレーション結果は、提案されたアプローチが、既存の方法と比較して優れた軌道追跡パフォーマンス、より速い収束、および安定性の強化を達成し、高精度ロボットアプリケーションの有望なソリューションであることを示しています。

要約(オリジナル)

Achieving precise and efficient trajectory tracking in robotic arms remains a key challenge due to system uncertainties and chattering effects in conventional sliding mode control (SMC). This paper presents a chattering-free fast terminal sliding mode control (FTSMC) strategy for a three-degree-of-freedom (3-DOF) robotic arm, designed to enhance tracking accuracy and robustness while ensuring finite-time convergence. The control framework is developed using Newton-Euler dynamics, followed by a state-space representation that captures the system’s angular position and velocity. By incorporating an improved sliding surface and a Lyapunov-based stability analysis, the proposed FTSMC effectively mitigates chattering while preserving the advantages of SMC, such as fast response and strong disturbance rejection. The controller’s performance is rigorously evaluated through comparisons with conventional PD sliding mode control (PDSMC) and terminal sliding mode control (TSMC). Simulation results demonstrate that the proposed approach achieves superior trajectory tracking performance, faster convergence, and enhanced stability compared to existing methods, making it a promising solution for high-precision robotic applications.

arxiv情報

著者 Momammad Ali Ranjbar
発行日 2025-02-24 06:10:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Fast Finite-Time Sliding Mode Control for Chattering-Free Trajectory Tracking of Robotic Manipulators はコメントを受け付けていません

Primitive-Planner: An Ultra Lightweight Quadrotor Planner with Time-optimal Primitives

要約

四頭視軌道プランナーが同時に軌跡の品質とシステムの軽量を保証することは重要な要件です。
多くの研究者はこの問題に焦点を当てていますが、彼らのパフォーマンスと私たちの共通の願いの間にはまだギャップがあります。
この論文では、時間最適なプリミティブを備えた超軽量の四輪プランナーを提案します。
第一に、オフラインでの時間最適および動的な実行可能な軌跡を生成するために、新しいモーションプリミティブライブラリが提案されています。
第二に、プリミティブのサンプリング解像度とは無関係に、決定論的な時間消費を備えた高速衝突チェック方法を提案します。
最後に、ユーザー定義の要件に基づいて安全なプリミティブ間で実行する最小コストの軌跡を選択します。
ローカルの軌跡間の提案された変換関係により、グローバルな軌跡の滑らかさが保証されます。
プランナーは、高品質の軌跡を確保しながら、不要なオンラインコンピューティング消費電力を可能な限り削減します。
ベンチマークの比較により、この方法では、最低の飛行時間と軌道の距離が生成される可能性があることが示されています。
挑戦的な現実世界の実験は、私たちの方法の堅牢性を検証します。

要約(オリジナル)

It is a significant requirement for a quadrotor trajectory planner to simultaneously guarantee trajectory quality and system lightweight. Many researchers focus on this problem, but there’s still a gap between their performance and our common wish. In this paper, we propose an ultra lightweight quadrotor planner with time-optimal primitives. Firstly, a novel motion primitive library is proposed to generate time-optimal and dynamical feasible trajectories offline. Secondly, we propose a fast collision checking method with a deterministic time consumption, independent of the sampling resolution of the primitives. Finally, we select the minimum cost trajectory to execute among the safe primitives based on user-defined requirements. The propsed transformation relation between the local trajectories ensures the smoothness of the global trajectory. The planner reduces unnecessary online computing power consumption as much as possible, while ensuring a high-quality trajectory. Benchmark comparisons show that our method can generate the shortest flight time and distance of trajectory with the lowest computation overload. Challenging real-world experiments validate the robustness of our method.

arxiv情報

著者 Jialiang Hou,Neng Pan,Zhepei Wang,Jialin Ji,Yuxiang Guan,Zhongxue Gan,Fei Gao
発行日 2025-02-24 06:29:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Primitive-Planner: An Ultra Lightweight Quadrotor Planner with Time-optimal Primitives はコメントを受け付けていません

BeamDojo: Learning Agile Humanoid Locomotion on Sparse Footholds

要約

まばらな足場で危険な地形を横断することは、ヒューマノイドロボットに大きな課題をもたらし、正確な足の配置と安定した移動を必要とします。
四足動物ロボット向けに設計された既存のアプローチは、足の形状と不安定な形態の違いによりヒューマノイドロボットに一般化できないことがよくありますが、ヒューマノイド運動のための学習ベースのアプローチは、毛の毛様式の報酬信号と非効率的な学習プロセスのために、複雑な地形の大きな課題に直面しています。
これらの課題に対処するために、スパースの足場でアジャイルヒューマノイド移動を可能にするために設計された強化学習(RL)フレームワークであるBeam​​dojoを紹介します。
Beamdojoは、ポリゴンの足に合わせたサンプリングベースの足場報酬を導入することから始まり、密な移動報酬とまばらな足場報酬の間の学習プロセスのバランスをとる二重批評家とともに始めます。
十分なトレイルアンドエラー探査を促進するために、Beamdojoには2段階のRLアプローチが組み込まれています。最初の段階では、タスク地形の知覚的観測を提供しながら、フラット地形でヒューマノイドをトレーニングすることで地形のダイナミクスをリラックスさせ、第2段階は微調整します。
実際のタスク地形に関するポリシー。
さらに、現実世界の展開を可能にするために、オンボードLIDARベースの標高マップを実装します。
広範なシミュレーションと現実世界の実験は、Beamdojoがシミュレーションで効率的な学習を達成し、現実世界のまばらな足場に正確な足を配置することでアジャイルな移動を可能にし、重要な外乱の下でも高い成功率を維持することを示しています。

要約(オリジナル)

Traversing risky terrains with sparse footholds poses a significant challenge for humanoid robots, requiring precise foot placements and stable locomotion. Existing approaches designed for quadrupedal robots often fail to generalize to humanoid robots due to differences in foot geometry and unstable morphology, while learning-based approaches for humanoid locomotion still face great challenges on complex terrains due to sparse foothold reward signals and inefficient learning processes. To address these challenges, we introduce BeamDojo, a reinforcement learning (RL) framework designed for enabling agile humanoid locomotion on sparse footholds. BeamDojo begins by introducing a sampling-based foothold reward tailored for polygonal feet, along with a double critic to balancing the learning process between dense locomotion rewards and sparse foothold rewards. To encourage sufficient trail-and-error exploration, BeamDojo incorporates a two-stage RL approach: the first stage relaxes the terrain dynamics by training the humanoid on flat terrain while providing it with task terrain perceptive observations, and the second stage fine-tunes the policy on the actual task terrain. Moreover, we implement a onboard LiDAR-based elevation map to enable real-world deployment. Extensive simulation and real-world experiments demonstrate that BeamDojo achieves efficient learning in simulation and enables agile locomotion with precise foot placement on sparse footholds in the real world, maintaining a high success rate even under significant external disturbances.

arxiv情報

著者 Huayi Wang,Zirui Wang,Junli Ren,Qingwei Ben,Tao Huang,Weinan Zhang,Jiangmiao Pang
発行日 2025-02-24 06:31:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | BeamDojo: Learning Agile Humanoid Locomotion on Sparse Footholds はコメントを受け付けていません

Heuristic Search for Path Finding with Refuelling

要約

この論文では、ガソリンスタンドの問題(GSP)と呼ばれる燃料補給の制約に関するパス発見(PF)問題の一般化を考慮します。
PFと同様に、頂点が既知の燃料価格のガスステーションであり、エッジコストが2つの頂点間のガス消費であるグラフを考えると、GSPは、限られたガスを備えたロボットの目標頂点までの最小コストパスを求めています
タンクと限られた数の給油停止。
GSPは多項式時間溶媒和ですが、実際に最適なソリューションを迅速に計算することは依然として課題です。これは、パス、停留所をどこで行うか、および各停留所で燃料補給額を同時に決定する必要があるためです。
このホワイトペーパーでは、計画中に剪定の支配ルールを活用しながら、ヒューリスティックによって導かれたゴールまでの部分的なソリューションパスを繰り返し構築する、燃料補給a $^*$(rf-a $^*$)と呼ばれるヒューリスティック検索アルゴリズムを開発します。
RF-a $^*$は、最適なソリューションを見つけるために保証されており、多くの場合、数百のガソリンスタンドを備えた大都市マップの既存のアプローチよりも2〜8倍速く実行されます。

要約(オリジナル)

This paper considers a generalization of the Path Finding (PF) problem with refuelling constraints referred to as the Gas Station Problem (GSP). Similar to PF, given a graph where vertices are gas stations with known fuel prices, and edge costs are the gas consumption between the two vertices, GSP seeks a minimum-cost path from the start to the goal vertex for a robot with a limited gas tank and a limited number of refuelling stops. While GSP is polynomial-time solvable, it remains a challenge to quickly compute an optimal solution in practice since it requires simultaneously determine the path, where to make the stops, and the amount to refuel at each stop. This paper develops a heuristic search algorithm called Refuel A$^*$ (RF-A$^*$) that iteratively constructs partial solution paths from the start to the goal guided by a heuristic while leveraging dominance rules for pruning during planning. RF-A$^*$ is guaranteed to find an optimal solution and often runs 2 to 8 times faster than the existing approaches in large city maps with several hundreds of gas stations.

arxiv情報

著者 Shizhe Zhao,Anushtup Nandy,Howie Choset,Sivakumar Rathinam,Zhongqiang Ren
発行日 2025-02-24 06:31:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T40, cs.AI, cs.RO | Heuristic Search for Path Finding with Refuelling はコメントを受け付けていません