Making a Complete Mess and Getting Away with it: Traveling Salesperson Problems with Circle Placement Variants

要約

この論文では、エージェントが各ノードを訪問すると、その隣に円形の障害物を配置する、巡回販売員問題のバリエーションを検討します。
サークル配置による巡回販売員問題 (TSP-CP) と呼ばれるこの目的は、有効なクローズド ツアーが存在する障害物の半径を最大化し、ツアー コストを最小限に抑えることです。
TSP-CP は、収穫、採石、露天掘りなどのさまざまな現実世界のアプリケーションに関連性があります。
我々は、TSP-CP、Dubins 車両用に調整されたそのバリアント、および自己削除グラフ (TSP-SD) の巡回販売員問題として知られる重要なサブ問題に対処するためのいくつかの新しいソルバーを提案します。
私たちの広範な実験結果は、提案されたソルバーが、関連する問題に関して現在の最先端のソルバーよりもソリューションの品質において優れていることを示しています。

要約(オリジナル)

This paper explores a variation of the Traveling Salesperson Problem, where the agent places a circular obstacle next to each node once it visits it. Referred to as the Traveling Salesperson Problem with Circle Placement (TSP-CP), the aim is to maximize the obstacle radius for which a valid closed tour exists and then minimize the tour cost. The TSP-CP finds relevance in various real-world applications, such as harvesting, quarrying, and open-pit mining. We propose several novel solvers to address the TSP-CP, its variant tailored for Dubins vehicles, and a crucial subproblem known as the Traveling Salesperson Problem on self-deleting graphs (TSP-SD). Our extensive experimental results show that the proposed solvers outperform the current state-of-the-art on related problems in solution quality.

arxiv情報

著者 David Woller,Masoumeh Mansouri,Miroslav Kulich
発行日 2024-10-15 08:47:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Making a Complete Mess and Getting Away with it: Traveling Salesperson Problems with Circle Placement Variants はコメントを受け付けていません

M2Diffuser: Diffusion-based Trajectory Optimization for Mobile Manipulation in 3D Scenes

要約

普及モデルの最近の進歩により、身体化された AI エージェントとロボット工学の研究に新たな道が開かれました。
複雑なロボットの移動とスキルでは大きな成果が得られているにもかかわらず、モバイル操作(ナビゲーションと操作の調整を必要とする機能)は、生成型 AI 技術にとって依然として課題です。
これは主に、高次元のアクション空間、拡張されたモーション軌道、および周囲の環境との相互作用によるものです。
この論文では、ロボット中心の 3D スキャンに基づいてモバイル操作のための調整された効率的な全身運動軌道を直接生成する、拡散ベースのシーン条件付き生成モデルである M2Diffuser を紹介します。
M2Diffuser はまず、専門プランナーによって提供されたモバイル操作の軌跡から軌跡レベルの分布を学習します。
重要なのは、推論プロセス中にコストとエネルギー関数としてモデル化された物理的制約とタスク目標に柔軟に対応できる最適化モジュールが組み込まれていることです。
これにより、完全に微分可能な方法で、各ノイズ除去ステップでの物理的な違反と実行エラーを削減できます。
20 を超えるシーンにわたる 3 種類のモバイル操作タスクのベンチマークを通じて、M2Diffuser が最先端のニューラル プランナーを上回り、生成された軌道を現実世界のロボットに正常に転送できることを実証しました。
私たちの評価は、従来の計画および学習ベースのロボット手法の一般化を強化する生成 AI の可能性を強調すると同時に、安全で堅牢な実行のために物理的制約を強制するという重要な役割も強調しています。

要約(オリジナル)

Recent advances in diffusion models have opened new avenues for research into embodied AI agents and robotics. Despite significant achievements in complex robotic locomotion and skills, mobile manipulation-a capability that requires the coordination of navigation and manipulation-remains a challenge for generative AI techniques. This is primarily due to the high-dimensional action space, extended motion trajectories, and interactions with the surrounding environment. In this paper, we introduce M2Diffuser, a diffusion-based, scene-conditioned generative model that directly generates coordinated and efficient whole-body motion trajectories for mobile manipulation based on robot-centric 3D scans. M2Diffuser first learns trajectory-level distributions from mobile manipulation trajectories provided by an expert planner. Crucially, it incorporates an optimization module that can flexibly accommodate physical constraints and task objectives, modeled as cost and energy functions, during the inference process. This enables the reduction of physical violations and execution errors at each denoising step in a fully differentiable manner. Through benchmarking on three types of mobile manipulation tasks across over 20 scenes, we demonstrate that M2Diffuser outperforms state-of-the-art neural planners and successfully transfers the generated trajectories to a real-world robot. Our evaluations underscore the potential of generative AI to enhance the generalization of traditional planning and learning-based robotic methods, while also highlighting the critical role of enforcing physical constraints for safe and robust execution.

arxiv情報

著者 Sixu Yan,Zeyu Zhang,Muzhi Han,Zaijin Wang,Qi Xie,Zhitian Li,Zhehan Li,Hangxin Liu,Xinggang Wang,Song-Chun Zhu
発行日 2024-10-15 08:49:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | M2Diffuser: Diffusion-based Trajectory Optimization for Mobile Manipulation in 3D Scenes はコメントを受け付けていません

Optimizing Structured Data Processing through Robotic Process Automation

要約

ロボティック プロセス オートメーション (RPA) は、データ抽出における革新的なテクノロジとして登場し、組織が請求書、注文書、支払通知などの大量のドキュメントを処理および分析する方法に革命をもたらしました。
この調査では、構造化データ抽出のための RPA の使用を調査し、手動プロセスと比較した RPA の利点を評価します。
人間が実行するタスクと RPA ソフトウェア ボットによって実行されるタスクを比較することで、RPA システムの有効性に焦点を当てて、請求書からのデータ抽出の効率と精度を評価します。
さまざまな数の請求書を含む 4 つの異なるシナリオを通じて、タスクの完了に必要な時間と労力の観点から効率性を測定するとともに、手動プロセスと RPA プロセスのエラー率を比較することで精度を測定します。
私たちの調査結果は、RPA によって効率が大幅に向上し、すべてのケースにおいて手作業に比べてボットが大幅に短い時間でタスクを完了できることを浮き彫りにしています。
さらに、RPA システムは一貫して完璧な精度を達成し、エラーのリスクを軽減し、プロセスの信頼性を高めます。
これらの結果は、業務効率の最適化、人件費の削減、全体的なビジネス パフォーマンスの向上における RPA の変革の可能性を強調しています。

要約(オリジナル)

Robotic Process Automation (RPA) has emerged as a game-changing technology in data extraction, revolutionizing the way organizations process and analyze large volumes of documents such as invoices, purchase orders, and payment advices. This study investigates the use of RPA for structured data extraction and evaluates its advantages over manual processes. By comparing human-performed tasks with those executed by RPA software bots, we assess efficiency and accuracy in data extraction from invoices, focusing on the effectiveness of the RPA system. Through four distinct scenarios involving varying numbers of invoices, we measure efficiency in terms of time and effort required for task completion, as well as accuracy by comparing error rates between manual and RPA processes. Our findings highlight the significant efficiency gains achieved by RPA, with bots completing tasks in significantly less time compared to manual efforts across all cases. Moreover, the RPA system consistently achieves perfect accuracy, mitigating the risk of errors and enhancing process reliability. These results underscore the transformative potential of RPA in optimizing operational efficiency, reducing human labor costs, and improving overall business performance.

arxiv情報

著者 Vivek Bhardwaj,Ajit Noonia,Sandeep Chaurasia,Mukesh Kumar,Abdulnaser Rashid,Mohamed Tahar Ben Othman
発行日 2024-10-15 10:23:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Optimizing Structured Data Processing through Robotic Process Automation はコメントを受け付けていません

AIC MLLM: Autonomous Interactive Correction MLLM for Robust Robotic Manipulation

要約

失敗を反映して修正する機能は、ロボット システムが現実のオブジェクトと安定して対話するために非常に重要です。マルチモーダル大規模言語モデル (MLLM) の一般化機能と推論機能を観察し、これまでのアプローチは、これらのモデルを利用してロボット システムをそれに応じて強化することを目的としていました。
ただし、これらの方法は通常、追加の MLLM を使用した高レベルの計画修正に焦点を当てており、関節オブジェクトの操作中に特に発生しやすい低レベルの接触姿勢を修正するために失敗したサンプルの利用が制限されています。このギャップに対処するために、我々は次のように提案します。
自律インタラクティブ修正 (AIC) MLLM。以前の低レベルのインタラクション エクスペリエンスを利用して、多関節オブジェクトの SE(3) ポーズ予測を修正します。
具体的には、AIC MLLM は、姿勢予測とフィードバックのプロンプト理解能力の両方を獲得するように最初に微調整されます。私たちは、オブジェクトとのインタラクションのための 2 種類のプロンプト指示を設計します。1) 位置補正のために動かない部分を強調表示する視覚マスク、2) 位置補正のために動かない部分をハイライトするためのテキスト説明。
回転補正の可能性のある方向を示します。
推論中に、失敗の原因を認識するためにフィードバック情報抽出モジュールが導入され、AIC MLLM が対応するプロンプトを使用して姿勢予測を適応的に修正できるようになります。操作の安定性をさらに高めるために、AIC MLLM がより適切に適応できるようにするテスト時間適応戦略を考案しました。
最後に、提案された方法を評価するために、シミュレーション環境と現実世界の両方の環境で広範な実験が行われます。
この結果は、AIC MLLM がインタラクション エクスペリエンスのプロンプトを活用することで、失敗サンプルを効率的に修正できることを示しています。私たちのプロジェクトの Web サイトは、https://sites.google.com/view/aic-mllm です。

要約(オリジナル)

The ability to reflect on and correct failures is crucial for robotic systems to interact stably with real-life objects.Observing the generalization and reasoning capabilities of Multimodal Large Language Models (MLLMs), previous approaches have aimed to utilize these models to enhance robotic systems accordingly.However, these methods typically focus on high-level planning corrections using an additional MLLM, with limited utilization of failed samples to correct low-level contact poses which is particularly prone to occur during articulated object manipulation.To address this gap, we propose an Autonomous Interactive Correction (AIC) MLLM, which makes use of previous low-level interaction experiences to correct SE(3) pose predictions for articulated object. Specifically, AIC MLLM is initially fine-tuned to acquire both pose prediction and feedback prompt comprehension abilities.We design two types of prompt instructions for interactions with objects: 1) visual masks to highlight unmovable parts for position correction, and 2) textual descriptions to indicate potential directions for rotation correction. During inference, a Feedback Information Extraction module is introduced to recognize the failure cause, allowing AIC MLLM to adaptively correct the pose prediction using the corresponding prompts.To further enhance manipulation stability, we devise a Test Time Adaptation strategy that enables AIC MLLM to better adapt to the current scene configuration.Finally, extensive experiments are conducted in both simulated and real-world environments to evaluate the proposed method. The results demonstrate that our AIC MLLM can efficiently correct failure samples by leveraging interaction experience prompts.Our project website is https://sites.google.com/view/aic-mllm.

arxiv情報

著者 Chuyan Xiong,Chengyu Shen,Xiaoqi Li,Kaichen Zhou,Jiaming Liu,Ruiping Wang,Hao Dong
発行日 2024-10-15 10:41:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | AIC MLLM: Autonomous Interactive Correction MLLM for Robust Robotic Manipulation はコメントを受け付けていません

NavTopo: Leveraging Topological Maps For Autonomous Navigation Of a Mobile Robot

要約

移動ロボットの自律ナビゲーションは、マッピング、位置特定、経路計画、および経路追跡の能力を必要とする困難なタスクです。
従来のマッピング方法は、占有グリッドのような高密度のメトリック マップを構築しますが、オドメトリ エラーの蓄積の影響を受け、大規模な環境では大量のメモリと計算を消費します。
マッピングへの別のアプローチは、トポロジカル プロパティの使用です。
環境内の場所の隣接性。
トポロジカル マップは、オドメトリ エラーの蓄積やリソースの大量消費が起こりにくく、グラフの疎性により高速なパス プランニングも可能になります。
この考えに基づいて、トポロジー マップと 2 レベルのパス プランニングに基づく完全なナビゲーション パイプラインである NavTopo を提案しました。
パイプラインは、ニューラル ネットワーク記述子と入力点群の 2D 投影を照合することによってグラフ内で局所化され、メトリックおよびトポロジカル点群ベースのアプローチと比較してメモリ消費量が大幅に削減されます。
大規模な屋内のフォトリレースティックなシミュレーション環境でアプローチをテストし、一般的な計量マッピング手法 RTAB-MAP に基づく計量マップベースのアプローチと比較します。
実験結果は、私たちのトポロジー的アプローチがパフォーマンスの点でメトリック的アプローチを大幅に上回り、適切なナビゲーション効率を維持していることを示しています。

要約(オリジナル)

Autonomous navigation of a mobile robot is a challenging task which requires ability of mapping, localization, path planning and path following. Conventional mapping methods build a dense metric map like an occupancy grid, which is affected by odometry error accumulation and consumes a lot of memory and computations in large environments. Another approach to mapping is the usage of topological properties, e.g. adjacency of locations in the environment. Topological maps are less prone to odometry error accumulation and high resources consumption, and also enable fast path planning because of the graph sparsity. Based on this idea, we proposed NavTopo – a full navigation pipeline based on topological map and two-level path planning. The pipeline localizes in the graph by matching neural network descriptors and 2D projections of the input point clouds, which significantly reduces memory consumption compared to metric and topological point cloud-based approaches. We test our approach in a large indoor photo-relaistic simulated environment and compare it to a metric map-based approach based on popular metric mapping method RTAB-MAP. The experimental results show that our topological approach significantly outperforms the metric one in terms of performance, keeping proper navigational efficiency.

arxiv情報

著者 Kirill Muravyev,Konstantin Yakovlev
発行日 2024-10-15 10:54:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO, I.2.10 | NavTopo: Leveraging Topological Maps For Autonomous Navigation Of a Mobile Robot はコメントを受け付けていません

LoGS: Visual Localization via Gaussian Splatting with Fewer Training Images

要約

視覚的位置特定には、クエリ画像の 6-DoF (自由度) カメラ ポーズの推定が含まれます。これは、さまざまなコンピューター ビジョンやロボット タスクの基本コンポーネントです。
この論文では、シーン表現として 3D ガウス スプラッティング (GS) 技術を利用したビジョンベースのローカリゼーション パイプラインである LogS について説明します。
この斬新な表現により、高品質な斬新なビュー合成が可能になります。
マッピング フェーズでは、最初にモーション フロム モーション (SfM) が適用され、続いて GS マップが生成されます。
位置特定中は、画像検索、PnP ソルバーと組み合わせた局所特徴マッチングを通じて初期位置が取得され、GS マップ上での合成による分析によって高精度の姿勢が実現されます。
4 つの大規模データセットに関する実験結果は、カメラのポーズを推定する際の提案されたアプローチの SoTA 精度と、困難な少数ショット条件下での堅牢性を示しています。

要約(オリジナル)

Visual localization involves estimating a query image’s 6-DoF (degrees of freedom) camera pose, which is a fundamental component in various computer vision and robotic tasks. This paper presents LoGS, a vision-based localization pipeline utilizing the 3D Gaussian Splatting (GS) technique as scene representation. This novel representation allows high-quality novel view synthesis. During the mapping phase, structure-from-motion (SfM) is applied first, followed by the generation of a GS map. During localization, the initial position is obtained through image retrieval, local feature matching coupled with a PnP solver, and then a high-precision pose is achieved through the analysis-by-synthesis manner on the GS map. Experimental results on four large-scale datasets demonstrate the proposed approach’s SoTA accuracy in estimating camera poses and robustness under challenging few-shot conditions.

arxiv情報

著者 Yuzhou Cheng,Jianhao Jiao,Yue Wang,Dimitrios Kanoulas
発行日 2024-10-15 11:17:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | LoGS: Visual Localization via Gaussian Splatting with Fewer Training Images はコメントを受け付けていません

Explicit Contact Optimization in Whole-Body Contact-Rich Manipulation

要約

人間は、体表のどこにでも接触を利用して、大きくて重い物体、通常は手の届かない物体、または一度に複数の物体を操作することができます。
しかし、体の表面全体を使用した接触によるこのような操作をロボットで実現するのは依然として非常に困難です。
これは、全身接触リッチ操作 (WBCRM) 問題として分類できます。
接触モードの組み合わせ論による接触リッチ操作問題の高次元性に加えて、体表面上の任意の場所に接触を作成できると複雑さが増し、妥当な時間内での操作の計画が妨げられます。
我々は、平面 WBCRM の接触および動作計画を階層的連続最適化問題として定式化することで、この計算問題に対処します。
この定式化を可能にするために、ロボット表面の新しい連続的な明示的表現を提案します。これは、WBCRM の連続最適化を使用した将来の研究の基礎となると考えられます。
私たちの結果は、収束、計画時間、実現可能性が大幅に改善されたことを示しています。失敗しがちな軌道改良ステップに頼ることなく、検討したシナリオに比べて反復回数が平均で 99% 減少し、解決策を見つけるまでの時間が 96% 短縮されました。

要約(オリジナル)

Humans can exploit contacts anywhere on their body surface to manipulate large and heavy items, objects normally out of reach or multiple objects at once. However, such manipulation through contacts using the whole surface of the body remains extremely challenging to achieve on robots. This can be labelled as Whole-Body Contact-Rich Manipulation (WBCRM) problem. In addition to the high-dimensionality of the Contact-Rich Manipulation problem due to the combinatorics of contact modes, admitting contact creation anywhere on the body surface adds complexity, which hinders planning of manipulation within a reasonable time. We address this computational problem by formulating the contact and motion planning of planar WBCRM as hierarchical continuous optimization problems. To enable this formulation, we propose a novel continuous explicit representation of the robot surface, that we believe to be foundational for future research using continuous optimization for WBCRM. Our results demonstrate a significant improvement of convergence, planning time and feasibility – with, on the average, 99% less iterations and 96% reduction in time to find a solution over considered scenarios, without recourse to prone-to-failure trajectory refinement steps.

arxiv情報

著者 Victor Leve,João Moura,Namiko Saito,Steve Tonneau,Sethu Vijayakumar
発行日 2024-10-15 12:12:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Explicit Contact Optimization in Whole-Body Contact-Rich Manipulation はコメントを受け付けていません

PAVLM: Advancing Point Cloud based Affordance Understanding Via Vision-Language Model

要約

アフォーダンス理解、つまり 3D オブジェクト上の実行可能な領域を特定するタスクは、ロボット システムが物理世界と関わり、その中で動作できるようにする上で重要な役割を果たします。
視覚言語モデル (VLM) は、ロボット操作のための高度な推論と長期的な計画には優れていますが、人間とロボットの効果的なインタラクションに必要な微妙な物理的特性を把握するにはまだ不十分です。
この論文では、点群の 3D アフォーダンス理解を強化するために、事前トレーニングされた言語モデルに埋め込まれた広範なマルチモーダル知識を利用する革新的なフレームワークである PAVLM (点群アフォーダンス ビジョン言語モデル) を紹介します。
PAVLM は、視覚的セマンティクスを強化するために、幾何学的ガイド付き伝播モジュールと大規模言語モデル (LLM) からの隠れた埋め込みを統合します。
言語面では、Llama-3.1 モデルに洗練されたコンテキストを認識したテキストを生成するよう促し、より深い意味論的な手がかりで指導入力を強化します。
3D-AffordanceNet ベンチマークの実験結果は、PAVLM が完全点群と部分点群の両方でベースライン手法を上回っており、特に 3D オブジェクトの新しいオープンワールド アフォーダンス タスクへの一般化において優れていることを示しています。
詳細については、プロジェクト サイト pavlm-source.github.io をご覧ください。

要約(オリジナル)

Affordance understanding, the task of identifying actionable regions on 3D objects, plays a vital role in allowing robotic systems to engage with and operate within the physical world. Although Visual Language Models (VLMs) have excelled in high-level reasoning and long-horizon planning for robotic manipulation, they still fall short in grasping the nuanced physical properties required for effective human-robot interaction. In this paper, we introduce PAVLM (Point cloud Affordance Vision-Language Model), an innovative framework that utilizes the extensive multimodal knowledge embedded in pre-trained language models to enhance 3D affordance understanding of point cloud. PAVLM integrates a geometric-guided propagation module with hidden embeddings from large language models (LLMs) to enrich visual semantics. On the language side, we prompt Llama-3.1 models to generate refined context-aware text, augmenting the instructional input with deeper semantic cues. Experimental results on the 3D-AffordanceNet benchmark demonstrate that PAVLM outperforms baseline methods for both full and partial point clouds, particularly excelling in its generalization to novel open-world affordance tasks of 3D objects. For more information, visit our project site: pavlm-source.github.io.

arxiv情報

著者 Shang-Ching Liu,Van Nhiem Tran,Wenkai Chen,Wei-Lun Cheng,Yen-Lin Huang,I-Bin Liao,Yung-Hui Li,Jianwei Zhang
発行日 2024-10-15 12:53:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | PAVLM: Advancing Point Cloud based Affordance Understanding Via Vision-Language Model はコメントを受け付けていません

A Data-Driven Aggressive Autonomous Racing Framework Utilizing Local Trajectory Planning with Velocity Prediction

要約

自動運転の開発により、自動レースの研究が加速しています。
しかし、既存の局所的な軌道計画手法では、急コーナーのあるレース場で最適な速度プロファイルで軌道を計画することが困難であり、自律型レースのパフォーマンスが低下します。
この問題に対処するために、モデル予測輪郭制御 (VPMPCC) に基づく速度予測を統合する局所軌道計画手法を提案します。
VPMPCC の最適パラメータは、提案されたレーシングに適応した新しい目的関数 (OFR) に基づくベイジアン最適化 (BO) を通じて学習されます。
具体的には、VPMPCC は、レーストラックを基準速度プロファイルとしてエンコードし、それを最適化問題に組み込むことで速度予測を実現します。
この方法は、特に曲率が大きいコーナーでの局所的な軌道の速度プロファイルを最適化します。
提案された OFR は、レーシング パフォーマンスと車両の安全性のバランスをとり、安全かつ効率的な BO トレーニングを保証します。
シミュレーションでは、OFR ベースの BO のトレーニング反復数は、最先端の方法と比較して 42.86% 削減されました。
シミュレーションでトレーニングされた最適なパラメーターは、再トレーニングすることなく現実世界の F1TENTH 車両に適用されます。
大幅な急コーナーを特徴とする特注のレーストラックでの長時間のレース中、VPMPCC の平均速度は車両のハンドリング限界の 93.18% に達します。
リリースされたコードは https://github.com/zhouhengli/VPMPCC で入手できます。

要約(オリジナル)

The development of autonomous driving has boosted the research on autonomous racing. However, existing local trajectory planning methods have difficulty planning trajectories with optimal velocity profiles at racetracks with sharp corners, thus weakening the performance of autonomous racing. To address this problem, we propose a local trajectory planning method that integrates Velocity Prediction based on Model Predictive Contour Control (VPMPCC). The optimal parameters of VPMPCC are learned through Bayesian Optimization (BO) based on a proposed novel Objective Function adapted to Racing (OFR). Specifically, VPMPCC achieves velocity prediction by encoding the racetrack as a reference velocity profile and incorporating it into the optimization problem. This method optimizes the velocity profile of local trajectories, especially at corners with significant curvature. The proposed OFR balances racing performance with vehicle safety, ensuring safe and efficient BO training. In the simulation, the number of training iterations for OFR-based BO is reduced by 42.86% compared to the state-of-the-art method. The optimal simulation-trained parameters are then applied to a real-world F1TENTH vehicle without retraining. During prolonged racing on a custom-built racetrack featuring significant sharp corners, the mean velocity of VPMPCC reaches 93.18% of the vehicle’s handling limits. The released code is available at https://github.com/zhouhengli/VPMPCC.

arxiv情報

著者 Zhouheng Li,Bei Zhou,Cheng Hu,Lei Xie,Hongye Su
発行日 2024-10-15 13:01:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | A Data-Driven Aggressive Autonomous Racing Framework Utilizing Local Trajectory Planning with Velocity Prediction はコメントを受け付けていません

SDS — See it, Do it, Sorted: Quadruped Skill Synthesis from Single Video Demonstration

要約

この論文では、単一のデモンストレーション ビデオから直観的に四足歩行スキルを学習するための新しいパイプラインである SDS (「See it. Do it. Sorted.」) を紹介します。
GPT-4o のビジュアル機能を活用して、SDS は新しい思考連鎖促進技術 (SUS) を通じて入力ビデオを処理し、近接ポリシー最適化 (PPO) の学習を通じて移動スキルの模倣を促進する実行可能な報酬関数 (RF) を生成します。
) ベースの強化学習 (RL) ポリシー。NVIDIA IsaacGym シミュレーターからの環境情報を使用します。
SDS は、個々の報酬コンポーネントを監視し、トレーニング映像とフィットネス メトリクスを GPT-4o に戻すことで RF を自律的に評価します。GPT-4o は、各反復でより高いタスクフィットネスを達成するために RF を進化させるように促されます。
Unitree Go1 ロボットでメソッドを検証し、速歩、バウンディング、ペーシング、ホッピングなどのさまざまなスキルを実行する能力を実証し、高い模倣忠実度と移動の安定性を実現します。
SDS は、SOTA 手法に比べてタスクの適応性が向上し、ドメイン固有の知識への依存が軽減され、労働集約的な報酬エンジニアリングや大規模なトレーニング データセットの必要性が回避されることを示しています。
追加情報とオープンソースのコードは、https://rpl-cs-ucl.github.io/SDSweb でご覧いただけます。

要約(オリジナル)

In this paper, we present SDS (“See it. Do it. Sorted.”), a novel pipeline for intuitive quadrupedal skill learning from a single demonstration video. Leveraging the Visual capabilities of GPT-4o, SDS processes input videos through our novel chain-of-thought promoting technique (SUS) and generates executable reward functions (RFs) that drive the imitation of locomotion skills, through learning a Proximal Policy Optimization (PPO)-based Reinforcement Learning (RL) policy, using environment information from the NVIDIA IsaacGym simulator. SDS autonomously evaluates the RFs by monitoring the individual reward components and supplying training footage and fitness metrics back into GPT-4o, which is then prompted to evolve the RFs to achieve higher task fitness at each iteration. We validate our method on the Unitree Go1 robot, demonstrating its ability to execute variable skills such as trotting, bounding, pacing and hopping, achieving high imitation fidelity and locomotion stability. SDS shows improvements over SOTA methods in task adaptability, reduced dependence on domain-specific knowledge, and bypassing the need for labor-intensive reward engineering and large-scale training datasets. Additional information and the open-sourced code can be found in: https://rpl-cs-ucl.github.io/SDSweb

arxiv情報

著者 Jeffrey Li,Maria Stamatopoulou,Dimitrios Kanoulas
発行日 2024-10-15 13:04:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SDS — See it, Do it, Sorted: Quadruped Skill Synthesis from Single Video Demonstration はコメントを受け付けていません