Video2Policy: Scaling up Manipulation Tasks in Simulation through Internet Videos

要約

シミュレーションは、ジェネラリストのポリシーのための安価なスケーリングトレーニングデータの有望なアプローチを提供します。
多様で現実的なタスクからデータを生成するために、既存のアルゴリズムは、ロボット工学に興味がないタスクを幻覚化する可能性のある大きな言語モデル(LLM)に依存しています。
または、慎重に実際のアライメントを必要とするデジタル双子で、スケーリングが困難です。
これらの課題に対処するために、Internet RGBビデオを活用して日常の人間の行動に基づいてタスクを再構築する新しいフレームワークであるVideo2Policyを紹介します。
私たちのアプローチは、2つのフェーズで構成されています。(1)ビデオからのシミュレーションのタスク生成。
(2)コンテキスト内のLLM生成報酬機能を繰り返し利用する強化学習。
9つの異なるタスクで多様で複雑な人間の行動を描いているものから100以上のビデオを再構築することにより、Video2Policyの有効性を実証します。
私たちの方法は、スローなどの複雑で挑戦的なタスクを含む、このようなタスクに関するRLポリシーを正常にトレーニングできます。
最後に、生成されたシミュレーションデータを一般的なポリシーのトレーニングのためにスケーリングできることを示し、実際のロボットにReal2Sim2realの方法で転送できることを示します。

要約(オリジナル)

Simulation offers a promising approach for cheaply scaling training data for generalist policies. To scalably generate data from diverse and realistic tasks, existing algorithms either rely on large language models (LLMs) that may hallucinate tasks not interesting for robotics; or digital twins, which require careful real-to-sim alignment and are hard to scale. To address these challenges, we introduce Video2Policy, a novel framework that leverages internet RGB videos to reconstruct tasks based on everyday human behavior. Our approach comprises two phases: (1) task generation in simulation from videos; and (2) reinforcement learning utilizing in-context LLM-generated reward functions iteratively. We demonstrate the efficacy of Video2Policy by reconstructing over 100 videos from the Something-Something-v2 (SSv2) dataset, which depicts diverse and complex human behaviors on 9 different tasks. Our method can successfully train RL policies on such tasks, including complex and challenging tasks such as throwing. Finally, we show that the generated simulation data can be scaled up for training a general policy, and it can be transferred back to the real robot in a Real2Sim2Real way.

arxiv情報

著者 Weirui Ye,Fangchen Liu,Zheng Ding,Yang Gao,Oleh Rybkin,Pieter Abbeel
発行日 2025-02-14 03:22:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Video2Policy: Scaling up Manipulation Tasks in Simulation through Internet Videos はコメントを受け付けていません

Evaluating and Improving Graph-based Explanation Methods for Multi-Agent Coordination

要約

グラフ学習コミュニティによって開発されたグラフニューラルネットワーク(GNNS)は採用されており、マルチロボットおよびマルチエージェント学習に非常に効果的であることが示されています。
この成功した殺人に触発されて、私たちは、マルチエージェントの調整を説明するための既存のGNN説明方法の適合性を調査し、特徴付けます。
これらの方法には、チームの行動に影響を与える最も影響力のあるコミュニケーションチャネルを特定する可能性があることがわかります。
最初の分析から通知されて、GATベースのポリシーを既存のグラフベースの説明担当者により適したものにする注意エントロピー正規化用語を提案します。
直感的に、注意を最小限に抑えるエントロピーは、エージェントをインセンティブにして、最も影響力のあるエージェントまたはインパクトのあるエージェントへの注意を制限し、それにより説明者が直面する課題を緩和します。
私たちは、注意エントロピーを最小限に抑えることで、説明者が生成したサブグラフとその補体との格差を増加させることを示すことにより、理論的にはこの直感を根絶します。
3つのタスクと3つのチームサイズにわたる評価i)は、既存の説明担当者の有効性に関する洞察を提供し、ii)提案された正規化により、タスクのパフォーマンスを犠牲にすることなく説明の品質が一貫して改善されることが示されています。

要約(オリジナル)

Graph Neural Networks (GNNs), developed by the graph learning community, have been adopted and shown to be highly effective in multi-robot and multi-agent learning. Inspired by this successful cross-pollination, we investigate and characterize the suitability of existing GNN explanation methods for explaining multi-agent coordination. We find that these methods have the potential to identify the most-influential communication channels that impact the team’s behavior. Informed by our initial analyses, we propose an attention entropy regularization term that renders GAT-based policies more amenable to existing graph-based explainers. Intuitively, minimizing attention entropy incentivizes agents to limit their attention to the most influential or impactful agents, thereby easing the challenge faced by the explainer. We theoretically ground this intuition by showing that minimizing attention entropy increases the disparity between the explainer-generated subgraph and its complement. Evaluations across three tasks and three team sizes i) provides insights into the effectiveness of existing explainers, and ii) demonstrates that our proposed regularization consistently improves explanation quality without sacrificing task performance.

arxiv情報

著者 Siva Kailas,Shalin Jain,Harish Ravichandar
発行日 2025-02-14 03:25:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO | Evaluating and Improving Graph-based Explanation Methods for Multi-Agent Coordination はコメントを受け付けていません

Deployment-friendly Lane-changing Intention Prediction Powered by Brain-inspired Spiking Neural Networks

要約

周囲の車両の車線変更意図の正確かつリアルタイムの予測は、オープンワールドシナリオに安全で効率的な自律駆動システムを展開する上で重要な課題です。
既存の高性能な方法は、計算コストが高い、トレーニング時間が長く、過度のメモリ要件があるため、展開が困難です。
ここでは、脳に触発されたスパイクニューラルネットワーク(SNN)に基づいた効率的な車線変更意図予測アプローチを提案します。
SNNのイベント駆動型の性質を活用することにより、提案されたアプローチにより、車両の状態をより効率的にエンコードすることができます。
HighDおよびNGSIMデータセットで実施された比較実験は、この方法がトレーニング効率を大幅に改善し、同等の予測精度を維持しながら展開コストを削減することを示しています。
特に、ベースラインと比較して、当社のアプローチにより、トレーニング時間が75%減少し、メモリの使用量が99.9%短縮されます。
これらの結果は、車線を変える予測における方法の効率と信頼性を検証し、安全で効率的な自律駆動システムの可能性を強調し、トレーニング時間の短縮、メモリ使用量の削減、より速い推論など、展開に大きな利点を提供します。

要約(オリジナル)

Accurate and real-time prediction of surrounding vehicles’ lane-changing intentions is a critical challenge in deploying safe and efficient autonomous driving systems in open-world scenarios. Existing high-performing methods remain hard to deploy due to their high computational cost, long training times, and excessive memory requirements. Here, we propose an efficient lane-changing intention prediction approach based on brain-inspired Spiking Neural Networks (SNN). By leveraging the event-driven nature of SNN, the proposed approach enables us to encode the vehicle’s states in a more efficient manner. Comparison experiments conducted on HighD and NGSIM datasets demonstrate that our method significantly improves training efficiency and reduces deployment costs while maintaining comparable prediction accuracy. Particularly, compared to the baseline, our approach reduces training time by 75% and memory usage by 99.9%. These results validate the efficiency and reliability of our method in lane-changing predictions, highlighting its potential for safe and efficient autonomous driving systems while offering significant advantages in deployment, including reduced training time, lower memory usage, and faster inference.

arxiv情報

著者 Shuqi Shen,Junjie Yang,Hui Zhong,Qiming Zhang,Hongliang Lu,Hai Yang
発行日 2025-02-14 04:36:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Deployment-friendly Lane-changing Intention Prediction Powered by Brain-inspired Spiking Neural Networks はコメントを受け付けていません

Dual Control for Interactive Autonomous Merging with Model Predictive Diffusion

要約

インタラクティブな意思決定は、自律運転などのアプリケーションでは不可欠です。このアプリケーションでは、エージェントがリアルタイムで計画しながら近くの人間のドライバーの行動を推測する必要があります。
人間の行動の正確な推論には、分離された予測ではなく継続的な相互作用が必要であるため、従来の予測からのフレームワークはしばしば不十分または非効率的です。
これに対処するために、予測された信念分布を厳密に導き出す積極的な学習フレームワークを提案します。
さらに、複雑で非凸の高速道路の合併シナリオを通じて実証された、オンラインの後退地平線制御の問題に合わせた新しいモデルベースの拡散ソルバーを紹介します。
私たちのアプローチは、以前の高忠実度のデュアルコントロールシミュレーションをハードウェア実験に拡張します。これは、https://youtu.be/q_jdzuopgl4で表示され、人間駆動型のトラフィックシナリオの動作推論を検証し、理想化されたモデルを超えて移動します。
結果は、不確実性の下での適応計画の改善を示しており、実際のアプリケーションのインタラクティブな意思決定の分野を進めています。

要約(オリジナル)

Interactive decision-making is essential in applications such as autonomous driving, where the agent must infer the behavior of nearby human drivers while planning in real-time. Traditional predict-then-act frameworks are often insufficient or inefficient because accurate inference of human behavior requires a continuous interaction rather than isolated prediction. To address this, we propose an active learning framework in which we rigorously derive predicted belief distributions. Additionally, we introduce a novel model-based diffusion solver tailored for online receding horizon control problems, demonstrated through a complex, non-convex highway merging scenario. Our approach extends previous high-fidelity dual control simulations to hardware experiments, which may be viewed at https://youtu.be/Q_JdZuopGL4, and verifies behavior inference in human-driven traffic scenarios, moving beyond idealized models. The results show improvements in adaptive planning under uncertainty, advancing the field of interactive decision-making for real-world applications.

arxiv情報

著者 Jacob Knaup,Jovin D’sa,Behdad Chalaki,Hossein Nourkhiz Mahjoub,Ehsan Moradi-Pari,Panagiotis Tsiotras
発行日 2025-02-14 05:06:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY, math.OC | Dual Control for Interactive Autonomous Merging with Model Predictive Diffusion はコメントを受け付けていません

Global-Local Interface for On-Demand Teleoperation

要約

遠隔操作は、人間のロボットインターフェースの重要な方法であり、産業および構造化されていない環境でロボットアプリケーションを有効にするための重要な可能性を秘めています。
既存のテレオ操作方法には、柔軟性、ワークスペースの範囲、精度に明確な強みと制限があります。
これらの利点を融合するために、Global-Local(G-L)Teleoperation Interfaceを紹介します。
このインターフェイスは、ロボットのテレオ操作をグローバルな動作に切り離します。これにより、ロボットの動き範囲と直感性、および局所的な動作が保証され、人間のオペレーターの器用さと素晴らしいタスクを実行する能力が向上します。
G-Lインターフェイスは、ピックアンドプレイスなどの従来のタスクだけでなく、微妙な操作や大規模な動きにも挑戦するために、効率的なテレオ操作を可能にします。
G-Lインターフェイスに基づいて、さまざまなリモートコントロールデバイスを備えた単一腕とデュアルアームテレオ操作システムを構築し、大きなモーション範囲、正確な操作、または器用なエンドエフェクター制御を必要とするタスクを実証しました。
提案されたインターフェイスのユーザーフレンドリー、正確性、および一般化可能性を大幅に検証しました。

要約(オリジナル)

Teleoperation is a critical method for human-robot interface, holds significant potential for enabling robotic applications in industrial and unstructured environments. Existing teleoperation methods have distinct strengths and limitations in flexibility, range of workspace and precision. To fuse these advantages, we introduce the Global-Local (G-L) Teleoperation Interface. This interface decouples robotic teleoperation into global behavior, which ensures the robot motion range and intuitiveness, and local behavior, which enhances human operator’s dexterity and capability for performing fine tasks. The G-L interface enables efficient teleoperation not only for conventional tasks like pick-and-place, but also for challenging fine manipulation and large-scale movements. Based on the G-L interface, we constructed a single-arm and a dual-arm teleoperation system with different remote control devices, then demonstrated tasks requiring large motion range, precise manipulation or dexterous end-effector control. Extensive experiments validated the user-friendliness, accuracy, and generalizability of the proposed interface.

arxiv情報

著者 Jianshu Zhou,Boyuan Liang,Junda Huang,Ian Zhang,Pieter Abbeel,Masayoshi Tomizuka
発行日 2025-02-14 07:36:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Global-Local Interface for On-Demand Teleoperation はコメントを受け付けていません

V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models

要約

現在の自律運転車両は、主に個々のセンサーに依存して、周囲のシーンを理解し、将来の軌跡を計画します。
この問題に対処するために、車両から車両(V2V)通信を介した協同的認識方法が提案されていますが、検出と追跡に焦点を当てる傾向がありました。
これらのアプローチが全体的な協同組合の計画パフォーマンスにどのように貢献するかは、まだ依然として標準未満です。
大規模な言語モデル(LLMS)を使用して自律駆動システムを構築する最近の進捗状況に触発された私たちは、LLMを協力的な自律運転に統合する新しい問題設定を提案し、車両から車両から車両への質問回答(V2V-QA)データセットと
ベンチマーク。
また、LLMを使用して複数の接続された自律車両(Cavs)から知覚情報を融合し、運転関連の質問に応答するベースラインメソッドの車両間大型言語モデル(V2V-LLM)を提案します。
計画。
実験結果は、提案されているV2V-LLMが、協力的な自律運転のさまざまなタスクを実行するための有望な統一モデルアーキテクチャになり、異なる核融合アプローチを使用する他のベースライン方法よりも優れていることを示しています。
また、私たちの仕事は、将来の自律駆動システムの安全性を改善できる新しい研究の方向性も生み出しています。
当社のプロジェクトWebサイト:https://eddyhkchiu.github.io/v2vllm.github.io/。

要約(オリジナル)

Current autonomous driving vehicles rely mainly on their individual sensors to understand surrounding scenes and plan for future trajectories, which can be unreliable when the sensors are malfunctioning or occluded. To address this problem, cooperative perception methods via vehicle-to-vehicle (V2V) communication have been proposed, but they have tended to focus on detection and tracking. How those approaches contribute to overall cooperative planning performance is still under-explored. Inspired by recent progress using Large Language Models (LLMs) to build autonomous driving systems, we propose a novel problem setting that integrates an LLM into cooperative autonomous driving, with the proposed Vehicle-to-Vehicle Question-Answering (V2V-QA) dataset and benchmark. We also propose our baseline method Vehicle-to-Vehicle Large Language Model (V2V-LLM), which uses an LLM to fuse perception information from multiple connected autonomous vehicles (CAVs) and answer driving-related questions: grounding, notable object identification, and planning. Experimental results show that our proposed V2V-LLM can be a promising unified model architecture for performing various tasks in cooperative autonomous driving, and outperforms other baseline methods that use different fusion approaches. Our work also creates a new research direction that can improve the safety of future autonomous driving systems. Our project website: https://eddyhkchiu.github.io/v2vllm.github.io/ .

arxiv情報

著者 Hsu-kuang Chiu,Ryo Hachiuma,Chien-Yi Wang,Stephen F. Smith,Yu-Chiang Frank Wang,Min-Hung Chen
発行日 2025-02-14 08:05:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models はコメントを受け付けていません

Dream to Drive: Model-Based Vehicle Control Using Analytic World Models

要約

微分可能なシミュレーターは、最近、自動運転車コントローラーをトレーニングするための大きな可能性を示しています。
それらを通過することができるため、それらはエンドツーエンドのトレーニングループに配置することができ、既知のダイナミクスがポリシーを学習するための有用な事前に変わり、環境の典型的なブラックボックスの仮定を削除します。
これまでのところ、これらのシステムはポリシーのトレーニングにのみ使用されてきました。
しかし、これは彼らが提供できるものの観点からの物語の終わりではありません。
ここでは、初めて、それらを使用して世界モデルを訓練します。
具体的には、次の状態予測因子、最適なプランナー、および最適な逆状態を学習できる3つの新しいタスクセットアップを提示します。
現在のアクションに関して次のシミュレータ状態の勾配を必要とする分析ポリシー勾配(APG)とは異なり、提案されたセットアップは、現在の状態に関して次の状態の勾配に依存しています。
このアプローチを分析ワールドモデル(AWM)と呼び、WayMaxシミュレーターでの計画に使用する方法など、アプリケーションを紹介します。
このようなシミュレーターで可能なことの限界を押し上げることとは別に、大規模なWaymoオープンモーションデータセットのパフォーマンスを増加させる改善されたトレーニングレシピを提供します。

要約(オリジナル)

Differentiable simulators have recently shown great promise for training autonomous vehicle controllers. Being able to backpropagate through them, they can be placed into an end-to-end training loop where their known dynamics turn into useful priors for the policy to learn, removing the typical black box assumption of the environment. So far, these systems have only been used to train policies. However, this is not the end of the story in terms of what they can offer. Here, for the first time, we use them to train world models. Specifically, we present three new task setups that allow us to learn next state predictors, optimal planners, and optimal inverse states. Unlike analytic policy gradients (APG), which requires the gradient of the next simulator state with respect to the current actions, our proposed setups rely on the gradient of the next state with respect to the current state. We call this approach Analytic World Models (AWMs) and showcase its applications, including how to use it for planning in the Waymax simulator. Apart from pushing the limits of what is possible with such simulators, we offer an improved training recipe that increases performance on the large-scale Waymo Open Motion dataset by up to 12% compared to baselines at essentially no additional cost.

arxiv情報

著者 Asen Nachkov,Danda Pani Paudel,Jan-Nico Zaech,Davide Scaramuzza,Luc Van Gool
発行日 2025-02-14 08:46:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Dream to Drive: Model-Based Vehicle Control Using Analytic World Models はコメントを受け付けていません

Autoware.Flex: Human-Instructed Dynamically Reconfigurable Autonomous Driving Systems

要約

既存の自律運転システム(ADS)は独立して運転決定を下しますが、2つの大きな制限に直面しています。
第一に、複雑なシナリオでは、広告は環境を誤って解釈し、不適切な運転決定を下す可能性があります。
第二に、これらのシステムは、意思決定プロセスに人間の運転の好みを組み込むことができません。
このペーパーでは、AutoWare $。$ FLEXを提案します。これは、人間の入力を運転プロセスに組み込み、ユーザーがより適切な決定を下し、好みが満たされるように広告を導くことができるようにします。
これを達成する必要があります:(1)自然言語で表現された人間の指示を広告が理解できる形式に翻訳し、(2)これらの指示が広告の意思決定フレームワーク内で安全かつ一貫して実行されることを保証する

最初の課題では、ADS専門知識ベースで支援された大規模な言語モデル(LLM)を採用して、ドメイン固有の翻訳を強化します。
2番目の課題では、人間の指示が安全で一貫した運転行動をもたらすように、検証メカニズムを設計します。
シミュレータと実際の自律型車両の両方で実施さ​​れた実験は、AutoWare $。$ Flexが人間の指示を効果的に解釈し、安全に実行することを示しています。

要約(オリジナル)

Existing Autonomous Driving Systems (ADS) independently make driving decisions, but they face two significant limitations. First, in complex scenarios, ADS may misinterpret the environment and make inappropriate driving decisions. Second, these systems are unable to incorporate human driving preferences in their decision-making processes. This paper proposes Autoware$.$Flex, a novel ADS system that incorporates human input into the driving process, allowing users to guide the ADS in making more appropriate decisions and ensuring their preferences are satisfied. Achieving this needs to address two key challenges: (1) translating human instructions, expressed in natural language, into a format the ADS can understand, and (2) ensuring these instructions are executed safely and consistently within the ADS’ s decision-making framework. For the first challenge, we employ a Large Language Model (LLM) assisted by an ADS-specialized knowledge base to enhance domain-specific translation. For the second challenge, we design a validation mechanism to ensure that human instructions result in safe and consistent driving behavior. Experiments conducted on both simulators and a real-world autonomous vehicle demonstrate that Autoware$.$Flex effectively interprets human instructions and executes them safely.

arxiv情報

著者 Ziwei Song,Mingsong Lv,Tianchi Ren,Chun Jason Xue,Jen-Ming Wu,Nan Guan
発行日 2025-02-14 09:12:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.RO | Autoware.Flex: Human-Instructed Dynamically Reconfigurable Autonomous Driving Systems はコメントを受け付けていません

Diffusion Trajectory-guided Policy for Long-horizon Robot Manipulation

要約

最近、Vision-Language-active Models(VLA)には高度なロボット模倣学習がありますが、高いデータ収集コストと限られたデモンストレーションは、特に長老のタスクで、分散型シナリオで一般化と現在の模倣学習方法の闘争を妨げています。
重要な課題は、模倣学習の複合エラーを緩和する方法です。
これらの課題に対処するために、拡散軌跡誘導ポリシー(DTP)フレームワークを提案します。これは、拡散モデルを介して2D軌道を生成し、長期式タスクのポリシー学習をガイドします。
タスク関連の軌跡を活用することにより、DTPはエラーの蓄積を減らすための軌跡レベルのガイダンスを提供します。
私たちの2段階のアプローチは、最初に拡散ベースの軌跡を作成するための生成的ビジョン言語モデルをトレーニングし、それらを使用して模倣ポリシーを改良します。
Calvinベンチマークでの実験は、DTPが外部の事前トレーニングなしでゼロから始まる最先端のベースラインを25%上回ることを示しています。
さらに、DTPは現実世界のロボットのパフォーマンスを大幅に改善します。

要約(オリジナル)

Recently, Vision-Language-Action models (VLA) have advanced robot imitation learning, but high data collection costs and limited demonstrations hinder generalization and current imitation learning methods struggle in out-of-distribution scenarios, especially for long-horizon tasks. A key challenge is how to mitigate compounding errors in imitation learning, which lead to cascading failures over extended trajectories. To address these challenges, we propose the Diffusion Trajectory-guided Policy (DTP) framework, which generates 2D trajectories through a diffusion model to guide policy learning for long-horizon tasks. By leveraging task-relevant trajectories, DTP provides trajectory-level guidance to reduce error accumulation. Our two-stage approach first trains a generative vision-language model to create diffusion-based trajectories, then refines the imitation policy using them. Experiments on the CALVIN benchmark show that DTP outperforms state-of-the-art baselines by 25% in success rate, starting from scratch without external pretraining. Moreover, DTP significantly improves real-world robot performance.

arxiv情報

著者 Shichao Fan,Quantao Yang,Yajie Liu,Kun Wu,Zhengping Che,Qingjie Liu,Min Wan
発行日 2025-02-14 09:38:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Diffusion Trajectory-guided Policy for Long-horizon Robot Manipulation はコメントを受け付けていません

Occupancy-SLAM: An Efficient and Robust Algorithm for Simultaneously Optimizing Robot Poses and Occupancy Map

要約

ポーズと特徴の共同最適化は、特徴ベースのスラム問題でより正確な結果をもたらすことが広範囲に研究され、実証されています。
ただし、共同でポーズと非機能ベースのマップの最適化に関する研究は限られたままです。
占有マップは、スペースを障害物、自由エリア、未知の地域に効果的に分類し、さまざまなタスクの空間情報をロボットに提供するため、広く使用されていない環境表現です。
この論文では、パラメーター化されたマップ表現を介してロボット軌道と占有マップの共同最適化を可能にする新しい最適化ベースのスラム法である占有スラムを提案します。
重要なノベルティは、ロボットのポーズと占有値の両方を異なるセル頂点で同時に最適化することにあります。これは、マップを推定する前にロボットポーズを最初に最適化する必要がある既存の方法からの大幅な逸脱です。
シミュレーションと実用的な2Dレーザーデータセットを使用した評価は、提案されたアプローチが、同等の計算時間のある最先端の技術よりも、より正確なロボット軌道と占有マップを堅牢に取得できることを示しています。
3Dケースの予備的な結果は、実際の3Dアプリケーションで提案された方法の可能性をさらに確認し、既存の方法よりも正確な結果を達成します。

要約(オリジナル)

Joint optimization of poses and features has been extensively studied and demonstrated to yield more accurate results in feature-based SLAM problems. However, research on jointly optimizing poses and non-feature-based maps remains limited. Occupancy maps are widely used non-feature-based environment representations because they effectively classify spaces into obstacles, free areas, and unknown regions, providing robots with spatial information for various tasks. In this paper, we propose Occupancy-SLAM, a novel optimization-based SLAM method that enables the joint optimization of robot trajectory and the occupancy map through a parameterized map representation. The key novelty lies in optimizing both robot poses and occupancy values at different cell vertices simultaneously, a significant departure from existing methods where the robot poses need to be optimized first before the map can be estimated. Evaluations using simulations and practical 2D laser datasets demonstrate that the proposed approach can robustly obtain more accurate robot trajectories and occupancy maps than state-of-the-art techniques with comparable computational time. Preliminary results in the 3D case further confirm the potential of the proposed method in practical 3D applications, achieving more accurate results than existing methods.

arxiv情報

著者 Yingyu Wang,Liang Zhao,Shoudong Huang
発行日 2025-02-14 10:14:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Occupancy-SLAM: An Efficient and Robust Algorithm for Simultaneously Optimizing Robot Poses and Occupancy Map はコメントを受け付けていません