Diffusion-based learning of contact plans for agile locomotion

要約

脚式ロボットは、ここ数年で非常にダイナミックな操作を実行できるようになりました。
しかし、飛び石などの非常に制限された環境での機敏な移動は依然として課題です。
この論文では、モデルベースの制御、検索、学習を組み合わせて、飛び石の上での機敏な移動のための効率的な制御ポリシーを設計することを提案します。
私たちのフレームワークでは、非線形モデル予測制御 (NMPC) を使用して、特定の接触計画に対する全身の動きを生成します。
最適な接触計画を効率的に探索するために、モンテカルロ木探索 (MCTS) を使用することを提案します。
MCTS と NMPC を組み合わせると、特定の環境で実行可能なプランを迅速に (数秒) 見つけることができますが、事後対応のポリシーとして使用するにはまだ適していません。
したがって、特定のシーンに最適な目標条件付きポリシーのデータセットを生成し、教師あり学習を通じて学習します。
特に、データセット内のマルチモダリティを処理する際に拡散モデルの力を活用します。
四足ロボット Solo12 が高度に制約された環境でさまざまな目標にジャンプするシナリオで、提案されたフレームワークをテストします。

要約(オリジナル)

Legged robots have become capable of performing highly dynamic maneuvers in the past few years. However, agile locomotion in highly constrained environments such as stepping stones is still a challenge. In this paper, we propose a combination of model-based control, search, and learning to design efficient control policies for agile locomotion on stepping stones. In our framework, we use nonlinear model predictive control (NMPC) to generate whole-body motions for a given contact plan. To efficiently search for an optimal contact plan, we propose to use Monte Carlo tree search (MCTS). While the combination of MCTS and NMPC can quickly find a feasible plan for a given environment (a few seconds), it is not yet suitable to be used as a reactive policy. Hence, we generate a dataset for optimal goal-conditioned policy for a given scene and learn it through supervised learning. In particular, we leverage the power of diffusion models in handling multi-modality in the dataset. We test our proposed framework on a scenario where our quadruped robot Solo12 successfully jumps to different goals in a highly constrained environment.

arxiv情報

著者 Victor Dhédin,Adithya Kumar Chinnakkonda Ravi,Armand Jordana,Huaijiang Zhu,Avadesh Meduri,Ludovic Righetti,Bernhard Schölkopf,Majid Khadiv
発行日 2024-10-14 12:29:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Diffusion-based learning of contact plans for agile locomotion はコメントを受け付けていません

Reinforcement Learning For Quadrupedal Locomotion: Current Advancements And Future Perspectives

要約

近年、強化学習 (RL) ベースの四足歩行制御が、従来の制御方法と比較した自律学習と適応の潜在的な利点によって、広範囲に研究される分野として浮上しています。
この論文では、RL 技術を四足ロボットの移動コントローラーの開発に適用する際の最新の研究について包括的に研究しています。
学習アルゴリズム、トレーニング カリキュラム、報酬の定式化、シミュレーションから現実への移行技術など、RL ベースの移動コントローラーの中核となる概念、方法論、主な進歩の詳細な概要を紹介します。
この研究では、歩行制限アプローチと歩行制限アプローチの両方を取り上げ、それぞれの長所と限界を強調しています。
さらに、これらのコントローラーとロボット ハードウェアの統合、および適応動作を可能にするセンサー フィードバックの役割についても説明します。
この論文では、外受容センシングの組み込み、モデルベース技術とモデルフリー技術の組み合わせ、オンライン学習機能の開発など、将来の研究の方向性についても概説しています。
私たちの研究の目的は、研究者や実践者に RL ベースの移動制御装置の最先端の包括的な理解を提供し、既存の研究に基づいて構築し、実際の四足歩行ロボットの可動性と適応性を強化するための新しいソリューションを探索できるようにすることです。
-世界環境。

要約(オリジナル)

In recent years, reinforcement learning (RL) based quadrupedal locomotion control has emerged as an extensively researched field, driven by the potential advantages of autonomous learning and adaptation compared to traditional control methods. This paper provides a comprehensive study of the latest research in applying RL techniques to develop locomotion controllers for quadrupedal robots. We present a detailed overview of the core concepts, methodologies, and key advancements in RL-based locomotion controllers, including learning algorithms, training curricula, reward formulations, and simulation-to-real transfer techniques. The study covers both gait-bound and gait-free approaches, highlighting their respective strengths and limitations. Additionally, we discuss the integration of these controllers with robotic hardware and the role of sensor feedback in enabling adaptive behavior. The paper also outlines future research directions, such as incorporating exteroceptive sensing, combining model-based and model-free techniques, and developing online learning capabilities. Our study aims to provide researchers and practitioners with a comprehensive understanding of the state-of-the-art in RL-based locomotion controllers, enabling them to build upon existing work and explore novel solutions for enhancing the mobility and adaptability of quadrupedal robots in real-world environments.

arxiv情報

著者 Maurya Gurram,Prakash Kumar Uttam,Shantipal S. Ohol
発行日 2024-10-14 12:32:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Reinforcement Learning For Quadrupedal Locomotion: Current Advancements And Future Perspectives はコメントを受け付けていません

Exploiting Local Features and Range Images for Small Data Real-Time Point Cloud Semantic Segmentation

要約

点群のセマンティック セグメンテーションは、自動運転やロボット工学における環境を理解するために不可欠なタスクです。
最近の範囲ベースの作業はリアルタイムの効率を実現しますが、ポイントベースおよびボクセルベースの方法はより良い結果を生み出しますが、高い計算の複雑さの影響を受けます。
さらに、非常に複雑な深層学習モデルは、多くの場合、小さなデータセットから効率的に学習するのには適していません。
その一般化機能は、アーキテクチャ設計ではなく、豊富なデータによって簡単に推進できます。
この論文では、3 次元表現からの情報を利用して局所的な特徴を適切に捕捉するとともに、追加情報を組み込んで高速計算を容易にするために距離画像表現を導入します。
GPU ベースの KDTree により、簡単な操作で投影を迅速に構築、クエリ、強化できます。
SemanticKITTI および nuScenes データセットに関する広範な実験は、モデルのトレーニングにデータセットの 1 つのシーケンスのみが使用される「小規模データ」セットアップでの変更の利点を示していますが、1 つを除くすべてのシーケンスが使用される従来のセットアップでも同様です。
トレーニングに使用されます。
私たちのモデルの縮小バージョンは、フルスケールの最先端モデルに対して強力な競争力を示すだけでなく、リアルタイムで動作するため、現実世界のケースアプリケーションで実行可能な選択肢となることを示します。
私たちのメソッドのコードは https://github.com/Bender97/WaffleAndRange で入手できます。

要約(オリジナル)

Semantic segmentation of point clouds is an essential task for understanding the environment in autonomous driving and robotics. Recent range-based works achieve real-time efficiency, while point- and voxel-based methods produce better results but are affected by high computational complexity. Moreover, highly complex deep learning models are often not suited to efficiently learn from small datasets. Their generalization capabilities can easily be driven by the abundance of data rather than the architecture design. In this paper, we harness the information from the three-dimensional representation to proficiently capture local features, while introducing the range image representation to incorporate additional information and facilitate fast computation. A GPU-based KDTree allows for rapid building, querying, and enhancing projection with straightforward operations. Extensive experiments on SemanticKITTI and nuScenes datasets demonstrate the benefits of our modification in a “small data” setup, in which only one sequence of the dataset is used to train the models, but also in the conventional setup, where all sequences except one are used for training. We show that a reduced version of our model not only demonstrates strong competitiveness against full-scale state-of-the-art models but also operates in real-time, making it a viable choice for real-world case applications. The code of our method is available at https://github.com/Bender97/WaffleAndRange.

arxiv情報

著者 Daniel Fusaro,Simone Mosco,Emanuele Menegatti,Alberto Pretto
発行日 2024-10-14 13:49:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Exploiting Local Features and Range Images for Small Data Real-Time Point Cloud Semantic Segmentation はコメントを受け付けていません

ROSAR: An Adversarial Re-Training Framework for Robust Side-Scan Sonar Object Detection

要約

この論文では、ソナー センサーを使用して自律型水中ビークルによって生成されるサイドスキャン ソナー (SSS) 画像に合わせた深層学習物体検出モデルの堅牢性を強化する新しいフレームワークである ROSAR を紹介します。
知識蒸留 (KD) に関するこれまでの研究を拡張することで、このフレームワークは KD を敵対的再トレーニングと統合し、モデルの効率性と SSS ノイズに対する堅牢性という 2 つの課題に対処します。
さまざまなソナー設定と騒音条件をキャプチャする、公開されている 3 つの新しい SSS データセットを紹介します。
私たちは 2 つの SSS 安全特性を提案して形式化し、それらを再トレーニング用の敵対的データセットの生成に利用します。
ROSAR は、投影勾配降下法 (PGD) とパッチベースの敵対的攻撃の比較分析を通じて、SSS 固有の条件下でモデルの堅牢性と検出精度が大幅に向上し、モデルの堅牢性が最大 1.85% 向上することを実証しました。
ROSAR は https://github.com/remaro-network/ROSAR-framework で入手できます。

要約(オリジナル)

This paper introduces ROSAR, a novel framework enhancing the robustness of deep learning object detection models tailored for side-scan sonar (SSS) images, generated by autonomous underwater vehicles using sonar sensors. By extending our prior work on knowledge distillation (KD), this framework integrates KD with adversarial retraining to address the dual challenges of model efficiency and robustness against SSS noises. We introduce three novel, publicly available SSS datasets, capturing different sonar setups and noise conditions. We propose and formalize two SSS safety properties and utilize them to generate adversarial datasets for retraining. Through a comparative analysis of projected gradient descent (PGD) and patch-based adversarial attacks, ROSAR demonstrates significant improvements in model robustness and detection accuracy under SSS-specific conditions, enhancing the model’s robustness by up to 1.85%. ROSAR is available at https://github.com/remaro-network/ROSAR-framework.

arxiv情報

著者 Martin Aubard,László Antal,Ana Madureira,Luis F. Teixeira,Erika Ábrahám
発行日 2024-10-14 14:33:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | ROSAR: An Adversarial Re-Training Framework for Robust Side-Scan Sonar Object Detection はコメントを受け付けていません

Reflexive Input-Output Causality Mechanisms

要約

この論文では、反射的作動の概念を探求し、ロボットが内部および外部の両方の刺激をどのように活用して、ロボットの動作、性能、またはサイズ、形状、構成などの物理的特性の変化を引き起こすかを検討します。
これらの変更自体は、さらなる適応を促進するための入力として順番に再利用される可能性があります。
反射神経が環境変化への反応に不可欠な要素である生物学的システムからインスピレーションを得ており、ロボットが多様な状況に適応し、複雑なタスクを実行できるようにするためには、反射的な作動が不可欠です。
接触に敏感な反射アーム、物理カウンター、およびそれらのアプリケーションなどの既存の実装から提供される例を使用して、反射作動の基礎となる原理が分析されます。
また、この論文では、この研究分野を前進させるための将来の方向性と課題についても概説し、適応性と応答性の高いロボット システムの開発におけるその重要性を強調しています。

要約(オリジナル)

This paper explores the concept of reflexive actuation, examining how robots may leverage both internal and external stimuli to trigger changes in the motion, performance, or physical characteristics of the robot, such as its size, shape, or configuration, and so on. These changes themselves may in turn be sequentially re-used as input to drive further adaptations. Drawing inspiration from biological systems, where reflexes are an essential component of the response to environmental changes, reflexive actuation is critical to enable robots to adapt to diverse situations and perform complex tasks. The underlying principles of reflexive actuation are analyzed, with examples provided from existing implementations such as contact-sensitive reflexive arms, physical counters, and their applications. The paper also outlines future directions and challenges for advancing this research area, emphasizing its significance in the development of adaptive, responsive robotic systems.

arxiv情報

著者 Ryotaro Kayawake,Haruto Miida,Shunsuke Sano,Issei Onda,Kazuki Abe,Masahiro Watanabe,Josephine Galipon,Riichiro Tadakuma,Kenjiro Tadakuma
発行日 2024-10-14 14:46:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.ET, cs.RO, cs.SY, eess.SY | Reflexive Input-Output Causality Mechanisms はコメントを受け付けていません

Words to Wheels: Vision-Based Autonomous Driving Understanding Human Language Instructions Using Foundation Models

要約

この論文では、RGB-D カメラを搭載した無人地上車両 (UGV) が人間の言語の指示に基づいて指定された目的地まで移動できるようにする、基礎モデルの革新的なアプリケーションを紹介します。
学習ベースの方法とは異なり、このアプローチは事前のトレーニングを必要とせず、代わりに既存の基礎モデルを活用するため、新しい環境への一般化が容易になります。
人間の言語による指示を受け取ると、これらは大規模言語モデル (LLM) を使用した「認知ルート記述」、つまり人間の言語で表現された詳細なナビゲーション ルートに変換されます。
次に、車両はこの記述をランドマークとナビゲーション操作に分解します。
この車両はまた、オープン データセットでトレーニングされた地形セグメンテーション モデル (GANav) を通じて、標高コストを決定し、さまざまな地域のナビゲーション レベルを識別します。
標高とナビゲーション可能性レベルの両方を考慮した意味論的標高コストが推定され、ローカル パス計画を担当するモデル予測パス積分 (MPPI) プランナーに提供されます。
同時に、車両は YOLO-World や EfficientViT-SAM などの基礎モデルを使用してターゲットのランドマークを検索します。
最終的に、車両はナビゲーション コマンドを実行して、指定された目的地、つまり最終ランドマークに到達します。
私たちの実験では、このアプリケーションが、なじみのない地形や都市環境などの新しい環境において、人間の言語の指示に従って UGV を目的地までうまく誘導できることが実証されました。

要約(オリジナル)

This paper introduces an innovative application of foundation models, enabling Unmanned Ground Vehicles (UGVs) equipped with an RGB-D camera to navigate to designated destinations based on human language instructions. Unlike learning-based methods, this approach does not require prior training but instead leverages existing foundation models, thus facilitating generalization to novel environments. Upon receiving human language instructions, these are transformed into a ‘cognitive route description’ using a large language model (LLM)-a detailed navigation route expressed in human language. The vehicle then decomposes this description into landmarks and navigation maneuvers. The vehicle also determines elevation costs and identifies navigability levels of different regions through a terrain segmentation model, GANav, trained on open datasets. Semantic elevation costs, which take both elevation and navigability levels into account, are estimated and provided to the Model Predictive Path Integral (MPPI) planner, responsible for local path planning. Concurrently, the vehicle searches for target landmarks using foundation models, including YOLO-World and EfficientViT-SAM. Ultimately, the vehicle executes the navigation commands to reach the designated destination, the final landmark. Our experiments demonstrate that this application successfully guides UGVs to their destinations following human language instructions in novel environments, such as unfamiliar terrain or urban settings.

arxiv情報

著者 Chanhoe Ryu,Hyunki Seong,Daegyu Lee,Seongwoo Moon,Sungjae Min,D. Hyunchul Shim
発行日 2024-10-14 14:51:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Words to Wheels: Vision-Based Autonomous Driving Understanding Human Language Instructions Using Foundation Models はコメントを受け付けていません

Ergodic Trajectory Optimization on Generalized Domains Using Maximum Mean Discrepancy

要約

カーネル最大平均不一致を使用して一般領域にわたって指定できるエルゴード軌道最適化の新しい定式化を提案します。
エルゴディック軌道の最適化は、ロボット検査、情報収集の問題、捜索救助に関連する問題に対するカバレッジ パスを生成する効果的なアプローチです。
これらの最適化スキームにより、ロボットは、その地域を訪問することで期待される有用性に比例して、その地域で時間を過ごすことが強制されます。
エルゴード軌道を最適化する現在の方法は、定義されたユーティリティマップや明確に定義された空間基底関数などの領域固有の知識に依存して、エルゴード軌道を生成します。
ここでは、検索ドメインからのサンプルのみを必要とする最大平均不一致に基づくエルゴード軌道最適化の一般化を示します。
我々は、領域固有の知識にアクセスすることなく、微分運動学制約のある物体のロボット検査やリー群などのさまざまな問題領域のカバレッジ軌道を生成するアプローチの能力を実証します。
さらに、我々は、領域固有の知識と計算スケーリングとの間のトレードオフを伴うエルゴード軌道最適化のための既存の最先端の方法と比較して、有利な計算スケーリングを示し、これにより、より広いアプリケーションドメインでエルゴードの適用範囲の多用途性を拡張する。

要約(オリジナル)

We present a novel formulation of ergodic trajectory optimization that can be specified over general domains using kernel maximum mean discrepancy. Ergodic trajectory optimization is an effective approach that generates coverage paths for problems related to robotic inspection, information gathering problems, and search and rescue. These optimization schemes compel the robot to spend time in a region proportional to the expected utility of visiting that region. Current methods for ergodic trajectory optimization rely on domain-specific knowledge, e.g., a defined utility map, and well-defined spatial basis functions to produce ergodic trajectories. Here, we present a generalization of ergodic trajectory optimization based on maximum mean discrepancy that requires only samples from the search domain. We demonstrate the ability of our approach to produce coverage trajectories on a variety of problem domains including robotic inspection of objects with differential kinematics constraints and on Lie groups without having access to domain specific knowledge. Furthermore, we show favorable computational scaling compared to existing state-of-the-art methods for ergodic trajectory optimization with a trade-off between domain specific knowledge and computational scaling, thus extending the versatility of ergodic coverage on a wider application domain.

arxiv情報

著者 Christian Hughes,Houston Warren,Darrick Lee,Fabio Ramos,Ian Abraham
発行日 2024-10-14 15:10:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 93C85, cs.RO | Ergodic Trajectory Optimization on Generalized Domains Using Maximum Mean Discrepancy はコメントを受け付けていません

Fully Asynchronous Neuromorphic Perception for Mobile Robot Dodging with Loihi Chips

要約

自然生物におけるまばらで非同期のセンシングと処理は、超低遅延でエネルギー効率の高い知覚を実現します。
ニューロモーフィック ビジョン センサーとして知られるイベント カメラは、これらの特性を模倣するように設計されています。
ただし、疎な非同期イベント ストリームを完全に活用することは依然として困難です。
標準カメラの成熟したアルゴリズムの影響を受け、既存のイベントベースのアルゴリズムのほとんどは、イベント ストリームを処理する際に依然として「イベントのグループ」処理パラダイム (イベント フレーム、3D ボクセルなど) に依存しています。
このパラダイムは、イベント カメラの本来の目的から逸脱する、機能の損失、イベントのスタック、高い計算負荷などの問題に直面します。
これらの問題に対処するために、イベント カメラ、スパイキング ネットワーク、およびニューロモーフィック プロセッサ (Intel Loihi) を統合する、完全に非同期のニューロモーフィック パラダイムを提案します。
このパラダイムは、各イベントが到着すると忠実に非同期に処理でき、生物学的な脳におけるスパイク駆動の信号処理を模倣します。
実際の移動ロボットの回避タスクに関して、提案されたパラダイムを既存の「イベントのグループ」処理パラダイムと詳細に比較します。
実験結果は、私たちのスキームが異なる時間窓と光条件でフレームベースの方法よりも優れたロバスト性を示すことを示しています。
さらに、組み込み Loihi プロセッサ上のスキームの推論あたりのエネルギー消費量は、省エネ モードを備えた NVIDIA Jetson Orin NX 上のイベント スパイク テンソル法のエネルギー消費量のわずか 4.30%、NVIDIA Jetson Orin NX 上のイベント フレーム法のエネルギー消費量の 1.64% です。
同じニューロモーフィックプロセッサ。
私たちが知る限り、実際の移動ロボット上で連続タスクを解決するために完全に非同期のニューロモーフィック パラダイムが実装されたのはこれが初めてです。

要約(オリジナル)

Sparse and asynchronous sensing and processing in natural organisms lead to ultra low-latency and energy-efficient perception. Event cameras, known as neuromorphic vision sensors, are designed to mimic these characteristics. However, fully utilizing the sparse and asynchronous event stream remains challenging. Influenced by the mature algorithms of standard cameras, most existing event-based algorithms still rely on the ‘group of events’ processing paradigm (e.g., event frames, 3D voxels) when handling event streams. This paradigm encounters issues such as feature loss, event stacking, and high computational burden, which deviates from the intended purpose of event cameras. To address these issues, we propose a fully asynchronous neuromorphic paradigm that integrates event cameras, spiking networks, and neuromorphic processors (Intel Loihi). This paradigm can faithfully process each event asynchronously as it arrives, mimicking the spike-driven signal processing in biological brains. We compare the proposed paradigm with the existing ‘group of events’ processing paradigm in detail on the real mobile robot dodging task. Experimental results show that our scheme exhibits better robustness than frame-based methods with different time windows and light conditions. Additionally, the energy consumption per inference of our scheme on the embedded Loihi processor is only 4.30% of that of the event spike tensor method on NVIDIA Jetson Orin NX with energy-saving mode, and 1.64% of that of the event frame method on the same neuromorphic processor. As far as we know, this is the first time that a fully asynchronous neuromorphic paradigm has been implemented for solving sequential tasks on real mobile robot.

arxiv情報

著者 Junjie Jiang,Delei Kong,Chenming Hu,Zheng Fang
発行日 2024-10-14 15:12:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Fully Asynchronous Neuromorphic Perception for Mobile Robot Dodging with Loihi Chips はコメントを受け付けていません

Traversability-Aware Legged Navigation by Learning from Real-World Visual Data

要約

脚による移動によってもたらされる機動性の向上により、四足ロボットは複雑で構造化されていない環境を移動できるようになります。
しかし、さまざまな地形を移動する際のさまざまなエネルギーコストを考慮しながら機敏な移動を最適化することは、依然として未解決の課題です。
これまでの研究のほとんどは、人間がラベルを付けた環境特徴に基づいて通過コストを推定して軌道を計画することに焦点を当てていました。
しかし、この人間中心のアプローチは、困難な地形上でのロボット移動コントローラーのさまざまな能力を考慮していないため、不十分です。
これに対処するために、ロボットの移動コントローラの価値関数に基づいて、ロボット中心の方法で新しい移動可能性推定器を開発します。
この推定器は、新しい学習ベースの RGBD ナビゲーション フレームワークに統合されています。
このフレームワークは、目標を達成しながら障害物や通過しにくい地形を回避するようにロボットをガイドするプランナーを開発します。
ナビゲーション プランナーのトレーニングは、サンプルの効率的な強化学習手法を使用して、現実世界で直接実行されます。
広範なベンチマークを通じて、提案されたフレームワークが、実世界のトレーニングのための正確な通過性コスト推定とマルチモーダルデータ(ロボットの色と深さの視覚、および固有受容フィードバック)からの効率的な学習において最高のパフォーマンスを達成することを実証します。
提案された方法を使用すると、四足歩行ロボットは、深度視覚のみを使用して分類するのが難しい困難な地形を含むさまざまな現実世界の環境で、試行錯誤を通じて、通過可能性を意識したナビゲーションを実行する方法を学習します。

要約(オリジナル)

The enhanced mobility brought by legged locomotion empowers quadrupedal robots to navigate through complex and unstructured environments. However, optimizing agile locomotion while accounting for the varying energy costs of traversing different terrains remains an open challenge. Most previous work focuses on planning trajectories with traversability cost estimation based on human-labeled environmental features. However, this human-centric approach is insufficient because it does not account for the varying capabilities of the robot locomotion controllers over challenging terrains. To address this, we develop a novel traversability estimator in a robot-centric manner, based on the value function of the robot’s locomotion controller. This estimator is integrated into a new learning-based RGBD navigation framework. The framework develops a planner that guides the robot in avoiding obstacles and hard-to-traverse terrains while reaching its goals. The training of the navigation planner is directly performed in the real world using a sample efficient reinforcement learning method. Through extensive benchmarking, we demonstrate that the proposed framework achieves the best performance in accurate traversability cost estimation and efficient learning from multi-modal data (the robot’s color and depth vision, and proprioceptive feedback) for real-world training. Using the proposed method, a quadrupedal robot learns to perform traversability-aware navigation through trial and error in various real-world environments with challenging terrains that are difficult to classify using depth vision alone.

arxiv情報

著者 Hongbo Zhang,Zhongyu Li,Xuanqi Zeng,Laura Smith,Kyle Stachowicz,Dhruv Shah,Linzhu Yue,Zhitao Song,Weipeng Xia,Sergey Levine,Koushil Sreenath,Yun-hui Liu
発行日 2024-10-14 15:25:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Traversability-Aware Legged Navigation by Learning from Real-World Visual Data はコメントを受け付けていません

MLP-SLAM: Multilayer Perceptron-Based Simultaneous Localization and Mapping With a Dynamic and Static Object Discriminator

要約

Visual Simultaneous Localization and Mapping (V-SLAM) システムは近年大幅な発展を遂げており、動的オブジェクトが制限されている環境でも高い精度が実証されています。
ただし、屋外シーンで一般的な、歩行者、車、バスが存在する環境など、移動体の存在がより高い環境に導入すると、パフォーマンスが大幅に低下します。
この問題に対処するために、完全なジオメトリ情報を活用して情報損失を回避する、多層パーセプトロン (MLP) ベースのリアルタイム ステレオ SLAM システムを提案します。
さらに、現在、動的および静的特徴分類法の有効性を直接評価するための公的に利用可能なデータセットはありません。このギャップを埋めるために、50,000 を超える特徴点を含む公的に利用可能なデータセットを作成しました。
実験結果は、MLP ベースの動的および静的特徴点弁別器が、このデータセットで他の方法と比較して優れたパフォーマンスを達成したことを示しています。
さらに、MLP ベースのリアルタイム ステレオ SLAM システムは、他のダイナミック SLAM システムと比較して、屋外 KITTI 追跡データセットで最高の平均精度と最速の速度を示しました。オープンソース コードとデータセットは https://github で入手できます。
com/TaozheLi/MLP-SLAM。

要約(オリジナル)

The Visual Simultaneous Localization and Mapping (V-SLAM) system has seen significant development in recent years, demonstrating high precision in environments with limited dynamic objects. However, their performance significantly deteriorates when deployed in settings with a higher presence of movable objects, such as environments with pedestrians, cars, and buses, which are common in outdoor scenes. To address this issue, we propose a Multilayer Perceptron (MLP)-based real-time stereo SLAM system that leverages complete geometry information to avoid information loss. Moreover, there is currently no publicly available dataset for directly evaluating the effectiveness of dynamic and static feature classification methods, and to bridge this gap, we have created a publicly available dataset containing over 50,000 feature points. Experimental results demonstrate that our MLP-based dynamic and static feature point discriminator has achieved superior performance compared to other methods on this dataset. Furthermore, the MLP-based real-time stereo SLAM system has shown the highest average precision and fastest speed on the outdoor KITTI tracking datasets compared to other dynamic SLAM systems.The open-source code and datasets are available at https://github.com/TaozheLi/MLP-SLAM.

arxiv情報

著者 Taozhe Li,Wei Sun
発行日 2024-10-14 16:13:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | MLP-SLAM: Multilayer Perceptron-Based Simultaneous Localization and Mapping With a Dynamic and Static Object Discriminator はコメントを受け付けていません