Fully Asynchronous Neuromorphic Perception for Mobile Robot Dodging with Loihi Chips

要約

自然生物におけるまばらで非同期のセンシングと処理は、超低遅延でエネルギー効率の高い知覚を実現します。
ニューロモーフィック ビジョン センサーとして知られるイベント カメラは、これらの特性を模倣するように設計されています。
ただし、疎な非同期イベント ストリームを完全に活用することは依然として困難です。
標準カメラの成熟したアルゴリズムの影響を受け、既存のイベントベースのアルゴリズムのほとんどは、イベント ストリームを処理する際に依然として「イベントのグループ」処理パラダイム (イベント フレーム、3D ボクセルなど) に依存しています。
このパラダイムは、イベント カメラの本来の目的から逸脱する、機能の損失、イベントのスタック、高い計算負荷などの問題に直面します。
これらの問題に対処するために、イベント カメラ、スパイキング ネットワーク、およびニューロモーフィック プロセッサ (Intel Loihi) を統合する、完全に非同期のニューロモーフィック パラダイムを提案します。
このパラダイムは、各イベントが到着すると忠実に非同期に処理でき、生物学的な脳におけるスパイク駆動の信号処理を模倣します。
実際の移動ロボットの回避タスクに関して、提案されたパラダイムを既存の「イベントのグループ」処理パラダイムと詳細に比較します。
実験結果は、私たちのスキームが異なる時間窓と光条件でフレームベースの方法よりも優れたロバスト性を示すことを示しています。
さらに、組み込み Loihi プロセッサ上のスキームの推論あたりのエネルギー消費量は、省エネ モードを備えた NVIDIA Jetson Orin NX 上のイベント スパイク テンソル法のエネルギー消費量のわずか 4.30%、NVIDIA Jetson Orin NX 上のイベント フレーム法のエネルギー消費量の 1.64% です。
同じニューロモーフィックプロセッサ。
私たちが知る限り、実際の移動ロボット上で連続タスクを解決するために完全に非同期のニューロモーフィック パラダイムが実装されたのはこれが初めてです。

要約(オリジナル)

Sparse and asynchronous sensing and processing in natural organisms lead to ultra low-latency and energy-efficient perception. Event cameras, known as neuromorphic vision sensors, are designed to mimic these characteristics. However, fully utilizing the sparse and asynchronous event stream remains challenging. Influenced by the mature algorithms of standard cameras, most existing event-based algorithms still rely on the ‘group of events’ processing paradigm (e.g., event frames, 3D voxels) when handling event streams. This paradigm encounters issues such as feature loss, event stacking, and high computational burden, which deviates from the intended purpose of event cameras. To address these issues, we propose a fully asynchronous neuromorphic paradigm that integrates event cameras, spiking networks, and neuromorphic processors (Intel Loihi). This paradigm can faithfully process each event asynchronously as it arrives, mimicking the spike-driven signal processing in biological brains. We compare the proposed paradigm with the existing ‘group of events’ processing paradigm in detail on the real mobile robot dodging task. Experimental results show that our scheme exhibits better robustness than frame-based methods with different time windows and light conditions. Additionally, the energy consumption per inference of our scheme on the embedded Loihi processor is only 4.30% of that of the event spike tensor method on NVIDIA Jetson Orin NX with energy-saving mode, and 1.64% of that of the event frame method on the same neuromorphic processor. As far as we know, this is the first time that a fully asynchronous neuromorphic paradigm has been implemented for solving sequential tasks on real mobile robot.

arxiv情報

著者 Junjie Jiang,Delei Kong,Chenming Hu,Zheng Fang
発行日 2024-10-14 15:12:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Fully Asynchronous Neuromorphic Perception for Mobile Robot Dodging with Loihi Chips はコメントを受け付けていません

Traversability-Aware Legged Navigation by Learning from Real-World Visual Data

要約

脚による移動によってもたらされる機動性の向上により、四足ロボットは複雑で構造化されていない環境を移動できるようになります。
しかし、さまざまな地形を移動する際のさまざまなエネルギーコストを考慮しながら機敏な移動を最適化することは、依然として未解決の課題です。
これまでの研究のほとんどは、人間がラベルを付けた環境特徴に基づいて通過コストを推定して軌道を計画することに焦点を当てていました。
しかし、この人間中心のアプローチは、困難な地形上でのロボット移動コントローラーのさまざまな能力を考慮していないため、不十分です。
これに対処するために、ロボットの移動コントローラの価値関数に基づいて、ロボット中心の方法で新しい移動可能性推定器を開発します。
この推定器は、新しい学習ベースの RGBD ナビゲーション フレームワークに統合されています。
このフレームワークは、目標を達成しながら障害物や通過しにくい地形を回避するようにロボットをガイドするプランナーを開発します。
ナビゲーション プランナーのトレーニングは、サンプルの効率的な強化学習手法を使用して、現実世界で直接実行されます。
広範なベンチマークを通じて、提案されたフレームワークが、実世界のトレーニングのための正確な通過性コスト推定とマルチモーダルデータ(ロボットの色と深さの視覚、および固有受容フィードバック)からの効率的な学習において最高のパフォーマンスを達成することを実証します。
提案された方法を使用すると、四足歩行ロボットは、深度視覚のみを使用して分類するのが難しい困難な地形を含むさまざまな現実世界の環境で、試行錯誤を通じて、通過可能性を意識したナビゲーションを実行する方法を学習します。

要約(オリジナル)

The enhanced mobility brought by legged locomotion empowers quadrupedal robots to navigate through complex and unstructured environments. However, optimizing agile locomotion while accounting for the varying energy costs of traversing different terrains remains an open challenge. Most previous work focuses on planning trajectories with traversability cost estimation based on human-labeled environmental features. However, this human-centric approach is insufficient because it does not account for the varying capabilities of the robot locomotion controllers over challenging terrains. To address this, we develop a novel traversability estimator in a robot-centric manner, based on the value function of the robot’s locomotion controller. This estimator is integrated into a new learning-based RGBD navigation framework. The framework develops a planner that guides the robot in avoiding obstacles and hard-to-traverse terrains while reaching its goals. The training of the navigation planner is directly performed in the real world using a sample efficient reinforcement learning method. Through extensive benchmarking, we demonstrate that the proposed framework achieves the best performance in accurate traversability cost estimation and efficient learning from multi-modal data (the robot’s color and depth vision, and proprioceptive feedback) for real-world training. Using the proposed method, a quadrupedal robot learns to perform traversability-aware navigation through trial and error in various real-world environments with challenging terrains that are difficult to classify using depth vision alone.

arxiv情報

著者 Hongbo Zhang,Zhongyu Li,Xuanqi Zeng,Laura Smith,Kyle Stachowicz,Dhruv Shah,Linzhu Yue,Zhitao Song,Weipeng Xia,Sergey Levine,Koushil Sreenath,Yun-hui Liu
発行日 2024-10-14 15:25:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Traversability-Aware Legged Navigation by Learning from Real-World Visual Data はコメントを受け付けていません

MLP-SLAM: Multilayer Perceptron-Based Simultaneous Localization and Mapping With a Dynamic and Static Object Discriminator

要約

Visual Simultaneous Localization and Mapping (V-SLAM) システムは近年大幅な発展を遂げており、動的オブジェクトが制限されている環境でも高い精度が実証されています。
ただし、屋外シーンで一般的な、歩行者、車、バスが存在する環境など、移動体の存在がより高い環境に導入すると、パフォーマンスが大幅に低下します。
この問題に対処するために、完全なジオメトリ情報を活用して情報損失を回避する、多層パーセプトロン (MLP) ベースのリアルタイム ステレオ SLAM システムを提案します。
さらに、現在、動的および静的特徴分類法の有効性を直接評価するための公的に利用可能なデータセットはありません。このギャップを埋めるために、50,000 を超える特徴点を含む公的に利用可能なデータセットを作成しました。
実験結果は、MLP ベースの動的および静的特徴点弁別器が、このデータセットで他の方法と比較して優れたパフォーマンスを達成したことを示しています。
さらに、MLP ベースのリアルタイム ステレオ SLAM システムは、他のダイナミック SLAM システムと比較して、屋外 KITTI 追跡データセットで最高の平均精度と最速の速度を示しました。オープンソース コードとデータセットは https://github で入手できます。
com/TaozheLi/MLP-SLAM。

要約(オリジナル)

The Visual Simultaneous Localization and Mapping (V-SLAM) system has seen significant development in recent years, demonstrating high precision in environments with limited dynamic objects. However, their performance significantly deteriorates when deployed in settings with a higher presence of movable objects, such as environments with pedestrians, cars, and buses, which are common in outdoor scenes. To address this issue, we propose a Multilayer Perceptron (MLP)-based real-time stereo SLAM system that leverages complete geometry information to avoid information loss. Moreover, there is currently no publicly available dataset for directly evaluating the effectiveness of dynamic and static feature classification methods, and to bridge this gap, we have created a publicly available dataset containing over 50,000 feature points. Experimental results demonstrate that our MLP-based dynamic and static feature point discriminator has achieved superior performance compared to other methods on this dataset. Furthermore, the MLP-based real-time stereo SLAM system has shown the highest average precision and fastest speed on the outdoor KITTI tracking datasets compared to other dynamic SLAM systems.The open-source code and datasets are available at https://github.com/TaozheLi/MLP-SLAM.

arxiv情報

著者 Taozhe Li,Wei Sun
発行日 2024-10-14 16:13:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | MLP-SLAM: Multilayer Perceptron-Based Simultaneous Localization and Mapping With a Dynamic and Static Object Discriminator はコメントを受け付けていません

Active Learning of Robot Vision Using Adaptive Path Planning

要約

ロボットには、幾何学を超えて環境を認識し推論するための、堅牢で柔軟な視覚システムが必要です。
このようなシステムのほとんどは、深層学習アプローチに基づいて構築されています。
自律ロボットは通常、最初は未知の環境に配備されるため、静的データセットでの事前トレーニングでは常にさまざまな領域をキャプチャできるわけではなく、ミッション中のロボットの視覚パフォーマンスが制限されます。
最近、ロボットの視覚を改善するために、自己教師ありおよび完全教師ありのアクティブ学習手法が登場しました。
これらのアプローチは、大規模なドメイン内事前トレーニング データセットに依存するか、人間による多大なラベル付け作業を必要とします。
これらの問題に対処するために、セマンティック地形監視ミッションにおける人間によるラベル付けの要件を大幅に削減するために、効率的なトレーニング データ収集のための最近の適応型計画フレームワークを紹介します。
この目的を達成するために、高品質の人によるラベルと自動生成された疑似ラベルを組み合わせます。
実験結果は、このフレームワークが完全に教師ありのアプローチに近いセグメンテーション パフォーマンスに達し、人間によるラベル付けの労力が大幅に削減され、純粋に自己教師ありのアプローチを上回るパフォーマンスを示していることを示しています。
現在の手法の利点と限界について議論し、未知の環境におけるより堅牢で柔軟なロボットビジョンシステムに向けた将来の貴重な研究手段の概要を概説します。

要約(オリジナル)

Robots need robust and flexible vision systems to perceive and reason about their environments beyond geometry. Most of such systems build upon deep learning approaches. As autonomous robots are commonly deployed in initially unknown environments, pre-training on static datasets cannot always capture the variety of domains and limits the robot’s vision performance during missions. Recently, self-supervised as well as fully supervised active learning methods emerged to improve robotic vision. These approaches rely on large in-domain pre-training datasets or require substantial human labelling effort. To address these issues, we present a recent adaptive planning framework for efficient training data collection to substantially reduce human labelling requirements in semantic terrain monitoring missions. To this end, we combine high-quality human labels with automatically generated pseudo labels. Experimental results show that the framework reaches segmentation performance close to fully supervised approaches with drastically reduced human labelling effort while outperforming purely self-supervised approaches. We discuss the advantages and limitations of current methods and outline valuable future research avenues towards more robust and flexible robotic vision systems in unknown environments.

arxiv情報

著者 Julius Rückin,Federico Magistri,Cyrill Stachniss,Marija Popović
発行日 2024-10-14 16:21:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Active Learning of Robot Vision Using Adaptive Path Planning はコメントを受け付けていません

Harnessing with Twisting: Single-Arm Deformable Linear Object Manipulation for Industrial Harnessing Task

要約

ワイヤーハーネス作業は、変形可能なワイヤーの複雑な力学と予測不可能な動作により、ロボットによる自動化には大きな課題が生じます。
従来の方法は、デュアル ロボット アームや触覚センシングに依存することが多く、適応性、コスト、拡張性の点で限界に直面しています。
この論文では、統合された力/トルク (F/T) センサーを備えたロボット アームを 1 つだけ使用して、ロボットのねじり動作を利用してクランプへの正確な挿入に必要なワイヤー張力を生成する、新しいシングル ロボット ワイヤー ハーネス パイプラインを紹介します。
この設計の利点により、単一のロボット アームで、狭いスペースでのワイヤの配線とクランプへの挿入に効率的に張力を加えることができます。
私たちのアプローチは 4 つの主要コンポーネントを中心に構成されています。張力追跡とワイヤ追従のためのコープマン オペレータに基づくモデル予測制御 (MPC)、ハーネス ウェイポイントのシーケンスのためのモーション プランナー、クランプ係合のための一連の挿入プリミティブ、および固定点です。
ワイヤ拘束更新の切り替えメカニズム。
産業レベルのワイヤーハーネスタスクで評価された私たちの方法は、従来のアプローチよりも優れたパフォーマンスと信頼性を実証し、単一ワイヤー構成と複数ワイヤー構成の両方を高い成功率で効率的に処理できます。

要約(オリジナル)

Wire-harnessing tasks pose great challenges to be automated by the robot due to the complex dynamics and unpredictable behavior of the deformable wire. Traditional methods, often reliant on dual-robot arms or tactile sensing, face limitations in adaptability, cost, and scalability. This paper introduces a novel single-robot wire-harnessing pipeline that leverages a robot’s twisting motion to generate necessary wire tension for precise insertion into clamps, using only one robot arm with an integrated force/torque (F/T) sensor. Benefiting from this design, the single robot arm can efficiently apply tension for wire routing and insertion into clamps in a narrow space. Our approach is structured around four principal components: a Model Predictive Control (MPC) based on the Koopman operator for tension tracking and wire following, a motion planner for sequencing harnessing waypoints, a suite of insertion primitives for clamp engagement, and a fix-point switching mechanism for wire constraint updating. Evaluated on an industrial-level wire harnessing task, our method demonstrated superior performance and reliability over conventional approaches, efficiently handling both single and multiple wire configurations with high success rates.

arxiv情報

著者 Xiang Zhang,Hsien-Chung Lin,Yu Zhao,Masayoshi Tomizuka
発行日 2024-10-14 17:09:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Harnessing with Twisting: Single-Arm Deformable Linear Object Manipulation for Industrial Harnessing Task はコメントを受け付けていません

Probabilistic Degeneracy Detection for Point-to-Plane Error Minimization

要約

情報を提供しないジオメトリから生じる縮退は、LiDAR ベースの位置特定とマッピングを劣化させることが知られています。
この研究では、点対面誤差の最小化における縮退の影響を検出して軽減するための新しい確率的方法を導入しています。
点対平面最適化問題のヘッセ行列上のノイズは、その構築に使用される点および表面法線上のノイズによって特徴付けられます。
この特徴付けを利用して、方向が縮退する確率を定量化します。
縮退検出手順は、LiDAR 登録用の新しいリアルタイム縮退対応反復最近点アルゴリズムで使用され、縮退方向の更新をスムーズに減衰させます。
このメソッドのパラメーターは、LiDAR のデータシートで提供されるノイズ特性に基づいて選択されます。
私たちはこのアプローチを 4 つの実際の実験で検証し、縮退の悪影響の検出と軽減において最先端の方法よりも優れていることを実証しました。
コミュニティの利益のために、このメソッドのコードを github.com/ntnu-arl/drpm でリリースします。

要約(オリジナル)

Degeneracies arising from uninformative geometry are known to deteriorate LiDAR-based localization and mapping. This work introduces a new probabilistic method to detect and mitigate the effect of degeneracies in point-to-plane error minimization. The noise on the Hessian of the point-to-plane optimization problem is characterized by the noise on points and surface normals used in its construction. We exploit this characterization to quantify the probability of a direction being degenerate. The degeneracy-detection procedure is used in a new real-time degeneracy-aware iterative closest point algorithm for LiDAR registration, in which we smoothly attenuate updates in degenerate directions. The method’s parameters are selected based on the noise characteristics provided in the LiDAR’s datasheet. We validate the approach in four real-world experiments, demonstrating that it outperforms state-of-the-art methods at detecting and mitigating the adverse effects of degeneracies. For the benefit of the community, we release the code for the method at: github.com/ntnu-arl/drpm.

arxiv情報

著者 Johan Hatleskog,Kostas Alexis
発行日 2024-10-14 17:52:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Probabilistic Degeneracy Detection for Point-to-Plane Error Minimization はコメントを受け付けていません

Constrained Trajectory Optimization on Matrix Lie Groups via Lie-Algebraic Differential Dynamic Programming

要約

行列リー群は制御やロボット工学で一般的に使用される重要な種類の多様体であり、これらの多様体に対する制御ポリシーを最適化することは基本的な問題です。
この研究では、拡張ラグランジュベースの制約付き離散微分動的計画法 (DDP) を使用して、行列リー群の軌道最適化のための新しい計算効率の高いアプローチを提案します。
この方法では、後方パス中に最適化問題をリー代数に持ち上げ、前方パス中に多様体に戻すことが含まれます。
行列リー群の特定のクラスのみに対する制約処理に対処していた以前のアプローチとは異なり、提案された方法は、汎用行列リー群全体にわたる非線形制約処理に対する一般的な解決策を提供します。
我々は、SE(3) の剛体ダイナミクスによって特徴付けられる機械システム内の制約を処理する際の提案された DDP 法の有効性を評価し、既存の直接最適化ソルバーと比較してその計算効率を評価します。
さらに、この方法は、SE(3) のリー代数フィードバック制御ポリシーとして適用した場合、および困難な現実的なシナリオでのクワッドローターの軌道の最適化において、外乱に対するロバスト性を実証します。
実験によれば、提案されたアプローチは、最適化中に構成、速度、および入力に関して定義された一般的な制約を効果的に管理すると同時に、結果として得られる制御ポリシーを閉ループで実行する際に外乱下でも安定性を維持することが示されています。

要約(オリジナル)

Matrix Lie groups are an important class of manifolds commonly used in control and robotics, and optimizing control policies on these manifolds is a fundamental problem. In this work, we propose a novel computationally efficient approach for trajectory optimization on matrix Lie groups using an augmented Lagrangian-based constrained discrete Differential Dynamic Programming (DDP). The method involves lifting the optimization problem to the Lie algebra during the backward pass and retracting back to the manifold during the forward pass. Unlike previous approaches that addressed constraint handling only for specific classes of matrix Lie groups, the proposed method provides a general solution for nonlinear constraint handling across generic matrix Lie groups. We evaluate the effectiveness of the proposed DDP method in handling constraints within a mechanical system characterized by rigid body dynamics in SE(3), assessing its computational efficiency compared to existing direct optimization solvers. Additionally, the method demonstrates robustness under external disturbances when applied as a Lie-algebraic feedback control policy on SE(3), and in optimizing a quadrotor’s trajectory in a challenging realistic scenario. Experiments show that the proposed approach effectively manages general constraints defined on configuration, velocity, and inputs during optimization, while also maintaining stability under external disturbances when executing the resultant control policy in closed-loop.

arxiv情報

著者 Gokhan Alcan,Fares J. Abu-Dakka,Ville Kyrki
発行日 2024-10-14 17:55:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Constrained Trajectory Optimization on Matrix Lie Groups via Lie-Algebraic Differential Dynamic Programming はコメントを受け付けていません

Echo State Networks for Spatio-Temporal Area-Level Data

要約

時空間エリアレベルのデータセットは公的統計において重要な役割を果たし、政策立案や地域計画に貴重な洞察を提供します。
これらのデータセットの正確なモデリングと予測は、政策立案者が将来の計画のための情報に基づいた戦略を開発するのに非常に役立ちます。
エコー ステート ネットワーク (ESN) は、非線形の時間ダイナミクスをキャプチャし、予測を生成するための効率的な方法です。
ただし、ESN には、エリアレベルのデータに固有の近傍構造を説明する直接的なメカニズムがありません。
これらの空間関係を無視すると、予測の精度と有用性が大幅に損なわれる可能性があります。
この論文では、ESN の入力段階に近似グラフ スペクトル フィルターを組み込むことで、トレーニング中のモデルの計算効率を維持しながら予測精度を向上させます。
私たちは、ユーロスタットの観光占有率データセットを使用してアプローチの有効性を実証し、それが政策および計画の文脈においてより多くの情報に基づいた意思決定をどのようにサポートできるかを示します。

要約(オリジナル)

Spatio-temporal area-level datasets play a critical role in official statistics, providing valuable insights for policy-making and regional planning. Accurate modeling and forecasting of these datasets can be extremely useful for policymakers to develop informed strategies for future planning. Echo State Networks (ESNs) are efficient methods for capturing nonlinear temporal dynamics and generating forecasts. However, ESNs lack a direct mechanism to account for the neighborhood structure inherent in area-level data. Ignoring these spatial relationships can significantly compromise the accuracy and utility of forecasts. In this paper, we incorporate approximate graph spectral filters at the input stage of the ESN, thereby improving forecast accuracy while preserving the model’s computational efficiency during training. We demonstrate the effectiveness of our approach using Eurostat’s tourism occupancy dataset and show how it can support more informed decision-making in policy and planning contexts.

arxiv情報

著者 Zhenhua Wang,Scott H. Holan,Christopher K. Wikle
発行日 2024-10-14 15:51:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME | Echo State Networks for Spatio-Temporal Area-Level Data はコメントを受け付けていません

Differentially Private Attention Computation

要約

大規模言語モデル (LLM)、特に Transformer アーキテクチャに基づくモデルは、自然言語処理、コンテンツ生成、研究手法など、日常生活のさまざまな側面に大きな影響を与えています。
それにもかかわらず、大規模な言語モデルの推論結果に関する重大な懸念は、セキュリティとプライバシーの問題です。
大規模な言語モデルでは、多くのシナリオで機密情報や著作権情報が漏洩する可能性のある結果が生成される可能性があることを考慮すると、必要なのは注意だけであるため、証明可能なプライバシー保証を備えた注意マトリックスを計算することが重要です。
この研究では、差分プライバシー (DP) を保証しながらアテンション マトリックスを近似するための新規で効率的なアルゴリズムを提案します。
これを達成するために、高速アテンション計算と差分プライベート行列パブリッシングにおける最近の進歩を基盤としています。

要約(オリジナル)

Large language models (LLMs), especially those based on the Transformer architecture, have had a profound impact on various aspects of daily life, such as natural language processing, content generation, research methodologies, and more. Nevertheless, a crucial concern regarding the inference results of large language models is the issue of security and privacy. Given that large language models can generate results that may leak sensitive confidential or copyright information in many scenarios, it is crucial to compute the attention matrix with provable privacy guarantees, as attention is all you need. In this work, we propose a novel and efficient algorithm for approximating the attention matrix while providing differential privacy (DP) guarantees. To achieve this, we build on recent advancements in fast attention computation and differentially private matrix publishing.

arxiv情報

著者 Yeqi Gao,Zhao Song,Xin Yang,Yufa Zhou
発行日 2024-10-14 15:52:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | Differentially Private Attention Computation はコメントを受け付けていません

Feudal Graph Reinforcement Learning

要約

グラフベースの表現とメッセージパッシングモジュールポリシーは、強化学習 (RL) における構成可能な制御問題に取り組むための優れたアプローチを構成します。
ただし、最近のグラフディープラーニングの文献で示されているように、このようなローカルのメッセージパッシングオペレーターは情報のボトルネックを生み出し、グローバルな調整を妨げる可能性があります。
この問題は、高度な計画が必要なタスクではさらに深刻になります。
この研究では、階層型 RL とピラミッド型メッセージ パッシング アーキテクチャに依存することで、このような課題に対処する封建グラフ強化学習 (FGRL) と呼ばれる新しい方法論を提案します。
特に、FGRL は、高レベルのコマンドが階層化されたグラフ構造を通じて階層の最上位から下に伝播されるポリシーの階層を定義します。
最下位層は物理システムの形態を模倣し、上位層は高次のサブモジュールに対応します。
結果として得られるエージェントは、特定のレベルのアクションがその下のレベルの目標を設定するポリシーの委員会によって特徴付けられ、タスクの分解を自然に実装できる階層的な意思決定構造を実装します。
グラフクラスタリング問題とMuJoCo移動タスクに関して提案されたフレームワークを評価します。
シミュレーション結果は、FGRL が関連するベースラインと比較して有利であることを示しています。
さらに、コマンド伝播メカニズムの詳細な分析により、導入されたメッセージ パッシング スキームが階層的な意思決定ポリシーの学習に有利であるという証拠が得られます。

要約(オリジナル)

Graph-based representations and message-passing modular policies constitute prominent approaches to tackling composable control problems in reinforcement learning (RL). However, as shown by recent graph deep learning literature, such local message-passing operators can create information bottlenecks and hinder global coordination. The issue becomes more serious in tasks requiring high-level planning. In this work, we propose a novel methodology, named Feudal Graph Reinforcement Learning (FGRL), that addresses such challenges by relying on hierarchical RL and a pyramidal message-passing architecture. In particular, FGRL defines a hierarchy of policies where high-level commands are propagated from the top of the hierarchy down through a layered graph structure. The bottom layers mimic the morphology of the physical system, while the upper layers correspond to higher-order sub-modules. The resulting agents are then characterized by a committee of policies where actions at a certain level set goals for the level below, thus implementing a hierarchical decision-making structure that can naturally implement task decomposition. We evaluate the proposed framework on a graph clustering problem and MuJoCo locomotion tasks; simulation results show that FGRL compares favorably against relevant baselines. Furthermore, an in-depth analysis of the command propagation mechanism provides evidence that the introduced message-passing scheme favors learning hierarchical decision-making policies.

arxiv情報

著者 Tommaso Marzi,Arshjot Khehra,Andrea Cini,Cesare Alippi
発行日 2024-10-14 15:56:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Feudal Graph Reinforcement Learning はコメントを受け付けていません