Deep Reinforcement Learning Graphs: Feedback Motion Planning via Neural Lyapunov Verification

要約

モデルフリーの深層強化学習の最近の進歩により、効率的なエージェントのトレーニングが可能になりました。
ただし、これらのコントローラーの吸引領域を決定する際、特にその領域が目的の領域を完全にカバーしていない場合には、課題が発生します。
この論文では、データ駆動型技術とニューラル ネットワークを利用するフィードバック モーション制御アルゴリズムを導入することで、この問題に対処します。
このアルゴリズムは、それぞれが独自に定義された引力領域を持つ、接続された強化学習ベースのコントローラーのグラフを構築します。
この増分アプローチは、境界のある関心領域を効果的にカバーし、システムを初期状態から目標まで導く相互接続されたノードの軌道を作成します。
アルゴリズム内でノードを接続するための 2 つのアプローチが示されています。
1 つ目はツリー構造の方法で、初期状態と目標状態を接続するツリーを構築することで「ポイントツーポイント」制御を容易にします。
2 つ目はグラフ構造化手法で、境界領域内にグラフを構築することで「空間間」制御を可能にします。
このアプローチにより、任意の初期状態および目標状態からの制御が可能になります。
提案された方法のパフォーマンスは、障害物がある場合とない場合の両方のシナリオを考慮して、一次動的システムで評価されます。
結果は、所望の制御目標を達成する上で、提案されたアルゴリズムの有効性を実証しています。

要約(オリジナル)

Recent advancements in model-free deep reinforcement learning have enabled efficient agent training. However, challenges arise when determining the region of attraction for these controllers, especially if the region does not fully cover the desired area. This paper addresses this issue by introducing a feedback motion control algorithm that utilizes data-driven techniques and neural networks. The algorithm constructs a graph of connected reinforcement-learning based controllers, each with its own defined region of attraction. This incremental approach effectively covers a bounded region of interest, creating a trajectory of interconnected nodes that guide the system from an initial state to the goal. Two approaches are presented for connecting nodes within the algorithm. The first is a tree-structured method, facilitating ‘point-to-point’ control by constructing a tree connecting the initial state to the goal state. The second is a graph-structured method, enabling ‘space-to-space’ control by building a graph within a bounded region. This approach allows for control from arbitrary initial and goal states. The proposed method’s performance is evaluated on a first-order dynamic system, considering scenarios both with and without obstacles. The results demonstrate the effectiveness of the proposed algorithm in achieving the desired control objectives.

arxiv情報

著者 Armin Ghanbarzadeh,Esmaeil Najafi
発行日 2023-11-29 12:31:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク