Hybrid of representation learning and reinforcement learning for dynamic and complex robotic motion planning

要約

動作計画はロボットの意思決定の核心です。
グラフ検索や反応ベースのアルゴリズムなどの古典的な計画アルゴリズムは、高密度で動的な障害物の場合に課題に直面します。
深層学習アルゴリズムは、多くの衝突を引き起こす次善のワンステップ予測を生成します。
強化学習アルゴリズムは、最適または最適に近い時系列予測を生成します。
ただし、収束が遅い、最適ではない収束結果、および過剰適合という問題があります。
この論文では、ロボットの動作計画のためのハイブリッド アルゴリズム、つまり長期短期記憶 (LSTM) プーリングと注意ベースの離散ソフト アクター クリティカル (LSA-DSAC) のためのスキップ接続を紹介します。
まず、グラフ ネットワーク (関係グラフ) とアテンション ネットワーク (アテンション ウェイト) によって、離散ソフト アクター クリティカル アルゴリズムの学習のための環境状態が解釈されます。
これら 2 つの表現方法の差分分析により、私たちのタスクでは、attention network の表現力がグラフの表現力を上回りました。
ただし、注意ベースの DSAC はトレーニングにおいて過剰適合の問題に直面します。
第 2 に、スキップ接続方法がアテンション ベースの DSAC に統合され、オーバーフィッティングが軽減され、収束速度が向上します。
第三に、LSTM プーリングは、注意重み付けの合計演算子を置き換え、初期段階のトレーニングで収束速度をわずかに犠牲にすることで過剰適合を排除するために使用されます。
実験では、LSA-DSAC がトレーニングとほとんどの評価において最先端のパフォーマンスを上回ることが示されています。
物理的なロボットも現実世界に実装され、テストされます。

要約(オリジナル)

Motion planning is the soul of robot decision making. Classical planning algorithms like graph search and reaction-based algorithms face challenges in cases of dense and dynamic obstacles. Deep learning algorithms generate suboptimal one-step predictions that cause many collisions. Reinforcement learning algorithms generate optimal or near-optimal time-sequential predictions. However, they suffer from slow convergence, suboptimal converged results, and overfittings. This paper introduces a hybrid algorithm for robotic motion planning: long short-term memory (LSTM) pooling and skip connection for attention-based discrete soft actor critic (LSA-DSAC). First, graph network (relational graph) and attention network (attention weight) interpret the environmental state for the learning of the discrete soft actor critic algorithm. The expressive power of attention network outperforms that of graph in our task by difference analysis of these two representation methods. However, attention based DSAC faces the overfitting problem in training. Second, the skip connection method is integrated to attention based DSAC to mitigate overfitting and improve convergence speed. Third, LSTM pooling is taken to replace the sum operator of attention weigh and eliminate overfitting by slightly sacrificing convergence speed at early-stage training. Experiments show that LSA-DSAC outperforms the state-of-the-art in training and most evaluations. The physical robot is also implemented and tested in the real world.

arxiv情報

著者 Chengmin Zhou,Xin Lu,Jiapeng Dai,Bingding Huang,Xiaoxu Liu,Pasi Fränti
発行日 2023-09-07 15:00:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク