要約
デモンストレーション(LFD)から学ぶことは、ロボット操作で遭遇するような複雑な動きを含むタスクを解決するトレーニングポリシーのための有用なパラダイムです。
実際には、LFDの適用が成功するには、ポリシーの実行中のエラーの蓄積を克服する必要があります。つまり、エラーが長期にわたって悪化したためのドリフトの問題と、その結果としての分散除外行動が必要です。
既存の作業は、データ収集のスケーリング、ループの人間でポリシーエラーを修正し、ポリシー予測を一時的にアンサンミングすること、または収束保証付きの動的システムモデルを学習することにより、この問題に対処しようとしています。
この作業では、この問題を克服するための代替アプローチを提案および検証します。
リザーバーコンピューティングに触発されて、時間的ダイナミクスをモデリングするための調整可能な動的特性を備えた固定非線形動力システムを含む再発性ニューラルネットワーク層を開発します。
LASAヒトの手書きデータセットを使用して、人間の手書きの動きを再現するタスクに対するニューラルネットワーク層の有効性を検証します。
経験的実験を通じて、既存のニューラルネットワークアーキテクチャに層を組み込むことは、LFDの複合エラーの問題に対処することを実証します。
さらに、ポリシー予測の時間的アンサンブルやエコー状態ネットワーク(ESN)の実装など、既存のアプローチに対する比較評価を実行します。
私たちのアプローチは、複数のダイナミクス体制に一般化し、競争力のある遅延スコアを維持しながら、手書きのタスクに対するより大きなポリシーの精度と堅牢性をもたらすことがわかります。
要約(オリジナル)
Learning from Demonstration (LfD) is a useful paradigm for training policies that solve tasks involving complex motions, such as those encountered in robotic manipulation. In practice, the successful application of LfD requires overcoming error accumulation during policy execution, i.e. the problem of drift due to errors compounding over time and the consequent out-of-distribution behaviours. Existing works seek to address this problem through scaling data collection, correcting policy errors with a human-in-the-loop, temporally ensembling policy predictions or through learning a dynamical system model with convergence guarantees. In this work, we propose and validate an alternative approach to overcoming this issue. Inspired by reservoir computing, we develop a recurrent neural network layer that includes a fixed nonlinear dynamical system with tunable dynamical properties for modelling temporal dynamics. We validate the efficacy of our neural network layer on the task of reproducing human handwriting motions using the LASA Human Handwriting Dataset. Through empirical experiments we demonstrate that incorporating our layer into existing neural network architectures addresses the issue of compounding errors in LfD. Furthermore, we perform a comparative evaluation against existing approaches including a temporal ensemble of policy predictions and an Echo State Network (ESN) implementation. We find that our approach yields greater policy precision and robustness on the handwriting task while also generalising to multiple dynamics regimes and maintaining competitive latency scores.
arxiv情報
著者 | Peter David Fagan,Subramanian Ramamoorthy |
発行日 | 2025-02-11 16:24:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google