Generating Realistic Arm Movements in Reinforcement Learning: A Quantitative Comparison of Reward Terms and Task Requirements

要約

人間のような腕の動きの特徴を模倣するには、制御ポリシーの合成中に 3 つの要素を考慮する必要があります。(a) 選択されたタスク要件、(b) 動作実行中のノイズの包含、および (c) 選択された最適性原則。
以前の研究では、これらの要因 (a ~ c​​) を個別に考慮すると、実験データと運動学的に一致するか、または典型的な三相筋活性化パターンを再現する腕の動きを合成することが可能であることが示されています。
ただし、これまでのところ、各要因によって生成される腕の動きがどれほど現実的であるかについて定量的な比較は行われていません。
また、すべての要素の部分的または全体的な組み合わせによって、人間のような運動学的特徴と三相性の筋肉パターンを備えた腕の動きが生じるかどうかも考慮されます。
これを調査するために、強化学習を使用して筋骨格腕モデルの制御ポリシーを学習しました。その目的は、因子 (a ~ c​​) のどの組み合わせが、頻繁に報告される 4 つの典型的な特徴に従って現実的な腕の動きをもたらすかを識別することです。
私たちの調査結果は、速度と加速度の要件を到達タスクに組み込み、機械的作業、手の急な動き、および制御努力の最小化を促進する報酬条件を採用し、動作中のノイズを含めることで、現実的な人間の腕の動きが出現することを示しています。
強化学習。
私たちは、得られた洞察が、将来、ウェアラブル支援装置における望ましい腕の動きと矯正力をより正確に予測するのに役立つと期待しています。

要約(オリジナル)

The mimicking of human-like arm movement characteristics involves the consideration of three factors during control policy synthesis: (a) chosen task requirements, (b) inclusion of noise during movement execution and (c) chosen optimality principles. Previous studies showed that when considering these factors (a-c) individually, it is possible to synthesize arm movements that either kinematically match the experimental data or reproduce the stereotypical triphasic muscle activation pattern. However, to date no quantitative comparison has been made on how realistic the arm movement generated by each factor is; as well as whether a partial or total combination of all factors results in arm movements with human-like kinematic characteristics and a triphasic muscle pattern. To investigate this, we used reinforcement learning to learn a control policy for a musculoskeletal arm model, aiming to discern which combination of factors (a-c) results in realistic arm movements according to four frequently reported stereotypical characteristics. Our findings indicate that incorporating velocity and acceleration requirements into the reaching task, employing reward terms that encourage minimization of mechanical work, hand jerk, and control effort, along with the inclusion of noise during movement, leads to the emergence of realistic human arm movements in reinforcement learning. We expect that the gained insights will help in the future to better predict desired arm movements and corrective forces in wearable assistive devices.

arxiv情報

著者 Jhon Charaja,Isabell Wochner,Pierre Schumacher,Winfried Ilg,Martin Giese,Christophe Maufroy,Andreas Bulling,Syn Schmitt,Daniel F. B. Haeufle
発行日 2024-02-21 17:23:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク