要約
RL エージェントの基礎となる意思決定プロセスに適した環境表現を選択することは、必ずしも簡単ではありません。
状態表現は、エージェントが情報に基づいてアクションを決定できるように十分包括的であり、ポリシー トレーニングのサンプル効率を向上させるのに十分コンパクトである必要があります。
この見通しを踏まえ、この研究では、エージェントが特定のロボット タスク、つまり対蹠的および平面的な物体の把握を解決するよう促す際の、さまざまな状態表現の効果を検証します。
状態表現の抽象化の連続体が定義され、完全なシステム知識を備えたモデルベースのアプローチから始まり、手作りの数値を経て、誘導されたタスク固有の知識のレベルを低下させた画像ベースの表現まで続きます。
シミュレーションでタスクを解決するエージェントの能力と、学習したポリシーの実際のロボットへの転送可能性における各表現の効果を調べます。
結果は、数値状態を使用する RL エージェントが非学習ベースラインと同等のパフォーマンスを発揮できることを示しています。
さらに、事前に訓練された環境埋め込みベクトルからの画像ベースの表現を使用するエージェントは、エンドツーエンドで訓練されたエージェントよりも優れたパフォーマンスを発揮することを発見し、ロボット制御の収束と高い成功率を達成するにはタスク固有の知識が必要であると仮説を立てています。
要約(オリジナル)
Choosing an appropriate representation of the environment for the underlying decision-making process of the RL agent is not always straightforward. The state representation should be inclusive enough to allow the agent to informatively decide on its actions and compact enough to increase sample efficiency for policy training. Given this outlook, this work examines the effect of various state representations in incentivizing the agent to solve a specific robotic task: antipodal and planar object grasping. A continuum of state representation abstractions is defined, starting from a model-based approach with complete system knowledge, through hand-crafted numerical, to image-based representations with decreasing level of induced task-specific knowledge. We examine the effects of each representation in the ability of the agent to solve the task in simulation and the transferability of the learned policy to the real robot. The results show that RL agents using numerical states can perform on par with non-learning baselines. Furthermore, we find that agents using image-based representations from pre-trained environment embedding vectors perform better than end-to-end trained agents, and hypothesize that task-specific knowledge is necessary for achieving convergence and high success rates in robot control.
arxiv情報
著者 | Panagiotis Petropoulakis,Ludwig Gräf,Josip Josifovski,Mohammadhossein Malmir,Alois Knoll |
発行日 | 2023-09-22 06:27:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google