Tracking Object Positions in Reinforcement Learning: A Metric for Keypoint Detection (extended version)

要約

ロボット制御のための強化学習(RL)は、通常、直接測定できないタスク関連オブジェクトの情報を含む、環境状態の詳細な表現を必要とする。空間オートエンコーダ(SAE)などのキーポイント検出器は、高次元画像データから低次元表現を抽出する一般的なアプローチである。SAEは、ロボットRLにおいて有用な表現であることが多い、物体位置のような空間的特徴を目的としている。しかし、SAEが実際にシーン内の物体を追跡でき、RLタスクに適した空間状態表現が得られるかどうかは、確立された指標がないため、ほとんど検討されていない。本論文では、キーポイントが画像中の地上真理オブジェクトをどれだけ追跡できるかを測定することで、SAEインスタンスの性能を評価することを提案する。本論文では、計算量的に軽量な評価指標を提示し、それを用いて、模擬ロボットタスクの画像データを用いて、一般的なベースラインSAEアーキテクチャを評価する。その結果、一般的なSAEは空間抽出能力において大きく異なることがわかった。さらに、我々のメトリックで良好な性能を示すSAEは、下流のRLで使用された場合に優れた性能を達成することを検証する。従って、我々の指標は、高価なRLトレーニングを実行する前に、RL性能の効果的で軽量な指標となる。これらの洞察に基づき、追跡性能を向上させるためのSAEアーキテクチャの3つの重要な修正を特定する。コードはanonymous.4open.science/r/sae-rlで公開している。

要約(オリジナル)

Reinforcement learning (RL) for robot control typically requires a detailed representation of the environment state, including information about task-relevant objects not directly measurable. Keypoint detectors, such as spatial autoencoders (SAEs), are a common approach to extracting a low-dimensional representation from high-dimensional image data. SAEs aim at spatial features such as object positions, which are often useful representations in robotic RL. However, whether an SAE is actually able to track objects in the scene and thus yields a spatial state representation well suited for RL tasks has rarely been examined due to a lack of established metrics. In this paper, we propose to assess the performance of an SAE instance by measuring how well keypoints track ground truth objects in images. We present a computationally lightweight metric and use it to evaluate common baseline SAE architectures on image data from a simulated robot task. We find that common SAEs differ substantially in their spatial extraction capability. Furthermore, we validate that SAEs that perform well in our metric achieve superior performance when used in downstream RL. Thus, our metric is an effective and lightweight indicator of RL performance before executing expensive RL training. Building on these insights, we identify three key modifications of SAE architectures to improve tracking performance. We make our code available at anonymous.4open.science/r/sae-rl.

arxiv情報

著者 Emma Cramer,Jonas Reiher,Sebastian Trimpe
発行日 2023-12-01 13:56:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク