Tracking Object Positions in Reinforcement Learning: A Metric for Keypoint Detection (extended version)

要約

ロボット制御の強化学習 (RL) では通常、直接測定できないタスク関連のオブジェクトに関する情報を含む、環境状態の詳細な表現が必要です。
空間オートエンコーダ (SAE) などのキーポイント検出器は、高次元画像データから低次元表現を抽出する一般的なアプローチです。
SAE は、オブジェクトの位置などの空間的特徴を目的としています。これらはロボット RL で役立つことがよくあります。
ただし、SAE が実際にシーン内のオブジェクトを追跡でき、RL タスクに適した空間状態表現を生成できるかどうかは、確立されたメトリクスが不足しているため、ほとんど検査されていません。
このペーパーでは、キーポイントが画像内のグラウンド トゥルース オブジェクトをどの程度追跡しているかを測定することによって、SAE インスタンスのパフォーマンスを評価することを提案します。
計算的に軽量なメトリクスを提示し、それを使用して、シミュレートされたロボット タスクからの画像データに対する一般的なベースライン SAE アーキテクチャを評価します。
一般的な SAE は空間抽出能力が大幅に異なることがわかりました。
さらに、私たちの指標で優れたパフォーマンスを発揮する SAE は、ダウンストリーム RL で使用された場合に優れたパフォーマンスを達成することを検証します。
したがって、私たちのメトリクスは、高価な RL トレーニングを実行する前の RL パフォーマンスの効果的かつ軽量な指標となります。
これらの洞察に基づいて、追跡パフォーマンスを向上させるための SAE アーキテクチャの 3 つの主要な変更を特定します。

要約(オリジナル)

Reinforcement learning (RL) for robot control typically requires a detailed representation of the environment state, including information about task-relevant objects not directly measurable. Keypoint detectors, such as spatial autoencoders (SAEs), are a common approach to extracting a low-dimensional representation from high-dimensional image data. SAEs aim at spatial features such as object positions, which are often useful representations in robotic RL. However, whether an SAE is actually able to track objects in the scene and thus yields a spatial state representation well suited for RL tasks has rarely been examined due to a lack of established metrics. In this paper, we propose to assess the performance of an SAE instance by measuring how well keypoints track ground truth objects in images. We present a computationally lightweight metric and use it to evaluate common baseline SAE architectures on image data from a simulated robot task. We find that common SAEs differ substantially in their spatial extraction capability. Furthermore, we validate that SAEs that perform well in our metric achieve superior performance when used in downstream RL. Thus, our metric is an effective and lightweight indicator of RL performance before executing expensive RL training. Building on these insights, we identify three key modifications of SAE architectures to improve tracking performance.

arxiv情報

著者 Emma Cramer,Jonas Reiher,Sebastian Trimpe
発行日 2024-07-02 09:09:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク