Learning Actions and Control of Focus of Attention with a Log-Polar-like Sensor

要約

自律移動ロボットの画像処理時間を短縮するという長期的な目標を念頭に置いて、この論文では視線制御による対数極性のような画像データの使用を検討します。
視線制御は、デカルト画像ではなく、対数極性のような画像データに対して行われます。
このために、Atari ゲームの古典的な深層強化学習アプローチから始めます。
A3C ディープ RL アプローチを LSTM ネットワークで拡張し、3 つの Atari ゲームをプレイするためのポリシーと視線制御のポリシーを学習します。
Atari ゲームではすでに 80 x 80 ピクセルの低解像度画像が使用されていますが、ゲームのパフォーマンスをまったく損なうことなく、画像ピクセルの量をさらに 5 分の 1 に減らすことができます。

要約(オリジナル)

With the long-term goal of reducing the image processing time on an autonomous mobile robot in mind we explore in this paper the use of log-polar like image data with gaze control. The gaze control is not done on the Cartesian image but on the log-polar like image data. For this we start out from the classic deep reinforcement learning approach for Atari games. We extend an A3C deep RL approach with an LSTM network, and we learn the policy for playing three Atari games and a policy for gaze control. While the Atari games already use low-resolution images of 80 by 80 pixels, we are able to further reduce the amount of image pixels by a factor of 5 without losing any gaming performance.

arxiv情報

著者 Robin Göransson,Volker Krueger
発行日 2023-09-22 06:02:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク