Differentially Encoded Observation Spaces for Perceptive Reinforcement Learning

要約

知覚的深層強化学習(DRL)は、画像ベースの入力データを活用した複雑なAIシステムにおいて、近年多くのブレークスルーをもたらしている。これらの成果は、超人レベルのビデオゲームエージェントから、器用で物理的な知能を持つロボットまで幅広く応用されています。しかし、このような鋭敏なDRL対応システムをトレーニングするには、膨大なトレーニングデータセットと大容量の経験リプレイバッファが必要になることが多く、依然として膨大な計算量とメモリを消費します。このことは、環境に適応するためにエッジで学習する必要がある次世代のフィールドロボットにとって課題となります。本論文では、差分エンコードされた観察空間を通してこの問題に取り組み始める。保存された画像ベースの観測をビデオとして再解釈することにより、可逆差分ビデオエンコードスキームを活用し、学習性能に影響を与えることなく再生バッファを圧縮する。我々のアプローチを3つの最新DRLアルゴリズムで評価した結果、差分画像エンコーディングにより、Atari 2600ベンチマークとDeepMind Control Suite (DMC)のタスクでそれぞれ14.2倍と16.7倍ものメモリフットプリントを削減できることが分かりました。また、これらの削減により、従来はフラッシュとRAM間でページングが必要だった大規模な知覚DRLを完全にRAMで実行できるようになり、DMCタスクのレイテンシが32%も改善されました。

要約(オリジナル)

Perceptive deep reinforcement learning (DRL) has lead to many recent breakthroughs for complex AI systems leveraging image-based input data. Applications of these results range from super-human level video game agents to dexterous, physically intelligent robots. However, training these perceptive DRL-enabled systems remains incredibly compute and memory intensive, often requiring huge training datasets and large experience replay buffers. This poses a challenge for the next generation of field robots that will need to be able to learn on the edge in order to adapt to their environments. In this paper, we begin to address this issue through differentially encoded observation spaces. By reinterpreting stored image-based observations as a video, we leverage lossless differential video encoding schemes to compress the replay buffer without impacting training performance. We evaluate our approach with three state-of-the-art DRL algorithms and find that differential image encoding reduces the memory footprint by as much as 14.2x and 16.7x across tasks from the Atari 2600 benchmark and the DeepMind Control Suite (DMC) respectively. These savings also enable large-scale perceptive DRL that previously required paging between flash and RAM to be run entirely in RAM, improving the latency of DMC tasks by as much as 32%.

arxiv情報

著者 Lev Grossman,Brian Plancher
発行日 2023-10-03 03:23:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.RO パーマリンク