Lights out: training RL agents robust to temporary blindness

要約

DQN でトレーニングされたエージェントは、各タイムステップでの観察に基づいて、次にどのようなアクションを実行するかを決定します。
ただし、現実のアプリケーションでは、観測結果が変化したり、完全に欠落したりする可能性があります。
この例としては、電球が切れたり、特定の部屋の壁紙が変わったりすることが考えられます。
これらの状況では実際の観察が変化しますが、根底にある最適なポリシーは変わりません。
このため、エージェントが再び (認識された) 観察を受け取るまでアクションを実行し続けるようにしたいと考えています。
これを達成するために、観測値の隠蔽表現と新しい n ステップ損失関数を使用するニューラル ネットワーク アーキテクチャの組み合わせを導入します。
私たちの実装は、トレーニングされたものよりも長く位置ベースの失明の範囲に耐えることができるため、一時的な失明に対して堅牢であることがわかります。
私たちの実装にアクセスするには、Nathan、Marije、または Pau に電子メールを送信してください。

要約(オリジナル)

Agents trained with DQN rely on an observation at each timestep to decide what action to take next. However, in real world applications observations can change or be missing entirely. Examples of this could be a light bulb breaking down, or the wallpaper in a certain room changing. While these situations change the actual observation, the underlying optimal policy does not change. Because of this we want our agent to continue taking actions until it receives a (recognized) observation again. To achieve this we introduce a combination of a neural network architecture that uses hidden representations of the observations and a novel n-step loss function. Our implementation is able to withstand location based blindness stretches longer than the ones it was trained on, and therefore shows robustness to temporary blindness. For access to our implementation, please email Nathan, Marije, or Pau.

arxiv情報

著者 N. Ordonez,M. Tromp,P. M. Julbe,W. Böhmer
発行日 2023-12-05 11:10:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク