要約
強化学習 (RL) ポリシーは、現在の観察に基づいてアクションを予測し、将来の累積報酬を最大化するように設計されています。
実世界のアプリケーション (つまり、シミュレーションされていない環境) では、現在の状態を測定し、RL ポリシーが意思決定を行う際に依存する観察結果を提供するためにセンサーが不可欠です。
現実のシナリオで RL ポリシーを展開する際の重要な課題は、ハードウェアの誤動作、物理的損傷、またはカメラ レンズ上の埃などの環境要因によって発生する可能性があるセンサーのドロップアウトに対処することです。
この問題を軽減するための一般的な戦略はバックアップ センサーの使用ですが、これには追加のコストがかかります。
このペーパーでは、コストを指定のしきい値 C 未満に抑えながら、期待収益を最大化するためのバックアップ センサー構成の最適化について検討します。私たちのアプローチでは、期待収益の 2 次近似を使用し、コスト制約を超過した場合のペナルティが含まれています。
次に、メタヒューリスティック アルゴリズムである Tabu Search を使用して、この二次プログラムを最適化します。
このアプローチは、8 つの OpenAI Gym 環境とカスタム Unity ベースのロボット環境 (RobotArmGrasping) にわたって評価されます。
経験的な結果は、二次プログラムが実際の期待収益を効果的に近似し、最適なセンサー構成の特定を容易にすることを示しています。
要約(オリジナル)
Reinforcement Learning (RL) policies are designed to predict actions based on current observations to maximize cumulative future rewards. In real-world applications (i.e., non-simulated environments), sensors are essential for measuring the current state and providing the observations on which RL policies rely to make decisions. A significant challenge in deploying RL policies in real-world scenarios is handling sensor dropouts, which can result from hardware malfunctions, physical damage, or environmental factors like dust on a camera lens. A common strategy to mitigate this issue is the use of backup sensors, though this comes with added costs. This paper explores the optimization of backup sensor configurations to maximize expected returns while keeping costs below a specified threshold, C. Our approach uses a second-order approximation of expected returns and includes penalties for exceeding cost constraints. We then optimize this quadratic program using Tabu Search, a meta-heuristic algorithm. The approach is evaluated across eight OpenAI Gym environments and a custom Unity-based robotic environment (RobotArmGrasping). Empirical results demonstrate that our quadratic program effectively approximates real expected returns, facilitating the identification of optimal sensor configurations.
arxiv情報
著者 | Jonas Nüßlein,Maximilian Zorn,Fabian Ritz,Jonas Stein,Gerhard Stenzel,Julian Schönberger,Thomas Gabor,Claudia Linnhoff-Popien |
発行日 | 2024-12-10 17:20:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google