Safe reinforcement learning in uncertain contexts

要約

機械学習アルゴリズムを現実世界に導入する場合、安全性の保証は不可欠な資産です。
既存の安全な学習アプローチは通常、連続変数、つまり回帰タスクを考慮します。
ただし、実際には、ロボット システムは、特定の重量の物体を運ぶ必要がある、または凍った、濡れた、または乾燥した表面で動作するなど、個別の外部環境の変化にも影響されます。
このような影響は、個別のコンテキスト変数としてモデル化できます。
既存の文献では、考慮した場合、そのような文脈はほとんど既知であると想定されています。
この研究では、この仮定を取り除き、コンテキスト変数を直接測定できない場合に安全な学習を実行する方法を示します。
これを達成するために、マルチクラス分類に対する頻度主義的な保証を導き出し、測定値から現在のコンテキストを推定できるようにします。
さらに、実験を通じてコン​​テキストを特定するアプローチを提案します。
どのような条件下で理論的な保証を維持できるかを議論し、コンテキストとして機能するさまざまな重みのカメラ測定値を使用して、フルタ振り子でのアルゴリズムの適用可能性を実証します。

要約(オリジナル)

When deploying machine learning algorithms in the real world, guaranteeing safety is an essential asset. Existing safe learning approaches typically consider continuous variables, i.e., regression tasks. However, in practice, robotic systems are also subject to discrete, external environmental changes, e.g., having to carry objects of certain weights or operating on frozen, wet, or dry surfaces. Such influences can be modeled as discrete context variables. In the existing literature, such contexts are, if considered, mostly assumed to be known. In this work, we drop this assumption and show how we can perform safe learning when we cannot directly measure the context variables. To achieve this, we derive frequentist guarantees for multi-class classification, allowing us to estimate the current context from measurements. Further, we propose an approach for identifying contexts through experiments. We discuss under which conditions we can retain theoretical guarantees and demonstrate the applicability of our algorithm on a Furuta pendulum with camera measurements of different weights that serve as contexts.

arxiv情報

著者 Dominik Baumann,Thomas B. Schön
発行日 2024-01-11 12:35:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク