要約
この論文は、感覚運動コントローラーの観測値の分布の変化を検出し、それに反応する問題に焦点を当てています。
重要なアイデアは、等角分位数を入力として受け取ることができるスイッチング ポリシーの設計であり、これを等角ポリシー学習と定義します。これにより、ロボットが正式な統計的保証で分布の変化を検出できるようになります。
等角分位数を使用して、異なる特性を持つ基本ポリシーを切り替えることで、そのようなポリシーを設計する方法を示します。
安全性や速度、あるいは分位値を使用してポリシー観察を直接強化し、それを強化学習でトレーニングすることもできます。
理論的には、このようなポリシーが有限時間内で形式的な収束の保証を達成することを示します。
さらに、シミュレートされた自動運転と物理的な四足歩行による能動的な知覚という 2 つの魅力的なユースケースにおける利点と限界を徹底的に評価します。
経験的な結果は、私たちのアプローチが 5 つのベースラインを上回るパフォーマンスを示していることを示しています。
これは、1 回のアブレーションを除けば、最も単純なベースライン戦略でもあります。
使いやすく、柔軟性があり、正式な保証があるため、私たちの研究は、等角予測が不確実性の下での感覚運動学習にいかに効果的なツールとなり得るかを実証しています。
要約(オリジナル)
This paper focuses on the problem of detecting and reacting to changes in the distribution of a sensorimotor controller’s observables. The key idea is the design of switching policies that can take conformal quantiles as input, which we define as conformal policy learning, that allows robots to detect distribution shifts with formal statistical guarantees. We show how to design such policies by using conformal quantiles to switch between base policies with different characteristics, e.g. safety or speed, or directly augmenting a policy observation with a quantile and training it with reinforcement learning. Theoretically, we show that such policies achieve the formal convergence guarantees in finite time. In addition, we thoroughly evaluate their advantages and limitations on two compelling use cases: simulated autonomous driving and active perception with a physical quadruped. Empirical results demonstrate that our approach outperforms five baselines. It is also the simplest of the baseline strategies besides one ablation. Being easy to use, flexible, and with formal guarantees, our work demonstrates how conformal prediction can be an effective tool for sensorimotor learning under uncertainty.
arxiv情報
著者 | Huang Huang,Satvik Sharma,Antonio Loquercio,Anastasios Angelopoulos,Ken Goldberg,Jitendra Malik |
発行日 | 2023-11-02 17:59:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google