要約
インタラクティブな模倣学習 (IL) では、不確実性の定量化により、学習者 (つまり、ロボット) がオンラインで専門家 (つまり、人間) から追加のフィードバックを積極的に求めることで、展開中に発生する分布の変化に対処する方法が提供されます。
以前の研究では、アンサンブル不一致やモンテカルロ ドロップアウトなどのメカニズムを使用して、ブラックボックス IL ポリシーが不確実である場合を定量化しました。
ただし、これらのアプローチは、展開時の分布の変化に直面した場合、過信した見積もりにつながる可能性があります。
その代わりに、ロボットの不確実性をオンラインで適応させるために、展開時に受け取った専門家による人間のフィードバックを活用できる不確実性定量化アルゴリズムが必要であると私たちは主張します。
これに取り組むために、私たちはオンライン等形予測を利用します。これは、グラウンド トゥルース ラベルのストリームを与えられてオンラインで予測区間を構築するための分布を必要としない方法です。
ただし、インタラクティブ IL 設定では人間のラベルが断続的に表示されます。
したがって、等角予測の側から、断続的ラベルの確率モデルを活用し、漸近的なカバレッジ保証を維持し、所望のカバレッジ レベルを経験的に達成する、断続的分位点追跡 (IQT) と呼ばれる新しい不確実性定量化アルゴリズムを導入します。
インタラクティブ IL 側からは、ロボットが展開時の不確実性の信頼できる尺度として IQT によって調整された予測間隔を使用して、より専門的なフィードバックを積極的に問い合わせる新しいアプローチである ConformalDAgger を開発しました。
専門家のポリシーの変更により分布シフトが存在する (または存在しない) シナリオで、ConformalDAgger を以前の不確実性を認識した DAgger 手法と比較します。
7DOF ロボット マニピュレータのシミュレーションおよびハードウェア展開では、ConformalDAgger が専門家が移動する際に高い不確実性を検出し、ベースラインと比較して介入回数を増やすことで、ロボットが新しい動作をより迅速に学習できることがわかりました。
要約(オリジナル)
In interactive imitation learning (IL), uncertainty quantification offers a way for the learner (i.e. robot) to contend with distribution shifts encountered during deployment by actively seeking additional feedback from an expert (i.e. human) online. Prior works use mechanisms like ensemble disagreement or Monte Carlo dropout to quantify when black-box IL policies are uncertain; however, these approaches can lead to overconfident estimates when faced with deployment-time distribution shifts. Instead, we contend that we need uncertainty quantification algorithms that can leverage the expert human feedback received during deployment time to adapt the robot’s uncertainty online. To tackle this, we draw upon online conformal prediction, a distribution-free method for constructing prediction intervals online given a stream of ground-truth labels. Human labels, however, are intermittent in the interactive IL setting. Thus, from the conformal prediction side, we introduce a novel uncertainty quantification algorithm called intermittent quantile tracking (IQT) that leverages a probabilistic model of intermittent labels, maintains asymptotic coverage guarantees, and empirically achieves desired coverage levels. From the interactive IL side, we develop ConformalDAgger, a new approach wherein the robot uses prediction intervals calibrated by IQT as a reliable measure of deployment-time uncertainty to actively query for more expert feedback. We compare ConformalDAgger to prior uncertainty-aware DAgger methods in scenarios where the distribution shift is (and isn’t) present because of changes in the expert’s policy. We find that in simulated and hardware deployments on a 7DOF robotic manipulator, ConformalDAgger detects high uncertainty when the expert shifts and increases the number of interventions compared to baselines, allowing the robot to more quickly learn the new behavior.
arxiv情報
著者 | Michelle Zhao,Reid Simmons,Henny Admoni,Aaditya Ramdas,Andrea Bajcsy |
発行日 | 2024-10-11 14:27:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google