要約
人間と一緒に動作するロボットは、自律的なタスクの完了を困難にする不慣れな環境に遭遇することがよくあります。
モデルを改善し、データセットのサイズを増やすと、目に見えない環境でのロボットのパフォーマンスを向上させることができますが、データの収集とモデルの改良はすべての環境で非現実的である可能性があります。
手動操作による人間によるデモンストレーションを利用するアプローチは、改良と一般化に役立ちますが、多くの場合、満足のいくタスクのパフォーマンスを達成するために十分なデモンストレーション データを生成するには、多大なデータ収集の努力が必要です。
インタラクティブなアプローチにより、人間はリアルタイムでロボットの動作を修正できますが、介入ポリシーは多くの場合、一般化することが難しい状態やタスクの理解に関連する明示的な要因に基づいています。
これらの課題に対処するために、私たちは、ロボットがいつ自律的に行動を開始するか、または不確実性が推定される時点で専門家の支援を要求するかを決定できるようにする軽量のインタラクション ポリシーをトレーニングします。
不確実性の暗黙的な推定は、ロボットのビジュアル ナビゲーション ポリシーの特徴抽出機能を評価することで学習されます。
パートタイムの人間との対話を組み込むことで、ロボットは間違いからすぐに回復し、タスクを完了する確率が大幅に向上します。
パートタイムのインタラクションを組み込むと、シミュレートされた人間のエキスパートを使用したハビタット シミュレーション環境内でのエキスパート インタラクション率がわずか 0.3 であり、成功率は 0.38 増加します。
さらに、実際の人間の専門家を使用してこのアプローチを新しいドメインに移行することに成功し、自律エージェントによる成功率が 0.1 未満から、人間の対話率が 0.23 の場合は 0.92 に向上することに成功したことを示します。
このアプローチは、現実世界の設定でロボットが人間と対話し、人間から学習するための実用的な手段を提供します。
要約(オリジナル)
Robots operating alongside humans often encounter unfamiliar environments that make autonomous task completion challenging. Though improving models and increasing dataset size can enhance a robot’s performance in unseen environments, data collection and model refinement may be impractical in every environment. Approaches that utilize human demonstrations through manual operation can aid in refinement and generalization, but often require significant data collection efforts to generate enough demonstration data to achieve satisfactory task performance. Interactive approaches allow for humans to provide correction to robot action in real time, but intervention policies are often based on explicit factors related to state and task understanding that may be difficult to generalize. Addressing these challenges, we train a lightweight interaction policy that allows robots to decide when to proceed autonomously or request expert assistance at estimated times of uncertainty. An implicit estimate of uncertainty is learned via evaluating the feature extraction capabilities of the robot’s visual navigation policy. By incorporating part-time human interaction, robots recover quickly from their mistakes, significantly improving the odds of task completion. Incorporating part-time interaction yields an increase in success of 0.38 with only a 0.3 expert interaction rate within the Habitat simulation environment using a simulated human expert. We further show success transferring this approach to a new domain with a real human expert, improving success from less than 0.1 with an autonomous agent to 0.92 with a 0.23 human interaction rate. This approach provides a practical means for robots to interact and learn from humans in real-world settings.
arxiv情報
著者 | Ifueko Igbinedion,Sertac Karaman |
発行日 | 2024-06-07 13:03:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google