要約
ロボットが家、道路、工場などで人間と対話するとき、人間の行動はロボットに応じて変化することがよくあります。
人間が静止していないことは、ロボット学習者にとって困難です。ロボットが元の人間と協調するように学習した動作は、人間がロボットに適応した後に失敗する可能性があります。
この論文では、ロボット (つまり、自我エージェント) が、ロボットの低レベルの状態、行動、報酬のみを使用して、動的な人間 (つまり、他のエージェント) と並行して適応できるようにするアルゴリズム形式主義を紹介します。
主要な課題は、人間がロボットの動作に反応するだけでなく、人間の反応方法も時間の経過とユーザー間で必然的に変化することです。
この課題に対処するために、ロボットは人間の正確なモデルを構築する代わりに、人間の政策と政策のダイナミクスの高レベルの表現を学習して推論できるという洞察が得られました。
この洞察を適用して、私たちは RILI: Robustly Influencing Latent Intent を開発しました。
RILIはまず、低レベルのロボット観察を人間の潜在的な戦略と戦略ダイナミクスの予測に組み込みます。
次に、RILI はこれらの予測を利用して、適応的な人間に影響を与え、反復的な相互作用を通じて有利で高い報酬の行動に向かう行動を選択します。
私たちは、基礎となる分布からサンプリングされたユーザーで測定された RILI のパフォーマンスを考慮すると、同じ分布からサンプリングされた新しい人間全体で RILI の予想されるパフォーマンスを確率的に制限できることを実証します。
私たちのシミュレートされた実験では、RILI を最先端の表現および強化学習のベースラインと比較し、RILI が不完全でノイズの多い時間変動するエージェントとの調整をよりよく学習することが示されました。
最後に、RILI が実際の人間と一緒に鬼ごっこやタワー建設タスクに適応する 2 つのユーザー調査を実施します。
ここでユーザー調査のビデオをご覧ください: https://youtu.be/WYGO5amDXbQ
要約(オリジナル)
When robots interact with humans in homes, roads, or factories the human’s behavior often changes in response to the robot. Non-stationary humans are challenging for robot learners: actions the robot has learned to coordinate with the original human may fail after the human adapts to the robot. In this paper we introduce an algorithmic formalism that enables robots (i.e., ego agents) to co-adapt alongside dynamic humans (i.e., other agents) using only the robot’s low-level states, actions, and rewards. A core challenge is that humans not only react to the robot’s behavior, but the way in which humans react inevitably changes both over time and between users. To deal with this challenge, our insight is that — instead of building an exact model of the human — robots can learn and reason over high-level representations of the human’s policy and policy dynamics. Applying this insight we develop RILI: Robustly Influencing Latent Intent. RILI first embeds low-level robot observations into predictions of the human’s latent strategy and strategy dynamics. Next, RILI harnesses these predictions to select actions that influence the adaptive human towards advantageous, high reward behaviors over repeated interactions. We demonstrate that — given RILI’s measured performance with users sampled from an underlying distribution — we can probabilistically bound RILI’s expected performance across new humans sampled from the same distribution. Our simulated experiments compare RILI to state-of-the-art representation and reinforcement learning baselines, and show that RILI better learns to coordinate with imperfect, noisy, and time-varying agents. Finally, we conduct two user studies where RILI co-adapts alongside actual humans in a game of tag and a tower-building task. See videos of our user studies here: https://youtu.be/WYGO5amDXbQ
arxiv情報
著者 | Sagar Parekh,Dylan P. Losey |
発行日 | 2023-08-19 23:47:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google