Bootstrapping Adaptive Human-Machine Interfaces with Offline Reinforcement Learning

要約

適応型インターフェイスは、ユーザーがノイズの多い高次元のコマンド信号 (たとえば、ブレイン コンピューター インターフェイスから) を与えられたロボット遠隔操作などの連続的な意思決定タスクを実行するのに役立ちます。
人間参加型の機械学習の最近の進歩により、このようなシステムはユーザーと対話することで改善できるようになりましたが、実際には個々のユーザーから収集できるデータの量によって制限される傾向があります。
この論文では、オフラインの事前トレーニングとオンラインの微調整を組み合わせて、生のコマンド信号をアクションにマッピングするインターフェイスをトレーニングすることで、この問題に対処する強化学習アルゴリズムを提案します。
ノイズの多いコマンド信号とまばらな報酬によってもたらされる課題に対処するために、私たちは、特定の軌道に対するユーザーの長期的な意図を表現および推測するための新しい方法を開発しました。
私たちは主に、12 人の参加者が視線を使用して Web カメラからの 128 次元のコマンド信号を変調することによって模擬ナビゲーション タスクを実行したユーザー調査を通じて、ノイズの多い高次元の入力チャネルを通じてのみ通信できるユーザーを支援する方法の能力を評価しました。

結果は、ユーザーコマンド信号のノイズを除去し、共有された自律性支援を提供することを学習することで、私たちの方法がベースラインの方向性インターフェイスよりも頻繁に目標ナビゲーションを成功させることを示しています。
さらに、視線制御を使用したシミュレートされた Sawyer プッシュ タスクと、シミュレートされたユーザー コマンドを使用した月着陸船ゲームで評価を行ったところ、これらのドメインでも、私たちの方法がベースライン インターフェイスよりも改善されていることがわかりました。
シミュレートされたユーザーコマンドを使用した広範なアブレーション実験は、経験的に私たちの方法の各コンポーネントを動機付けます。

要約(オリジナル)

Adaptive interfaces can help users perform sequential decision-making tasks like robotic teleoperation given noisy, high-dimensional command signals (e.g., from a brain-computer interface). Recent advances in human-in-the-loop machine learning enable such systems to improve by interacting with users, but tend to be limited by the amount of data that they can collect from individual users in practice. In this paper, we propose a reinforcement learning algorithm to address this by training an interface to map raw command signals to actions using a combination of offline pre-training and online fine-tuning. To address the challenges posed by noisy command signals and sparse rewards, we develop a novel method for representing and inferring the user’s long-term intent for a given trajectory. We primarily evaluate our method’s ability to assist users who can only communicate through noisy, high-dimensional input channels through a user study in which 12 participants performed a simulated navigation task by using their eye gaze to modulate a 128-dimensional command signal from their webcam. The results show that our method enables successful goal navigation more often than a baseline directional interface, by learning to denoise user commands signals and provide shared autonomy assistance. We further evaluate on a simulated Sawyer pushing task with eye gaze control, and the Lunar Lander game with simulated user commands, and find that our method improves over baseline interfaces in these domains as well. Extensive ablation experiments with simulated user commands empirically motivate each component of our method.

arxiv情報

著者 Jensen Gao,Siddharth Reddy,Glen Berseth,Anca D. Dragan,Sergey Levine
発行日 2023-09-07 16:52:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.LG, cs.RO パーマリンク