要約
専門家のデモンストレーションの一部が敵対的であり、タスクを実行する間違った方法を示している可能性がある場合、教師または専門家によって与えられたデモンストレーションからタスクの実行方法を学習するという問題を考慮します。
我々は、時間的に拡張されたポリシーやオプションを使用して、攻撃者によって大幅に変更されていない実証済みの軌道の部分を特定し、学習に利用できる新しい手法を提案します。
まず、敵対的な専門家によって大幅に変更され、学習に使用された場合に学習者のパフォーマンスを低下させる可能性がある軌道の部分を検出して破棄するために、実証された軌道の空間的および時間的特徴に基づいて軌道発散尺度を定義します。
軌道を分割し、許容されると判断された軌道の部分からのみ学習するオプションベースのアルゴリズムを使用します。
部分的な軌道を修復すると、学習者のパフォーマンスを低下させることなくデモンストレーションのサンプル効率が向上することを示すために、私たちの技術の理論的結果を提供します。
次に、実証された軌道のさまざまな種類と程度の敵対的攻撃の存在下で、LunarLander と呼ばれる Atari に似たコンピューターベースのゲームをプレイする方法を学習するための、提案されたアルゴリズムを評価します。
私たちの実験結果は、私たちの技術が実証された軌跡の敵対的に変更された部分を特定し、敵対的なデモンストレーションによる学習パフォーマンスの低下を首尾よく防ぐことができることを示しています。
要約(オリジナル)
We consider the problem of learning to perform a task from demonstrations given by teachers or experts, when some of the experts’ demonstrations might be adversarial and demonstrate an incorrect way to perform the task. We propose a novel technique that can identify parts of demonstrated trajectories that have not been significantly modified by the adversary and utilize them for learning, using temporally extended policies or options. We first define a trajectory divergence measure based on the spatial and temporal features of demonstrated trajectories to detect and discard parts of the trajectories that have been significantly modified by an adversarial expert, and, could degrade the learner’s performance, if used for learning, We then use an options-based algorithm that partitions trajectories and learns only from the parts of trajectories that have been determined as admissible. We provide theoretical results of our technique to show that repairing partial trajectories improves the sample efficiency of the demonstrations without degrading the learner’s performance. We then evaluate the proposed algorithm for learning to play an Atari-like, computer-based game called LunarLander in the presence of different types and degrees of adversarial attacks of demonstrated trajectories. Our experimental results show that our technique can identify adversarially modified parts of the demonstrated trajectories and successfully prevent the learning performance from degrading due to adversarial demonstrations.
arxiv情報
著者 | Prithviraj Dasgupta |
発行日 | 2023-06-07 16:33:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google