From ‘Thumbs Up’ to ’10 out of 10′: Reconsidering Scalar Feedback in Interactive Reinforcement Learning

要約

人間のフィードバックから学習することは、探索の多いタスクにおけるロボットの学習を改善する効果的な方法です。
バイナリ ヒューマン フィードバックが広く応用されているのに比べ、スカラー ヒューマン フィードバックはノイズが多く不安定であると考えられているため、あまり使用されていません。
この論文では、スカラー フィードバックとバイナリ フィードバックを比較し、スカラー フィードバックが適切に処理された場合に学習に有益であることを実証します。
ロボット タスクに関する 2 つのクラウドワーカー グループからそれぞれバイナリまたはスカラー フィードバックを収集しました。
参加者が同じデータにどの程度一貫してラベルを付けているかを考慮すると、スカラー フィードバックはバイナリ フィードバックよりも一貫性が低いことがわかりました。
ただし、小さな不一致が許容される場合、違いはなくなります。
さらに、スカラー フィードバックとバイナリ フィードバックでは、主要な強化学習ターゲットとの相関関係に大きな違いはありません。
次に、スカラー フィードバックからの学習を改善するために、Stabilizing TEacher Assessment DYnamics (STEADY) を導入します。
スカラー フィードバックは多分布であるという考えに基づいて、STEADY は基礎となる正および負のフィードバック分布を再構築し、フィードバック統計に基づいてスカラー フィードバックを再スケーリングします。
\textit{スカラー フィードバック + STEADY } でトレーニングされたモデルは、専門家ではない人間のフィードバックによるロボット到達タスクにおいて、バイナリ フィードバックや生のスカラー フィードバックを含むベースラインよりも優れたパフォーマンスを発揮することを示します。
私たちの結果は、バイナリ フィードバックとスカラー フィードバックの両方が動的であり、スカラー フィードバックが対話型の強化学習での使用に有望な信号であることを示しています。

要約(オリジナル)

Learning from human feedback is an effective way to improve robotic learning in exploration-heavy tasks. Compared to the wide application of binary human feedback, scalar human feedback has been used less because it is believed to be noisy and unstable. In this paper, we compare scalar and binary feedback, and demonstrate that scalar feedback benefits learning when properly handled. We collected binary or scalar feedback respectively from two groups of crowdworkers on a robot task. We found that when considering how consistently a participant labeled the same data, scalar feedback led to less consistency than binary feedback; however, the difference vanishes if small mismatches are allowed. Additionally, scalar and binary feedback show no significant differences in their correlations with key Reinforcement Learning targets. We then introduce Stabilizing TEacher Assessment DYnamics (STEADY) to improve learning from scalar feedback. Based on the idea that scalar feedback is muti-distributional, STEADY re-constructs underlying positive and negative feedback distributions and re-scales scalar feedback based on feedback statistics. We show that models trained with \textit{scalar feedback + STEADY } outperform baselines, including binary feedback and raw scalar feedback, in a robot reaching task with non-expert human feedback. Our results show that both binary feedback and scalar feedback are dynamic, and scalar feedback is a promising signal for use in interactive Reinforcement Learning.

arxiv情報

著者 Hang Yu,Reuben M. Aronson,Katherine H. Allen,Elaine Schaertl Short
発行日 2023-11-17 02:14:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO パーマリンク