PrefCLM: Enhancing Preference-based Reinforcement Learning with Crowdsourced Large Language Models

要約

好みに基づく強化学習 (PbRL) は、複雑な報酬エンジニアリングの必要性を回避し、人間による比較フィードバックを通じてロボットを教育する有望なアプローチとして浮上しています。
ただし、既存の PbRL 手法では大量のフィードバックが必要となるため、多くの場合、スクリプト化された教師によって生成される合成フィードバックに依存することになります。
このアプローチでは、再び複雑な報酬エンジニアリングが必要となり、ユーザーが同じタスクに対して独自の期待を抱く可能性があるヒューマン ロボット インタラクション (HRI) シナリオに特有の微妙な好みに適応するのが困難になります。
これらの課題に対処するために、クラウドソースの大規模言語モデル (LLM) を PbRL の模擬教師として利用する新しいフレームワークである PrefCLM を紹介します。
私たちはデンプスター・シェーファー理論を利用して、複数の LLM エージェントの個人の好みをスコア レベルで融合し、エージェントの多様性と集合知を効率的に活用します。
また、ユーザーのインタラクティブなフィードバックに基づいて集合的な改善を促進する人間参加パイプラインも導入します。
さまざまな一般的な RL タスクにわたる実験結果は、PrefCLM が従来のスクリプト化された教師と比較して競争力のあるパフォーマンスを達成し、より自然で効率的な行動の促進に優れていることを示しています。
実際のユーザー調査 (N=10) では、ロボットの動作を個々のユーザーの好みに合わせて調整する機能が実証されており、HRI シナリオにおけるユーザーの満足度が大幅に向上します。

要約(オリジナル)

Preference-based reinforcement learning (PbRL) is emerging as a promising approach to teaching robots through human comparative feedback, sidestepping the need for complex reward engineering. However, the substantial volume of feedback required in existing PbRL methods often lead to reliance on synthetic feedback generated by scripted teachers. This approach necessitates intricate reward engineering again and struggles to adapt to the nuanced preferences particular to human-robot interaction (HRI) scenarios, where users may have unique expectations toward the same task. To address these challenges, we introduce PrefCLM, a novel framework that utilizes crowdsourced large language models (LLMs) as simulated teachers in PbRL. We utilize Dempster-Shafer Theory to fuse individual preferences from multiple LLM agents at the score level, efficiently leveraging their diversity and collective intelligence. We also introduce a human-in-the-loop pipeline that facilitates collective refinements based on user interactive feedback. Experimental results across various general RL tasks show that PrefCLM achieves competitive performance compared to traditional scripted teachers and excels in facilitating more more natural and efficient behaviors. A real-world user study (N=10) further demonstrates its capability to tailor robot behaviors to individual user preferences, significantly enhancing user satisfaction in HRI scenarios.

arxiv情報

著者 Ruiqi Wang,Dezhong Zhao,Ziqin Yuan,Ike Obi,Byung-Cheol Min
発行日 2024-07-11 06:30:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク