LLM-Personalize: Aligning LLM Planners with Human Preferences via Reinforced Self-Training for Housekeeping Robots

要約

大規模言語モデル (LLM) は、言語理解とテキスト生成機能を活用することで、ロボット工学アプリケーション、特にタスク計画に大きな可能性をもたらすことが示されています。
しかし、家庭用ロボットなどのアプリケーションでは、これらのモデルを個々のユーザーの好みに合わせてパーソナライズするには、決定的なギャップが残っています。
家庭用ロボットの LLM プランナーをパーソナライズするように設計された最適化パイプラインを備えた新しいフレームワークである LLM-Personalize を紹介します。
当社の LLM-Personalize フレームワークは、ローカル観察で構築されたシーン グラフを利用して、複数の部屋の部分的に観察可能な世帯シナリオで反復的な計画を実行する LLM プランナーを備えています。
生成されたプランは、その後コントローラーによって実行される一連の高レベルのアクションで構成されます。
私たちのアプローチの中心となるのは、模倣学習と反復自己トレーニングを組み合わせて LLM プランナーをパーソナライズする最適化パイプラインです。
特に、模倣学習フェーズでは、デモンストレーションから初期 LLM アライメントを実行し、モデルをブートストラップして効果的な反復自己トレーニングを促進します。これにより、モデルがさらに探索され、ユーザーの好みに合わせて調整されます。
私たちは、世帯再配置のための挑戦的なシミュレーション現実世界 3D ベンチマークである Housekeep で LLM-Personalize を評価し、LLM-Personalize が既存の LLM プランナーと比較して成功率の 30% 以上の向上を達成し、人間の好みとの整合性が大幅に向上していることを示します。
プロジェクトページ: https://donggehan.github.io/projectllmpersonalize/。

要約(オリジナル)

Large language models (LLMs) have shown significant potential for robotics applications, particularly task planning, by harnessing their language comprehension and text generation capabilities. However, in applications such as household robotics, a critical gap remains in the personalization of these models to individual user preferences. We introduce LLM-Personalize, a novel framework with an optimization pipeline designed to personalize LLM planners for household robotics. Our LLM-Personalize framework features an LLM planner that performs iterative planning in multi-room, partially-observable household scenarios, making use of a scene graph constructed with local observations. The generated plan consists of a sequence of high-level actions which are subsequently executed by a controller. Central to our approach is the optimization pipeline, which combines imitation learning and iterative self-training to personalize the LLM planner. In particular, the imitation learning phase performs initial LLM alignment from demonstrations, and bootstraps the model to facilitate effective iterative self-training, which further explores and aligns the model to user preferences. We evaluate LLM-Personalize on Housekeep, a challenging simulated real-world 3D benchmark for household rearrangements, and show that LLM-Personalize achieves more than a 30 percent increase in success rate over existing LLM planners, showcasing significantly improved alignment with human preferences. Project page: https://donggehan.github.io/projectllmpersonalize/.

arxiv情報

著者 Dongge Han,Trevor McInroe,Adam Jelley,Stefano V. Albrecht,Peter Bell,Amos Storkey
発行日 2024-04-22 15:35:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク