Learning to Plan with Personalized Preferences

要約

AIエージェントを日常生活に効果的に統合するには、特に共同の役割において、個々の人間の好みを理解し、適応させる必要があります。
具体化された知性に関する最近の研究は大幅に進歩していますが、通常、計画における個人的な好みを見落とす一般化されたアプローチを採用しています。
私たちは、少数のデモンストレーションから好みを学ぶだけでなく、これらの好みに基づいて計画戦略を適応させることを学ぶエージェントを開発することにより、この制限に対処します。
私たちの研究は、最小限のデモンストレーションで暗黙的に表現されているものの、多様な計画シナリオ全体で一般化できるという観察を活用しています。
この仮説を体系的に評価するために、原子作用から複雑なシーケンスに至るまでの何百もの多様な好みを特徴とする具体化されたベンチマークである、優先ベースの計画(PBP)ベンチマークを導入します。
SOTAメソッドの評価により、シンボルベースのアプローチはスケーラビリティの可能性を示していますが、パーソナライズされた好みを満たす計画を生成および実行することを学習することには重要な課題が残っています。
さらに、学習された好みを計画に組み込むことにより、個人化された計画を構築するエージェントの能力が大幅に向上することを実証します。
これらの調査結果は、適応計画のための貴重な抽象化層としての選好を確立し、優先誘導計画の生成と実行における研究のための新しい方向性を開きます。

要約(オリジナル)

Effective integration of AI agents into daily life requires them to understand and adapt to individual human preferences, particularly in collaborative roles. Although recent studies on embodied intelligence have advanced significantly, they typically adopt generalized approaches that overlook personal preferences in planning. We address this limitation by developing agents that not only learn preferences from few demonstrations but also learn to adapt their planning strategies based on these preferences. Our research leverages the observation that preferences, though implicitly expressed through minimal demonstrations, can generalize across diverse planning scenarios. To systematically evaluate this hypothesis, we introduce Preference-based Planning (PbP) benchmark, an embodied benchmark featuring hundreds of diverse preferences spanning from atomic actions to complex sequences. Our evaluation of SOTA methods reveals that while symbol-based approaches show promise in scalability, significant challenges remain in learning to generate and execute plans that satisfy personalized preferences. We further demonstrate that incorporating learned preferences as intermediate representations in planning significantly improves the agent’s ability to construct personalized plans. These findings establish preferences as a valuable abstraction layer for adaptive planning, opening new directions for research in preference-guided plan generation and execution.

arxiv情報

著者 Manjie Xu,Xinyi Yang,Wei Liang,Chi Zhang,Yixin Zhu
発行日 2025-03-11 15:22:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC パーマリンク