Inference-Time Policy Steering through Human Interactions

要約

人間のデモンストレーションによって訓練された生成ポリシーは、多峰性の長期的なタスクを自律的に実行できます。
ただし、推論中は人間がポリシー実行ループから外されることが多く、事前トレーニングされたポリシーを複数の予測の中から特定のサブ目標や軌道形状に導く能力が制限されます。
人間による単純な介入により、意図せずに分散シフトが悪化して、制約違反や実行失敗が発生する可能性があります。
分布外エラーを誘発することなく、ポリシー出力を人間の意図とより適切に調整するために、インタラクション データに関するポリシーを微調整するのではなく、人間のインタラクションを活用して生成サンプリング プロセスにバイアスをかける推論時間ポリシー ステアリング (ITPS) フレームワークを提案します。

私たちは、3 つのシミュレートされたベンチマークと現実世界のベンチマークにわたって ITPS を評価し、3 つの形式の人間のインタラクションと関連するアライメント距離メトリクスをテストします。
6 つのサンプリング戦略の中で、拡散ポリシーを備えた私たちが提案する確率的サンプリングは、位置合わせと分布シフトの間の最良のトレードオフを実現します。
ビデオは https://yanweiw.github.io/itps/ でご覧いただけます。

要約(オリジナル)

Generative policies trained with human demonstrations can autonomously accomplish multimodal, long-horizon tasks. However, during inference, humans are often removed from the policy execution loop, limiting the ability to guide a pre-trained policy towards a specific sub-goal or trajectory shape among multiple predictions. Naive human intervention may inadvertently exacerbate distribution shift, leading to constraint violations or execution failures. To better align policy output with human intent without inducing out-of-distribution errors, we propose an Inference-Time Policy Steering (ITPS) framework that leverages human interactions to bias the generative sampling process, rather than fine-tuning the policy on interaction data. We evaluate ITPS across three simulated and real-world benchmarks, testing three forms of human interaction and associated alignment distance metrics. Among six sampling strategies, our proposed stochastic sampling with diffusion policy achieves the best trade-off between alignment and distribution shift. Videos are available at https://yanweiw.github.io/itps/.

arxiv情報

著者 Yanwei Wang,Lirui Wang,Yilun Du,Balakumar Sundaralingam,Xuning Yang,Yu-Wei Chao,Claudia Perez-D’Arpino,Dieter Fox,Julie Shah
発行日 2024-11-25 18:03:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG, cs.RO パーマリンク