要約
人間のデモンストレーションで訓練された生成ポリシーは、マルチモーダルで長老のタスクを自律的に達成できます。
ただし、推論中、人間はしばしばポリシー実行ループから削除され、複数の予測の中で特定のサブゴールまたは軌跡の形状に向けて事前に訓練されたポリシーを導く能力を制限します。
素朴な人間の介入は、分布のシフトを不注意に悪化させ、制約違反または実行の失敗につながる可能性があります。
分散式エラーを誘導せずにポリシーの出力を人間の意図とより適合させるために、人間の相互作用を活用して、相互作用データのポリシーを微調整するのではなく、生成サンプリングプロセスにバイアスする推論時間ポリシーステアリング(ITPS)フレームワークを提案します。
3つのシミュレーションと実世界のベンチマークにわたってITPを評価し、3つの形式の人間の相互作用と関連するアライメント距離メトリックをテストします。
6つのサンプリング戦略の中で、提案された拡散ポリシーを使用した確率的サンプリングは、アライメントシフトと分布シフトの間の最良のトレードオフを達成します。
ビデオはhttps://yanweiw.github.io/itps/で入手できます。
要約(オリジナル)
Generative policies trained with human demonstrations can autonomously accomplish multimodal, long-horizon tasks. However, during inference, humans are often removed from the policy execution loop, limiting the ability to guide a pre-trained policy towards a specific sub-goal or trajectory shape among multiple predictions. Naive human intervention may inadvertently exacerbate distribution shift, leading to constraint violations or execution failures. To better align policy output with human intent without inducing out-of-distribution errors, we propose an Inference-Time Policy Steering (ITPS) framework that leverages human interactions to bias the generative sampling process, rather than fine-tuning the policy on interaction data. We evaluate ITPS across three simulated and real-world benchmarks, testing three forms of human interaction and associated alignment distance metrics. Among six sampling strategies, our proposed stochastic sampling with diffusion policy achieves the best trade-off between alignment and distribution shift. Videos are available at https://yanweiw.github.io/itps/.
arxiv情報
著者 | Yanwei Wang,Lirui Wang,Yilun Du,Balakumar Sundaralingam,Xuning Yang,Yu-Wei Chao,Claudia Perez-D’Arpino,Dieter Fox,Julie Shah |
発行日 | 2025-03-26 02:40:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google