Intention-Conditioned Flow Occupancy Models

要約

大規模な事前トレーニングにより、機械学習の研究が今日どのように行われるかが根本的に変化しました。大規模な基礎モデルは一度トレーニングされ、コミュニティの誰でも(データやモデルをゼロから訓練するためのリソースを計算しないリソースを含む)、特定のタスクに適応して微調整することができます。
この同じフレームワークを強化学習(RL)に適用することは、サンプルの効率と堅牢性など、RLのコアチャレンジに対処するための説得力のある手段を提供するため、魅力的です。
ただし、RLのコンテキストで大規模なモデルを事前に退行することには根本的な課題が残っています。アクションには長期的な依存関係があるため、時間をかけて理由が重要な基盤モデルをトレーニングすることが重要です。
生成AIの最近の進歩により、非常に複雑な分布をモデル化するための新しいツールが提供されています。
この論文では、フローマッチングを使用して、エージェントが一時的に遠い将来(つまり、占有尺度)にどの州が訪問するかを予測する確率的モデルを構築します。
多くの場合、大きなデータセットは、個別のタスクを実行する多くの異なるユーザーによって構築されるため、ユーザーの意図をキャプチャする潜在変数をモデルに含めます。
この意図は、モデルの表現力を高め、一般化された政策改善による適応を可能にします。
提案された方法で意図条件付きフロー占有モデル(INFOM)を呼び出します。
トレーニング前の代替方法と比較すると、36ドルの州ベースと4ドルの画像ベースのベンチマークタスクに関する実験は、提案された方法が1.8 \ Times $のリターンの改善を達成し、成功率を36 \%$に引き上げることを示しています。
ウェブサイト:https://chongyi-zheng.github.io/infomコード:https://github.com/chongyi-zheng/infom

要約(オリジナル)

Large-scale pre-training has fundamentally changed how machine learning research is done today: large foundation models are trained once, and then can be used by anyone in the community (including those without data or compute resources to train a model from scratch) to adapt and fine-tune to specific tasks. Applying this same framework to reinforcement learning (RL) is appealing because it offers compelling avenues for addressing core challenges in RL, including sample efficiency and robustness. However, there remains a fundamental challenge to pre-train large models in the context of RL: actions have long-term dependencies, so training a foundation model that reasons across time is important. Recent advances in generative AI have provided new tools for modeling highly complex distributions. In this paper, we build a probabilistic model to predict which states an agent will visit in the temporally distant future (i.e., an occupancy measure) using flow matching. As large datasets are often constructed by many distinct users performing distinct tasks, we include in our model a latent variable capturing the user intention. This intention increases the expressivity of our model, and enables adaptation with generalized policy improvement. We call our proposed method intention-conditioned flow occupancy models (InFOM). Comparing with alternative methods for pre-training, our experiments on $36$ state-based and $4$ image-based benchmark tasks demonstrate that the proposed method achieves $1.8 \times$ median improvement in returns and increases success rates by $36\%$. Website: https://chongyi-zheng.github.io/infom Code: https://github.com/chongyi-zheng/infom

arxiv情報

著者 Chongyi Zheng,Seohong Park,Sergey Levine,Benjamin Eysenbach
発行日 2025-06-10 15:27:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク