Zero-shot Model-based Reinforcement Learning using Large Language Models

要約

大規模言語モデル (LLM) の新たなゼロショット機能により、自然言語処理タスクをはるかに超えた領域への応用が可能になりました。
強化学習では、LLM はテキストベースの環境で広く使用されていますが、連続状態空間との統合についてはまだ十分に研究されていません。
この論文では、事前トレーニングされた LLM をどのように活用して、連続的なマルコフ決定プロセスのダイナミクスをコンテキスト内で予測できるかを調査します。
私たちは、多変量データの処理と制御信号の組み込みが、このセットアップでの LLM の展開の可能性を制限する重要な課題として特定し、それらに対処するための Disentangled In-Context Learning (DICL) を提案します。
提案された手法の理論分析によって裏付けられた、モデルベースのポリシー評価とデータ拡張されたオフポリシー強化学習という 2 つの強化学習設定における概念実証アプリケーションを示します。
私たちの実験は、私たちのアプローチが適切に校正された不確実性推定値を生成することをさらに実証しています。
コードは https://github.com/abenechehab/dicl でリリースされます。

要約(オリジナル)

The emerging zero-shot capabilities of Large Language Models (LLMs) have led to their applications in areas extending well beyond natural language processing tasks. In reinforcement learning, while LLMs have been extensively used in text-based environments, their integration with continuous state spaces remains understudied. In this paper, we investigate how pre-trained LLMs can be leveraged to predict in context the dynamics of continuous Markov decision processes. We identify handling multivariate data and incorporating the control signal as key challenges that limit the potential of LLMs’ deployment in this setup and propose Disentangled In-Context Learning (DICL) to address them. We present proof-of-concept applications in two reinforcement learning settings: model-based policy evaluation and data-augmented off-policy reinforcement learning, supported by theoretical analysis of the proposed methods. Our experiments further demonstrate that our approach produces well-calibrated uncertainty estimates. We release the code at https://github.com/abenechehab/dicl.

arxiv情報

著者 Abdelhakim Benechehab,Youssef Attia El Hili,Ambroise Odonnat,Oussama Zekri,Albert Thomas,Giuseppe Paolo,Maurizio Filippone,Ievgen Redko,Balázs Kégl
発行日 2024-10-15 15:46:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク