Prompt-Tuning Decision Transformer with Preference Ranking

要約

プロンプトチューニングは、事前トレーニングされたモデルを下流のタスクに適応させたり、人間の好みに合わせたりするための有望な方法として浮上しています。
プロンプト学習は NLP で広く使用されていますが、RL プロンプトには複雑な物理的意味と環境固有の情報が含まれるため、RL への適用は限られています。
これらの要因には、デモンストレーションを模倣する教師あり学習が必要であり、学習後に意味が失われる可能性があります。
さらに、プロンプト チューニング アプローチを RL に直接拡張することは困難です。RL プロンプトは欠落情報を埋めるのではなく、環境モデリングと分析に基づいてエージェントの行動をガイドするため、NLP のように下流タスクのプロンプト形式を調整できる可能性は低いからです。
大幅な改善が得られます。
この研究では、プロンプト チューニング DT アルゴリズムを提案します。プロンプトとして軌道セグメントを使用して RL エージェントが環境情報を取得するようにガイドし、ブラック ボックス チューニングを通じてプロンプトを最適化することで、より関連性の高い情報を含めるエージェントの能力を強化します。
エージェントがより良い意思決定を行えるようにします。
私たちのアプローチには、ガウス分布をランダムにサンプリングしてプロンプトの軌道の要素を微調整し、好みのランキング関数を使用して最適化の方向を見つけることが含まれます。これにより、より有益なプロンプトが提供され、ターゲット環境における特定の好みに向けてエージェントをガイドします。
広範な実験により、プロンプト チューニング DT は、わずか 0.03% のパラメーターを学習することで、低データ シナリオにおけるフルモデルの微調整と同等またはそれ以上のパフォーマンスを達成できることが示されています。
私たちの研究は、RL におけるプロンプト チューニング アプローチの進歩に貢献し、特定の優先タスクに合わせて大規模な RL エージェントを最適化するための有望な方向性を提供します。

要約(オリジナル)

Prompt-tuning has emerged as a promising method for adapting pre-trained models to downstream tasks or aligning with human preferences. Prompt learning is widely used in NLP but has limited applicability to RL due to the complex physical meaning and environment-specific information contained within RL prompts. These factors require supervised learning to imitate the demonstrations and may result in a loss of meaning after learning. Additionally, directly extending prompt-tuning approaches to RL is challenging because RL prompts guide agent behavior based on environmental modeling and analysis, rather than filling in missing information, making it unlikely that adjustments to the prompt format for downstream tasks, as in NLP, can yield significant improvements. In this work, we propose the Prompt-Tuning DT algorithm to address these challenges by using trajectory segments as prompts to guide RL agents in acquiring environmental information and optimizing prompts via black-box tuning to enhance their ability to contain more relevant information, thereby enabling agents to make better decisions. Our approach involves randomly sampling a Gaussian distribution to fine-tune the elements of the prompt trajectory and using preference ranking function to find the optimization direction, thereby providing more informative prompts and guiding the agent towards specific preferences in the target environment. Extensive experiments show that with only 0.03% of the parameters learned, Prompt-Tuning DT achieves comparable or even better performance than full-model fine-tuning in low-data scenarios. Our work contributes to the advancement of prompt-tuning approaches in RL, providing a promising direction for optimizing large RL agents for specific preference tasks.

arxiv情報

著者 Shengchao Hu,Li Shen,Ya Zhang,Dacheng Tao
発行日 2023-05-16 17:49:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク