要約
大規模言語モデル (LLM) の出現は自然言語処理に大きな影響を与え、さまざまなタスクにわたって優れた結果が実証されました。
この研究では、LLMが意思決定の自己最適化を促進するために「内省的なヒント」を採用しています。
LLM は、軌道を内省的に調査することで、簡潔で価値のあるヒントを生成してポリシーを洗練させます。
私たちの方法は、エージェントの過去の経験からの学習、専門家のデモンストレーションの統合、および多様なゲームにわたる一般化という 3 つの重要なシナリオを考慮することにより、数ショットとゼロショットの両方の学習状況でエージェントのパフォーマンスを向上させます。
重要なのは、LLM パラメータを微調整することなくこれらの改善を達成できることです。
むしろ、前述の 3 つの状況からの洞察を一般化するためにプロンプトを調整します。
私たちのフレームワークは、文脈に沿った意思決定において LLM を採用する利点をサポートするだけでなく、それを強調します。
TextWorld での 100 以上のゲームを含む実験により、私たちのアプローチの優れたパフォーマンスが実証されました。
要約(オリジナル)
The emergence of large language models (LLMs) has substantially influenced natural language processing, demonstrating exceptional results across various tasks. In this study, we employ “Introspective Tips’ to facilitate LLMs in self-optimizing their decision-making. By introspectively examining trajectories, LLM refines its policy by generating succinct and valuable tips. Our method enhances the agent’s performance in both few-shot and zero-shot learning situations by considering three essential scenarios: learning from the agent’s past experiences, integrating expert demonstrations, and generalizing across diverse games. Importantly, we accomplish these improvements without fine-tuning the LLM parameters; rather, we adjust the prompt to generalize insights from the three aforementioned situations. Our framework not only supports but also emphasizes the advantage of employing LLM in in-contxt decision-making. Experiments involving over 100 games in TextWorld illustrate the superior performance of our approach.
arxiv情報
著者 | Liting Chen,Lu Wang,Hang Dong,Yali Du,Jie Yan,Fangkai Yang,Shuang Li,Pu Zhao,Si Qin,Saravan Rajmohan,Qingwei Lin,Dongmei Zhang |
発行日 | 2023-05-19 11:20:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google