要約
強化学習 (RL) は機械学習の活発な分野の 1 つであり、現実世界の課題に取り組む上で顕著な可能性を示しています。
この方法論は有望な見通しにもかかわらず、問題や課題に直面しており、最高のパフォーマンスを達成することが妨げられています。
特に、これらのアプローチは、環境をナビゲートしたり、大きな観察空間でタスクを解決したりする場合にまともなパフォーマンスを欠いており、多くの場合、サンプルの効率が悪く、学習時間が長くなる結果になります。
一般に次元の呪いと呼ばれるこの問題は、RL エージェントの意思決定を複雑にし、注意と意思決定の間の慎重なバランスを必要とします。
RL エージェントは、人間または大規模言語モデル (LLM) のフィードバックで強化されると、回復力と適応性を示し、パフォーマンスの向上と学習の加速につながる可能性があります。
自然言語を含むさまざまな様式や粒度を通じて伝えられるこのようなフィードバックは、RL エージェントのガイドとして機能し、関連する環境の合図を識別し、意思決定プロセスを最適化するのに役立ちます。
この調査報告書では、主に 2 つの問題に焦点を当てています。まず、人間または LLM の支援に焦点を当て、最適な行動を促進し、学習を促進するために、これらのエンティティが RL エージェントと協力する方法を調査します。
次に、広い観察空間を特徴とする環境の複雑さに対処することに特化した研究論文を詳しく調査します。
要約(オリジナル)
Reinforcement learning (RL) is one of the active fields in machine learning, demonstrating remarkable potential in tackling real-world challenges. Despite its promising prospects, this methodology has encountered with issues and challenges, hindering it from achieving the best performance. In particular, these approaches lack decent performance when navigating environments and solving tasks with large observation space, often resulting in sample-inefficiency and prolonged learning times. This issue, commonly referred to as the curse of dimensionality, complicates decision-making for RL agents, necessitating a careful balance between attention and decision-making. RL agents, when augmented with human or large language models’ (LLMs) feedback, may exhibit resilience and adaptability, leading to enhanced performance and accelerated learning. Such feedback, conveyed through various modalities or granularities including natural language, serves as a guide for RL agents, aiding them in discerning relevant environmental cues and optimizing decision-making processes. In this survey paper, we mainly focus on problems of two-folds: firstly, we focus on humans or an LLMs assistance, investigating the ways in which these entities may collaborate with the RL agent in order to foster optimal behavior and expedite learning; secondly, we delve into the research papers dedicated to addressing the intricacies of environments characterized by large observation space.
arxiv情報
著者 | Alireza Rashidi Laleh,Majid Nili Ahmadabadi |
発行日 | 2024-11-20 15:52:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google