要約
動的アルゴリズム構成(DAC)は、特に機械学習と深い学習アルゴリズムの有病率において、近年、大きな注目を集めています。
多くの研究が、アルゴリズムの構成に関連する最適化の課題に対処するために、強化学習(RL)における意思決定の堅牢性を活用しています。
ただし、RLエージェントを適切に動作させることは、特に報酬設計において、非自明なタスクであり、ドメインの専門知識に基づいてかなりの量の手作りの知識を必要とします。
この作業では、$(1+(\ lambda、\ lambda))$ -gaの$(1+(\ lambda、\ lambda))の人口サイズの制御に関する事例研究を介して、DACのコンテキストでの報酬設計の重要性を研究します。
設計が不十分な報酬は、探査の欠如のために最適なポリシーを学習するRLエージェントの能力を妨げる可能性があることを観察しました。
これらの課題に対処するために、RLエージェントによる環境の探求の強化を促進するために、報酬形成メカニズムの適用を提案します。
私たちの仕事は、$(1+(\ lambda、\ lambda))$-gaを動的に構成する際のRLの能力を実証するだけでなく、さまざまなサイズのOnemax問題にわたるRLエージェントのスケーラビリティにおける報酬形状の利点も確認します。
要約(オリジナル)
Dynamic Algorithm Configuration (DAC) has garnered significant attention in recent years, particularly in the prevalence of machine learning and deep learning algorithms. Numerous studies have leveraged the robustness of decision-making in Reinforcement Learning (RL) to address the optimization challenges associated with algorithm configuration. However, making an RL agent work properly is a non-trivial task, especially in reward design, which necessitates a substantial amount of handcrafted knowledge based on domain expertise. In this work, we study the importance of reward design in the context of DAC via a case study on controlling the population size of the $(1+(\lambda,\lambda))$-GA optimizing OneMax. We observed that a poorly designed reward can hinder the RL agent’s ability to learn an optimal policy because of a lack of exploration, leading to both scalability and learning divergence issues. To address those challenges, we propose the application of a reward shaping mechanism to facilitate enhanced exploration of the environment by the RL agent. Our work not only demonstrates the ability of RL in dynamically configuring the $(1+(\lambda,\lambda))$-GA, but also confirms the advantages of reward shaping in the scalability of RL agents across various sizes of OneMax problems.
arxiv情報
著者 | Tai Nguyen,Phong Le,André Biendenkapp,Carola Doerr,Nguyen Dang |
発行日 | 2025-02-27 16:53:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google