Instance Selection for Dynamic Algorithm Configuration with Reinforcement Learning: Improving Generalization

要約

動的アルゴリズム構成 (DAC) は、個々のタスクだけに焦点を当てるのではなく、多様なインスタンスのセットに対してアルゴリズムのハイパーパラメーターを動的に設定するという課題に対処します。
深層強化学習 (RL) でトレーニングされたエージェントは、そのような設定を解決するための道筋を提供します。
ただし、これらのエージェントの一般化パフォーマンスが限られているため、DAC での適用が大幅に妨げられています。
私たちの仮説は、トレーニング インスタンスの潜在的なバイアスにより汎化機能が制限されるというものです。
トレーニング インスタンスの代表的なサブセットを選択して過剰表現を克服し、このサブセットでエージェントを再トレーニングして汎化パフォーマンスを向上させることで、これを軽減するための一歩を踏み出しました。
サブセット選択のためのメタ特徴を構築するために、エージェントと環境の相互作用によって生成されるアクションと報酬の軌跡に関する時系列特徴を計算することにより、RL エージェントの動的な性質を特に考慮します。
DACBench と呼ばれる DAC の標準ベンチマーク ライブラリの Sigmoid ベンチマークと CMA-ES ベンチマークの経験的評価を通じて、インスタンス セット全体でのトレーニングと比較した選択手法の可能性について説明します。
私たちの結果は、多様なインスタンス空間に対する DAC ポリシーを調整する際のインスタンス選択の有効性を浮き彫りにしています。

要約(オリジナル)

Dynamic Algorithm Configuration (DAC) addresses the challenge of dynamically setting hyperparameters of an algorithm for a diverse set of instances rather than focusing solely on individual tasks. Agents trained with Deep Reinforcement Learning (RL) offer a pathway to solve such settings. However, the limited generalization performance of these agents has significantly hindered the application in DAC. Our hypothesis is that a potential bias in the training instances limits generalization capabilities. We take a step towards mitigating this by selecting a representative subset of training instances to overcome overrepresentation and then retraining the agent on this subset to improve its generalization performance. For constructing the meta-features for the subset selection, we particularly account for the dynamic nature of the RL agent by computing time series features on trajectories of actions and rewards generated by the agent’s interaction with the environment. Through empirical evaluations on the Sigmoid and CMA-ES benchmarks from the standard benchmark library for DAC, called DACBench, we discuss the potentials of our selection technique compared to training on the entire instance set. Our results highlight the efficacy of instance selection in refining DAC policies for diverse instance spaces.

arxiv情報

著者 Carolin Benjamins,Gjorgjina Cenikj,Ana Nikolikj,Aditya Mohan,Tome Eftimov,Marius Lindauer
発行日 2024-07-18 13:44:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク