Q-FOX Learning: Breaking Tradition in Reinforcement Learning

要約

強化学習 (RL) は人工知能 (AI) のサブセットであり、エージェントが環境と対話することで最適なアクションを学習するため、ラベル付きデータや直接の監督を必要としないタスクに適しています。
ハイパーパラメータ (HP) チューニングとは、RL アルゴリズムで最適なソリューションを導く最適なパラメータを選択することを指します。
HP の手動またはランダムな調整は、このパラメータの変動により全体的な学習面の変化やさまざまな報酬につながるため、重要なプロセスとなる場合があります。
この論文では、Q-FOX と呼ばれる新しい自動 HP チューニング方法を提案します。
これは、キタキツネの狩猟行動を模倣する自然にヒントを得た新しい最適化手法である FOX オプティマイザーと、HP チューニングの問題を解決するために一般的に使用される実装が簡単な RL Q 学習アルゴリズムの両方を使用します。
さらに、平均二乗誤差 (MSE) や学習時間 (ステップ) よりも報酬を優先する新しい目的関数が提案されています。
Q-FOX は、Cart Pole と Frozen Lake という 2 つの OpenAI Gym 環境制御タスクで評価されました。
PSO、GA、Bee、またはランダムに選択された HP などの他のオプティマイザーを使用した HP チューニングよりも大きな累積報酬が明らかになりました。
Cart Pole タスクの累積報酬は 32.08、Frozen Lake タスクの累積報酬は 0.95 でした。
Q-FOX の堅牢性にもかかわらず、制限があります。
HP のプロセスは反復的に動作し、時間がかかるため、シミュレーション環境で HP を選択する前に実際の問題で直接使用することはできません。
この結果は、Q-FOX が、さまざまな制御タスクを効果的に解決するための RL アルゴリズムの HP チューニングにおいて重要な役割を果たしていることを示しています。

要約(オリジナル)

Reinforcement learning (RL) is a subset of artificial intelligence (AI) where agents learn the best action by interacting with the environment, making it suitable for tasks that do not require labeled data or direct supervision. Hyperparameters (HP) tuning refers to choosing the best parameter that leads to optimal solutions in RL algorithms. Manual or random tuning of the HP may be a crucial process because variations in this parameter lead to changes in the overall learning aspects and different rewards. In this paper, a novel and automatic HP-tuning method called Q-FOX is proposed. This uses both the FOX optimizer, a new optimization method inspired by nature that mimics red foxes’ hunting behavior, and the commonly used, easy-to-implement RL Q-learning algorithm to solve the problem of HP tuning. Moreover, a new objective function is proposed which prioritizes the reward over the mean squared error (MSE) and learning time (steps). Q-FOX has been evaluated on two OpenAI Gym environment control tasks: Cart Pole and Frozen Lake. It exposed greater cumulative rewards than HP tuning with other optimizers, such as PSO, GA, Bee, or randomly selected HP. The cumulative reward for the Cart Pole task was 32.08, and for the Frozen Lake task was 0.95. Despite the robustness of Q-FOX, it has limitations. It cannot be used directly in real-word problems before choosing the HP in a simulation environment because its processes work iteratively, making it time-consuming. The results indicate that Q-FOX has played an essential role in HP tuning for RL algorithms to effectively solve different control tasks.

arxiv情報

著者 Mahmood Alqaseer,Yossra H. Ali,Tarik A. Rashid
発行日 2024-02-26 13:39:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE パーマリンク