AgentForge: A Flexible Low-Code Platform for Reinforcement Learning Agent Design

要約

強化学習 (RL) エージェントの開発には、多くの場合、ポリシー、報酬関数、環境、エージェント内部アーキテクチャをカバーする多数のパラメーターの値を特定することが含まれます。
これらのパラメータは複雑に相互関係しているため、パラメータの最適化はブラックボックスの問題であり、専門家以外にとっては特に困難です。
既存のサービスとしての最適化プラットフォーム (Vizier や Optuna など) はこのような問題に対処できますが、RL システムでは実用的ではありません。これは、ユーザーが各パラメーターを個別のコンポーネントに手動でマッピングする必要があるため、作業が煩雑になるためです。
また、最適化プロセスを理解する必要があり、機械学習分野を超えてシステムの適用が制限され、人間の意思決定をモデル化する認知科学などの分野へのアクセスが制限されます。
これらの課題に取り組むために、この文書では、RL システム全体のパラメーター セットを最適化する柔軟なローコード プラットフォームである AgentForge を紹介します。
https://github.com/feferna/AgentForge で入手可能で、最適化問題を数行のコードで定義し、インターフェースされたオプティマイザーのいずれかに渡すことができます。
AgentForge を使用すると、ユーザーはパラメータを個別にまたは共同で最適化できます。
この論文では、困難なビジョンベースの RL 問題に対するそのパフォーマンスの評価を示します。

要約(オリジナル)

Developing a reinforcement learning (RL) agent often involves identifying values for numerous parameters, covering the policy, reward function, environment, and agent-internal architecture. Since these parameters are interrelated in complex ways, optimizing them is a black-box problem that proves especially challenging for nonexperts. Although existing optimization-as-a-service platforms (e.g., Vizier and Optuna) can handle such problems, they are impractical for RL systems, since the need for manual user mapping of each parameter to distinct components makes the effort cumbersome. It also requires understanding of the optimization process, limiting the systems’ application beyond the machine learning field and restricting access in areas such as cognitive science, which models human decision-making. To tackle these challenges, the paper presents AgentForge, a flexible low-code platform to optimize any parameter set across an RL system. Available at https://github.com/feferna/AgentForge, it allows an optimization problem to be defined in a few lines of code and handed to any of the interfaced optimizers. With AgentForge, the user can optimize the parameters either individually or jointly. The paper presents an evaluation of its performance for a challenging vision-based RL problem.

arxiv情報

著者 Francisco Erivaldo Fernandes Junior,Antti Oulasvirta
発行日 2025-01-09 15:12:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE パーマリンク