Fuzzy Logic Guided Reward Function Variation: An Oracle for Testing Reinforcement Learning Programs

要約

強化学習 (RL) は、さまざまな分野で大きな注目を集めています。
ただし、RL プログラムの複雑さが増すにつれて、テストの課題、特に RL プログラムの正しさを定義するというオラクルの問題が生じます。
従来の人間のオラクルは複雑さに対処するのに苦労しており、RL テストの非効率性と潜在的な信頼性の低下につながります。
この問題を軽減するために、ファジー ロジックを使用して RL プロパティを活用する自動化された Oracle アプローチを提案します。
私たちのオラクルは、報酬ポリシーに対するエージェントの行動順守を定量化し、トレーニング エピソード全体にわたる傾向を分析します。
コンプライアンスの傾向が RL の特性から得られる期待に反する場合、RL プログラムに「バグがある」というラベルが付けられます。
RL プログラム上のオラクルをさまざまな複雑さで評価し、人間のオラクルと比較します。
結果は、人間のオラクルは単純なテスト シナリオでは優れたパフォーマンスを発揮するのに対し、ファジー オラクルは複雑な環境では優れたパフォーマンスを発揮することを示しています。
提案されたアプローチは、特に手動テストでは不十分な複雑なケースにおいて、RL テストのオラクル問題に対処するのに有望です。
これは、RL プログラム テストの効率、信頼性、拡張性を向上させる潜在的なソリューションを提供します。
この研究は、RL プログラムの自動テストに向けて一歩を踏み出し、オラクル問題に取り組む際のファジィ論理ベースのオラクルの可能性を強調しています。

要約(オリジナル)

Reinforcement Learning (RL) has gained significant attention across various domains. However, the increasing complexity of RL programs presents testing challenges, particularly the oracle problem: defining the correctness of the RL program. Conventional human oracles struggle to cope with the complexity, leading to inefficiencies and potential unreliability in RL testing. To alleviate this problem, we propose an automated oracle approach that leverages RL properties using fuzzy logic. Our oracle quantifies an agent’s behavioral compliance with reward policies and analyzes its trend over training episodes. It labels an RL program as ‘Buggy’ if the compliance trend violates expectations derived from RL characteristics. We evaluate our oracle on RL programs with varying complexities and compare it with human oracles. Results show that while human oracles perform well in simpler testing scenarios, our fuzzy oracle demonstrates superior performance in complex environments. The proposed approach shows promise in addressing the oracle problem for RL testing, particularly in complex cases where manual testing falls short. It offers a potential solution to improve the efficiency, reliability, and scalability of RL program testing. This research takes a step towards automated testing of RL programs and highlights the potential of fuzzy logic-based oracles in tackling the oracle problem.

arxiv情報

著者 Shiyu Zhang,Haoyang Song,Qixin Wang,Yu Pei
発行日 2024-06-28 10:41:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T05, 68T27, 93C42, cs.AI, cs.SE, D.2.5 パーマリンク