要約
最近の研究では、強化学習 (RL) を多目的検索と組み合わせて使用すると、ディープ ニューラル ネットワーク対応システムのオンライン テストにおいて、代替手法 (ランダム検索や多目的検索) よりも優れたパフォーマンスを発揮することが示されました。
これらの技術の実証的評価は、最先端の自動運転システム (ADS) 上で実施されました。
この研究は、その実証研究の複製および拡張です。
私たちの再現では、元の研究と同じ設定で行われた比較では、RL が純粋なランダム テスト生成よりも優れたパフォーマンスを発揮するわけではありませんが、衝突の測定方法に由来する交絡因子は存在しないことが示されています。
私たちの拡張は、レプリケーションで観察された RL のパフォーマンス低下の考えられる理由のいくつかを排除することを目的としています。(1) RL エージェントに対照的なフィードバックや無用なフィードバックを提供する報酬コンポーネントの存在。
(2) 本質的に連続な状態空間の離散化を必要とする RL アルゴリズム (Q 学習) の使用。
結果は、新しい RL エージェントがランダム テストを上回る効果的なポリシーに収束できることを示しています。
この結果は、他の改善の可能性も浮き彫りにしており、オンライン ADS テストに RL を最適に活用する方法についてのさらなる調査の余地があります。
要約(オリジナル)
In a recent study, Reinforcement Learning (RL) used in combination with many-objective search, has been shown to outperform alternative techniques (random search and many-objective search) for online testing of Deep Neural Network-enabled systems. The empirical evaluation of these techniques was conducted on a state-of-the-art Autonomous Driving System (ADS). This work is a replication and extension of that empirical study. Our replication shows that RL does not outperform pure random test generation in a comparison conducted under the same settings of the original study, but with no confounding factor coming from the way collisions are measured. Our extension aims at eliminating some of the possible reasons for the poor performance of RL observed in our replication: (1) the presence of reward components providing contrasting or useless feedback to the RL agent; (2) the usage of an RL algorithm (Q-learning) which requires discretization of an intrinsically continuous state space. Results show that our new RL agent is able to converge to an effective policy that outperforms random testing. Results also highlight other possible improvements, which open to further investigations on how to best leverage RL for online ADS testing.
arxiv情報
著者 | Luca Giamattei,Matteo Biagiola,Roberto Pietrantuono,Stefano Russo,Paolo Tonella |
発行日 | 2024-03-20 16:39:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google