On Reducing Undesirable Behavior in Deep Reinforcement Learning Models

要約

深層強化学習 (DRL) は、さまざまなアプリケーション ドメインで非常に役立つことが証明されています。
ただし、成功した DRL ベースのソフトウェアであっても、非常に望ましくない動作を示す可能性があります。
これは、DRL トレーニングが報酬関数の最大化に基づいているためです。通常、報酬関数は一般的な傾向を捕捉しますが、システムの特定の動作を正確に捕捉したり除外したりすることはできません。
本稿では、DRL ベースのソフトウェアの優れたパフォーマンスを維持しながら、その望ましくない動作を大幅に軽減することを目的とした新しいフレームワークを提案します。
さらに、当社のフレームワークは、そのような望ましくない動作のわかりやすい特徴をエンジニアに提供するのに役立ちます。
内部的には、私たちのアプローチは、エラーのある状態とアクションのペアからデシジョン ツリー分類子を抽出し、これらのツリーを DRL トレーニング ループに統合して、エラーが実行されるたびにシステムにペナルティを与えることに基づいています。
私たちはアプローチの概念実証の実装を提供し、それを 3 つの重要なケーススタディで技術を評価するために使用します。
私たちのアプローチは既存のフレームワークを簡単な方法で拡張でき、トレーニング時間にわずかなオーバーヘッドしか発生しないことがわかりました。
さらに、パフォーマンスへの影響はごくわずかであり、場合によってはパフォーマンスが向上し、望ましくない動作の頻度が大幅に減少します。

要約(オリジナル)

Deep reinforcement learning (DRL) has proven extremely useful in a large variety of application domains. However, even successful DRL-based software can exhibit highly undesirable behavior. This is due to DRL training being based on maximizing a reward function, which typically captures general trends but cannot precisely capture, or rule out, certain behaviors of the system. In this paper, we propose a novel framework aimed at drastically reducing the undesirable behavior of DRL-based software, while maintaining its excellent performance. In addition, our framework can assist in providing engineers with a comprehensible characterization of such undesirable behavior. Under the hood, our approach is based on extracting decision tree classifiers from erroneous state-action pairs, and then integrating these trees into the DRL training loop, penalizing the system whenever it performs an error. We provide a proof-of-concept implementation of our approach, and use it to evaluate the technique on three significant case studies. We find that our approach can extend existing frameworks in a straightforward manner, and incurs only a slight overhead in training time. Further, it incurs only a very slight hit to performance, or even in some cases – improves it, while significantly reducing the frequency of undesirable behavior.

arxiv情報

著者 Ophir M. Carmel,Guy Katz
発行日 2023-09-11 14:09:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク