Avoiding Catastrophe in Online Learning by Asking for Help

要約

形式的な後悔保証を持つほとんどの学習アルゴリズムは、どんなミスも修復不可能でないと仮定し、基本的に可能な行動をすべて試すことに頼っている。このアプローチは、いくつかの間違いが ¬カタストロフィック(catastrophic)である、すなわち修復不可能である場合に問題となる。我々は、破局の可能性を最小化することをゴールとするオンライン学習問題を提案する。具体的には、各ラウンドのペイオフがそのラウンドのカタストロフィ回避の可能性を表すと仮定し、メンターへの限られた数のクエリーを許しながら、ペイオフの積(カタストロフィ回避の全体的な可能性)を最大化することを目指す。我々はまず、一般的に、どのようなアルゴリズムも常にメンターに問い合わせるか、カタストロフィを引き起こすことがほぼ保証されていることを示す。しかしながら、メンターポリシークラスが標準的なオンライン学習モデルで学習可能な設定では、時間地平線が成長するにつれて、後悔とメンターへの問い合わせ率が共に0に近づくアルゴリズムを提供する。概念的には、ある政策クラスが破局的リスクがない場合に学習可能であれば、エージェントが助けを求めることができれば、破局的リスクがある場合でも学習可能である。

要約(オリジナル)

Most learning algorithms with formal regret guarantees assume that no mistake is irreparable and essentially rely on trying all possible behaviors. This approach is problematic when some mistakes are \emph{catastrophic}, i.e., irreparable. We propose an online learning problem where the goal is to minimize the chance of catastrophe. Specifically, we assume that the payoff in each round represents the chance of avoiding catastrophe that round and aim to maximize the product of payoffs (the overall chance of avoiding catastrophe) while allowing a limited number of queries to a mentor. We first show that in general, any algorithm either constantly queries the mentor or is nearly guaranteed to cause catastrophe. However, in settings where the mentor policy class is learnable in the standard online learning model, we provide an algorithm whose regret and rate of querying the mentor both approach 0 as the time horizon grows. Conceptually, if a policy class is learnable in the absence of catastrophic risk, it is learnable in the presence of catastrophic risk if the agent can ask for help.

arxiv情報

著者 Benjamin Plaut,Hanlin Zhu,Stuart Russell
発行日 2024-10-04 15:23:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク