要約
社会科学、行動科学、およびデータサイエンスにおける複製可能性の危機は、複製可能性のためのアルゴリズムフレームワークの策定につながりました。つまり、アルゴリズムが、同じ基礎となる分布からの 2 つの異なるサンプルに対して実行されたときに、同一の出力を (高確率で) 生成するという要件です。
。
まだ初期段階にありますが、統計クエリ学習、ヘビーヒッター問題、分散テストなど、機械学習と統計の多くの基本的なタスク用に複製可能なアルゴリズムが開発されています。
この研究では、複製可能な強化学習の研究を開始し、並列値反復のための複製可能なアルゴリズムと、エピソード設定における R-max の複製可能なバージョンを提供します。
これらは、制御問題に関する最初の正式な複製可能性の結果であり、バッチ学習設定とは異なる複製の課題を提示します。
要約(オリジナル)
The replicability crisis in the social, behavioral, and data sciences has led to the formulation of algorithm frameworks for replicability — i.e., a requirement that an algorithm produce identical outputs (with high probability) when run on two different samples from the same underlying distribution. While still in its infancy, provably replicable algorithms have been developed for many fundamental tasks in machine learning and statistics, including statistical query learning, the heavy hitters problem, and distribution testing. In this work we initiate the study of replicable reinforcement learning, providing a provably replicable algorithm for parallel value iteration, and a provably replicable version of R-max in the episodic setting. These are the first formal replicability results for control problems, which present different challenges for replication than batch learning settings.
arxiv情報
著者 | Eric Eaton,Marcel Hussing,Michael Kearns,Jessica Sorrell |
発行日 | 2023-06-27 16:41:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google