要約
過去数十年にわたり、科学および工学アプリケーションで大量のデータを生成する能力は着実に成長してきました。
一方、機械学習の進歩により、機械学習は利用可能なデータを処理して利用するのに適したツールになりました。
それにもかかわらず、多くの関連する科学的および工学的問題は、現在の機械学習手法が利用可能なデータとリソースをまだ効率的に活用できないという課題を提示しています。
たとえば、科学的発見では、非常に大規模な高次元空間を探索するという問題に直面することがよくありますが、そこでは忠実度の高いブラックボックス目的関数をクエリするのは非常にコストがかかります。
このような問題に効率的に対処できる機械学習手法の進歩は、創薬や材料の発見など、現在重要な分野を加速するのに役立つでしょう。
この論文では、より低い忠実度とコストでブラック ボックス関数の複数の近似を利用できる、多重忠実度のアクティブ ラーニングに GFlowNets を使用することを提案します。
GFlowNet は、償却された確率的推論のために最近提案された方法であり、大規模で高次元の空間を探索するのに効率的であることが証明されており、マルチ忠実度設定でも実用的です。
ここでは、GFlowNets を使用した多重忠実度アクティブ ラーニングのアルゴリズムについて説明し、よく研究された合成タスクと実際に関連する分子発見アプリケーションの両方でそのパフォーマンスを評価します。
私たちの結果は、GFlowNets を使用したマルチ忠実度アクティブ ラーニングが、コストと忠実度が異なる複数のオラクルの可用性を効率的に活用して、科学的発見と工学設計を加速できることを示しています。
要約(オリジナル)
In the last decades, the capacity to generate large amounts of data in science and engineering applications has been growing steadily. Meanwhile, the progress in machine learning has turned it into a suitable tool to process and utilise the available data. Nonetheless, many relevant scientific and engineering problems present challenges where current machine learning methods cannot yet efficiently leverage the available data and resources. For example, in scientific discovery, we are often faced with the problem of exploring very large, high-dimensional spaces, where querying a high fidelity, black-box objective function is very expensive. Progress in machine learning methods that can efficiently tackle such problems would help accelerate currently crucial areas such as drug and materials discovery. In this paper, we propose the use of GFlowNets for multi-fidelity active learning, where multiple approximations of the black-box function are available at lower fidelity and cost. GFlowNets are recently proposed methods for amortised probabilistic inference that have proven efficient for exploring large, high-dimensional spaces and can hence be practical in the multi-fidelity setting too. Here, we describe our algorithm for multi-fidelity active learning with GFlowNets and evaluate its performance in both well-studied synthetic tasks and practically relevant applications of molecular discovery. Our results show that multi-fidelity active learning with GFlowNets can efficiently leverage the availability of multiple oracles with different costs and fidelities to accelerate scientific discovery and engineering design.
arxiv情報
著者 | Alex Hernandez-Garcia,Nikita Saxena,Moksh Jain,Cheng-Hao Liu,Yoshua Bengio |
発行日 | 2023-06-20 17:43:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google