要約
大規模なプールからトップの代替品の小さなサブセットを特定することを目的としたスクリーニングタスクは、ビジネスの意思決定プロセスで一般的です。
これらのタスクは、多くの場合、各代替のパフォーマンスを評価するために実質的な人間の努力を必要とし、時間がかかり、費用がかかります。
大規模な言語モデル(LLMS)の最近の進歩、特に人間の評価とうまく一致する出力を生成する能力に動機付けられているため、スクリーニングを実質的に実施するためのLLM-Human-Evaluatorアプローチを実質的に削減するためのLLM-Human-Haluatorアプローチを検討します。
仮想スクリーニングでスケーラビリティと費用対効果を達成するために、LLM出力の確率的性質とそのコスト構造が、あらゆる代替品にわたって効率的な予算配分を必要とすることを特定します。
これに対処するために、現在の最高$ M $の代替品を評価し続け、Explore-First Top $ M $ $ M $のgreedy(efg-$ m $)アルゴリズムを設計し続けるシンプルかつ効果的なアプローチである、$ m $ $ $ $ $の貪欲な評価メカニズムを使用することを提案します。
EFG-$ M $は、サンプル最適であり、大規模な仮想スクリーニングで一貫していることを証明しています。
驚くべきことに、アルゴリズムが選択されたサブセット内で自然に無関心に基づいたランキングを誘導するボーナスランキング効果も明らかにします。
実用性をさらに高めるために、スクリーニングのパフォーマンスと計算効率を改善するために、一連のアルゴリズムバリアントを設計します。
数値実験は結果を検証し、アルゴリズムの有効性を実証します。
最後に、LLMベースの仮想スクリーニングに関するケーススタディを実施します。
この研究では、LLMだけが直接照会されたときに有意義なスクリーニングとランキングの結果を提供しないかもしれないが、それらをサンプル最適なアルゴリズムと統合すると、費用対効果の高い大規模な仮想スクリーニングの可能性が解除されることを示しています。
要約(オリジナル)
Screening tasks that aim to identify a small subset of top alternatives from a large pool are common in business decision-making processes. These tasks often require substantial human effort to evaluate each alternative’s performance, making them time-consuming and costly. Motivated by recent advances in large language models (LLMs), particularly their ability to generate outputs that align well with human evaluations, we consider an LLM-as-human-evaluator approach for conducting screening virtually, thereby reducing the cost burden. To achieve scalability and cost-effectiveness in virtual screening, we identify that the stochastic nature of LLM outputs and their cost structure necessitate efficient budget allocation across all alternatives. To address this, we propose using a top-$m$ greedy evaluation mechanism, a simple yet effective approach that keeps evaluating the current top-$m$ alternatives, and design the explore-first top-$m$ greedy (EFG-$m$) algorithm. We prove that EFG-$m$ is both sample-optimal and consistent in large-scale virtual screening. Surprisingly, we also uncover a bonus ranking effect, where the algorithm naturally induces an indifference-based ranking within the selected subset. To further enhance practicality, we design a suite of algorithm variants to improve screening performance and computational efficiency. Numerical experiments validate our results and demonstrate the effectiveness of our algorithms. Lastly, we conduct a case study on LLM-based virtual screening. The study shows that while LLMs alone may not provide meaningful screening and ranking results when directly queried, integrating them with our sample-optimal algorithms unlocks their potential for cost-effective, large-scale virtual screening.
arxiv情報
著者 | Zaile Li,Weiwei Fan,L. Jeff Hong |
発行日 | 2025-04-25 15:59:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google