Efficient Exploration for LLMs

要約

私たちは、人間のフィードバックを収集して大規模な言語モデルを改善する際の効率的な探索による大きな利益の証拠を提示します。
私たちの実験では、エージェントは受け取ったフィードバックに報酬モデルを当てはめながらクエリを順次生成します。
当社の最もパフォーマンスの高いエージェントは、エピステミック ニューラル ネットワークで表される不確実性を備えたダブル トンプソン サンプリングを使用してクエリを生成します。
私たちの結果は、効率的な探索により、はるかに少ないクエリで高レベルのパフォーマンスが可能になることを示しています。
さらに、不確実性の推定と探査スキームの選択の両方が重要な役割を果たします。

要約(オリジナル)

We present evidence of substantial benefit from efficient exploration in gathering human feedback to improve large language models. In our experiments, an agent sequentially generates queries while fitting a reward model to the feedback received. Our best-performing agent generates queries using double Thompson sampling, with uncertainty represented by an epistemic neural network. Our results demonstrate that efficient exploration enables high levels of performance with far fewer queries. Further, both uncertainty estimation and the choice of exploration scheme play critical roles.

arxiv情報

著者 Vikranth Dwaracherla,Seyed Mohammad Asghari,Botao Hao,Benjamin Van Roy
発行日 2024-02-01 07:32:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ME, stat.ML パーマリンク