Zeroth-Order Optimization Meets Human Feedback: Provable Learning via Ranking Oracles

要約

この論文では、目的関数がブラックボックスであり、ランキングオラクルによってのみ評価できる新しい最適化問題に焦点を当てています。
この問題は、実際のアプリケーション、特に機能が人間の審査員によって評価される場合によく見られます。
ヒューマン フィードバックによる強化学習 (RLHF) は、そのようなアプリケーションの顕著な例であり、最近の研究 \cite{ouyang2022training,liu2023languages,chatgpt,bai2022training} で採用されており、ヒューマン ガイダンスで大規模言語モデル (LLM) の品質を向上させています。
この最適化問題を理論的な保証で解決するために、この種の最初のゼロ次最適化アルゴリズムである ZO-RankSGD を提案します。
具体的には、私たちのアルゴリズムは、降下方向に新しいランクベースのランダム推定器を採用し、静止点に収束することが証明されています。
ZO-RankSGD は、エピソード報酬のランキングオラクルのみが利用可能な場合、強化学習のポリシー検索問題に直接適用することもできます。
これにより、ZO-RankSGD は既存の RLHF メソッドの有望な代替手段になります。これは、オンラインで最適化し、事前に収集されたデータがなくても機能するためです。
さらに、新しいアプリケーションで ZO-RankSGD の有効性を示します。人間のランキング フィードバックを使用して、拡散生成モデルによって生成された画像の品質を向上させます。
実験を通じて、ZO-RankSGD は、人間によるフィードバックを数回行うだけで、生成された画像の詳細を大幅に向上させることができることがわかりました。
全体として、私たちの研究はランキング フィードバックのみで関数を最適化する問題に対処することでゼロ次最適化の分野を前進させ、幅広い領域で人間と機械の意図を一致させるための効果的なアプローチを提供します。
私たちのコードは、\url{https://github.com/TZW1998/Taming-Stable-Diffusion-with-Human-Ranking-Feedback} で公開されています。

要約(オリジナル)

In this paper, we focus on a novel optimization problem in which the objective function is a black-box and can only be evaluated through a ranking oracle. This problem is common in real-world applications, particularly in cases where the function is assessed by human judges. Reinforcement Learning with Human Feedback (RLHF) is a prominent example of such an application, which is adopted by the recent works \cite{ouyang2022training,liu2023languages,chatgpt,bai2022training} to improve the quality of Large Language Models (LLMs) with human guidance. We propose ZO-RankSGD, a first-of-its-kind zeroth-order optimization algorithm, to solve this optimization problem with a theoretical guarantee. Specifically, our algorithm employs a new rank-based random estimator for the descent direction and is proven to converge to a stationary point. ZO-RankSGD can also be directly applied to the policy search problem in reinforcement learning when only a ranking oracle of the episode reward is available. This makes ZO-RankSGD a promising alternative to existing RLHF methods, as it optimizes in an online fashion and thus can work without any pre-collected data. Furthermore, we demonstrate the effectiveness of ZO-RankSGD in a novel application: improving the quality of images generated by a diffusion generative model with human ranking feedback. Throughout experiments, we found that ZO-RankSGD can significantly enhance the detail of generated images with only a few rounds of human feedback. Overall, our work advances the field of zeroth-order optimization by addressing the problem of optimizing functions with only ranking feedback, and offers an effective approach for aligning human and machine intentions in a wide range of domains. Our code is released here \url{https://github.com/TZW1998/Taming-Stable-Diffusion-with-Human-Ranking-Feedback}.

arxiv情報

著者 Zhiwei Tang,Dmitry Rybin,Tsung-Hui Chang
発行日 2023-03-07 09:20:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク