Quality-Diversity through AI Feedback


多くのテキスト生成問題では、ユーザーは 1 つの応答だけではなく、さまざまな高品質の出力を選択することを好む場合があります。
品質多様性 (QD) 検索アルゴリズムは、候補者の母集団を継続的に改善および多様化することで、そのような結果を目指します。
しかし、クリエイティブライティングなどの定性的領域への QD の適用性は、品質と多様性の尺度をアルゴリズムで指定することが難しいため制限されてきました。
興味深いことに、言語モデル (LM) の最近の開発により、AI フィードバックによるガイド検索が可能になり、LM は自然言語でテキストの定性的側面を評価するように促されます。
この開発を活用して、AI フィードバックによる品質多様性 (QDAIF) を導入します。QDAIF では、進化的アルゴリズムが LM を適用して、バリエーションの生成と候補テキ​​ストの品質と多様性の評価の両方を行います。
クリエイティブ ライティング ドメインで評価されると、QDAIF は非 QD コントロールよりも高品質のサンプルで指定された検索スペースをより多くカバーします。
さらに、QDAIF が生成したクリエイティブ テキストを人間が評価することで、AI と人間の評価が合理的に一致していることが検証されます。
このように、QDAIF は、人間社会のイノベーション能力の基礎となるコアスキルの 1 つである、独立して検索、多様化、評価、改善できる AI システムへの一歩となります。


In many text-generation problems, users may prefer not only a single response, but a diverse range of high-quality outputs from which to choose. Quality-diversity (QD) search algorithms aim at such outcomes, by continually improving and diversifying a population of candidates. However, the applicability of QD to qualitative domains, like creative writing, has been limited by the difficulty of algorithmically specifying measures of quality and diversity. Interestingly, recent developments in language models (LMs) have enabled guiding search through AI feedback, wherein LMs are prompted in natural language to evaluate qualitative aspects of text. Leveraging this development, we introduce Quality-Diversity through AI Feedback (QDAIF), wherein an evolutionary algorithm applies LMs to both generate variation and evaluate the quality and diversity of candidate text. When assessed on creative writing domains, QDAIF covers more of a specified search space with high-quality samples than do non-QD controls. Further, human evaluation of QDAIF-generated creative texts validates reasonable agreement between AI and human evaluation. Our results thus highlight the potential of AI feedback to guide open-ended search for creative and original solutions, providing a recipe that seemingly generalizes to many domains and modalities. In this way, QDAIF is a step towards AI systems that can independently search, diversify, evaluate, and improve, which are among the core skills underlying human society’s capacity for innovation.


著者 Herbie Bradley,Andrew Dai,Hannah Teufel,Jenny Zhang,Koen Oostermeijer,Marco Bellagente,Jeff Clune,Kenneth Stanley,Grégory Schott,Joel Lehman
発行日 2023-11-08 17:06:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.NE パーマリンク