OMNI: Open-endedness via Models of human Notions of Interestingness

要約

オープンエンドアルゴリズムは、新しい、興味深い行動を永遠に学習することを目的としています。そのためには広大な環境探索空間が必要ですが、そのため可能なタスクは無限に存在します。現在のエージェントが学習できるタスクをフィルタリングした後でも(すなわち、学習の進捗)、学習可能だが興味のないタスクが無数に残ります(例えば、以前に学習したタスクのマイナーなバリエーションなど)。オープンエンド研究のアキレス腱は、学習可能なだけでなく、$textit{interesting}$(例えば、価値がある、新しい)タスクを定量化できない(つまり、優先順位が付けられない)ことである。我々は、この問題を$textit{Open-endedness via Models of human Notions of Interestingness}$ (OMNI)によって解決することを提案します。これは、LMが膨大な量の人間が生成したデータで学習し、人間が面白いと思うことやつまらないと思うことを自然に書くことによって、人間の面白さの概念を内在化するためである。我々は、LMベースのMOIが、学習可能なタスクと興味深いタスクの両方に焦点を当てることで、オープンエンド学習を改善し、均一なタスクサンプリングや学習進捗に基づくベースラインよりも優れていることを示す。このアプローチは、次に取り組むべきタスクを知的に選択する能力(自動カリキュラム)を飛躍的に向上させる可能性があり、AIが自ら次のタスクを選択して学習することで、自己改善型のAIやAI生成アルゴリズムを促進するとも考えられる。

要約(オリジナル)

Open-ended algorithms aim to learn new, interesting behaviors forever. That requires a vast environment search space, but there are thus infinitely many possible tasks. Even after filtering for tasks the current agent can learn (i.e., learning progress), countless learnable yet uninteresting tasks remain (e.g., minor variations of previously learned tasks). An Achilles Heel of open-endedness research is the inability to quantify (and thus prioritize) tasks that are not just learnable, but also $\textit{interesting}$ (e.g., worthwhile and novel). We propose solving this problem by $\textit{Open-endedness via Models of human Notions of Interestingness}$ (OMNI). The insight is that we can utilize large (language) models (LMs) as a model of interestingness (MoI), because they $\textit{already}$ internalize human concepts of interestingness from training on vast amounts of human-generated data, where humans naturally write about what they find interesting or boring. We show that LM-based MoIs improve open-ended learning by focusing on tasks that are both learnable $\textit{and interesting}$, outperforming baselines based on uniform task sampling or learning progress alone. This approach has the potential to dramatically advance the ability to intelligently select which tasks to focus on next (i.e., auto-curricula), and could be seen as AI selecting its own next task to learn, facilitating self-improving AI and AI-Generating Algorithms.

arxiv情報

著者 Jenny Zhang,Joel Lehman,Kenneth Stanley,Jeff Clune
発行日 2023-06-02 17:32:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク