要約
オープンエンドの AI 生成アルゴリズムは、ますます複雑なタスクを無期限に継続的に生成して解決することを目的としており、より一般的なインテリジェンスへの有望な道を提供します。
この壮大なビジョンを達成するには、膨大な数の潜在的なタスクの中で学習を行う必要があります。
環境を自動的に生成する既存のアプローチは、手動で事前定義された環境の狭い分布内に制約されることが多く、学習環境を作成する能力が制限されています。
この制限に対処するために、我々は新しいフレームワーク OMNI-EPIC を導入します。これは、コードでプログラムされた環境 (EPIC) を使用して、人間の興味深い概念のモデル (OMNI) によるオープンエンド性の以前の研究を強化します。
OMNI-EPIC は、基礎モデルを活用して、次に学習可能な (つまり、エージェントの現在のスキルセットにとって簡単すぎず、難しすぎない) タスクや興味深い (たとえば、価値のあるタスクや斬新なタスクなど) タスクを指定するコードを自律的に生成します。
OMNI-EPIC は環境 (例: 障害物コース) と報酬関数 (例: 赤い物体に触れずに障害物コースを素早く進む) の両方を生成し、原理的にはあらゆるシミュレーション可能な学習タスクを作成できます。
新しい興味深い学習課題を提案するために継続的に革新を続ける OMNI-EPIC の爆発的な創造性を紹介します。
また、OMNI-EPIC が強化学習エージェントの学習の進行状況にどのように適応して、適切な難易度のタスクを生成できるかについても説明します。
全体として、OMNI-EPIC は学習可能で興味深い環境を際限なく作成でき、自己改善 AI システムと AI 生成アルゴリズムの開発をさらに推進します。
動画のあるプロジェクト Web サイト: https://dub.sh/omniepic
要約(オリジナル)
Open-ended and AI-generating algorithms aim to continuously generate and solve increasingly complex tasks indefinitely, offering a promising path toward more general intelligence. To accomplish this grand vision, learning must occur within a vast array of potential tasks. Existing approaches to automatically generating environments are constrained within manually predefined, often narrow distributions of environment, limiting their ability to create any learning environment. To address this limitation, we introduce a novel framework, OMNI-EPIC, that augments previous work in Open-endedness via Models of human Notions of Interestingness (OMNI) with Environments Programmed in Code (EPIC). OMNI-EPIC leverages foundation models to autonomously generate code specifying the next learnable (i.e., not too easy or difficult for the agent’s current skill set) and interesting (e.g., worthwhile and novel) tasks. OMNI-EPIC generates both environments (e.g., an obstacle course) and reward functions (e.g., progress through the obstacle course quickly without touching red objects), enabling it, in principle, to create any simulatable learning task. We showcase the explosive creativity of OMNI-EPIC, which continuously innovates to suggest new, interesting learning challenges. We also highlight how OMNI-EPIC can adapt to reinforcement learning agents’ learning progress, generating tasks that are of suitable difficulty. Overall, OMNI-EPIC can endlessly create learnable and interesting environments, further propelling the development of self-improving AI systems and AI-Generating Algorithms. Project website with videos: https://dub.sh/omniepic
arxiv情報
著者 | Maxence Faldor,Jenny Zhang,Antoine Cully,Jeff Clune |
発行日 | 2024-05-24 13:57:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google