Intelligent Go-Explore: Standing on the Shoulders of Giant Foundation Models

要約

Go-Exploreは、発見された状態をアーカイブする原則に基づいて構築され、最も有望な州から繰り返し戻って探索するという原則に基づいて構築されたハードエクスポレーションの問題を解決するために設計されたアルゴリズムの強力なファミリーです。
このアプローチは、Atariゲームやロボット制御など、さまざまな挑戦的な問題にわたる超人的なパフォーマンスにつながりましたが、探査を導くためにヒューリスティックを手動で設計する必要があります(つまり、どの状態を保存および探索するか、次に考慮するアクションを決定します)。
一般的に時間がかかり、実行不可能です。
これを解決するために、これらの手作りのヒューリスティックを巨大な前処理された基礎モデル(FMS)によって捕らえられた興味深い知性と内在化された人間の概念に置き換えることにより、元のGo-Exploreの範囲を大きく拡張するインテリジェントなGo-Explore(IGE)を提案します。
これにより、IGEは、ヒューリスティックを定義するのが難しい複雑な環境であっても、新しい状態がどれほど興味深いまたは約束されているか(例えば、新しいオブジェクト、場所、または行動を発見する)かを本能的に特定する人間のような能力を提供します。
さらに、IGEは、偶然の発見を認識し、資本化するエキサイティングな機会を提供します。これは、探査中に探求中に遭遇した状態を、人間のユーザーによって予想されていなかった場合です。
検索と探索を必要とする多様な言語とビジョンベースのタスクに関するアルゴリズムを評価します。
これらのタスク全体で、IGEは古典的な強化学習とグラフ検索ベースラインを強く超えており、リフレクションのような最先端のFMエージェントが完全に失敗した場合にも成功します。
全体的に、インテリジェントなGo-Exploreは、FMSと強力なGo-Exploreアルゴリズムの途方もない強みを組み合わせており、印象的な探索機能を備えたより一般的な有能なエージェントの作成に関する新しいフロンティアを開きます。

要約(オリジナル)

Go-Explore is a powerful family of algorithms designed to solve hard-exploration problems built on the principle of archiving discovered states, and iteratively returning to and exploring from the most promising states. This approach has led to superhuman performance across a wide variety of challenging problems including Atari games and robotic control, but requires manually designing heuristics to guide exploration (i.e., determine which states to save and explore from, and what actions to consider next), which is time-consuming and infeasible in general. To resolve this, we propose Intelligent Go-Explore (IGE) which greatly extends the scope of the original Go-Explore by replacing these handcrafted heuristics with the intelligence and internalized human notions of interestingness captured by giant pretrained foundation models (FMs). This provides IGE with a human-like ability to instinctively identify how interesting or promising any new state is (e.g., discovering new objects, locations, or behaviors), even in complex environments where heuristics are hard to define. Moreover, IGE offers the exciting opportunity to recognize and capitalize on serendipitous discoveries — states encountered during exploration that are valuable in terms of exploration, yet where what makes them interesting was not anticipated by the human user. We evaluate our algorithm on a diverse range of language and vision-based tasks that require search and exploration. Across these tasks, IGE strongly exceeds classic reinforcement learning and graph search baselines, and also succeeds where prior state-of-the-art FM agents like Reflexion completely fail. Overall, Intelligent Go-Explore combines the tremendous strengths of FMs and the powerful Go-Explore algorithm, opening up a new frontier of research into creating more generally capable agents with impressive exploration capabilities.

arxiv情報

著者 Cong Lu,Shengran Hu,Jeff Clune
発行日 2025-02-07 11:10:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク