要約
AI システムは、API 呼び出しを介してアクセスされる原始的なアクションまたはアフォーダンスを通じて、物理環境で意思決定を行います。
AI エージェントを現実世界に展開するには、多数の高レベルのアクションが必要ですが、既存の具体化されたシミュレーターが提供するドメイン顕著な API のセットは限られています。
これは当然次のような疑問を引き起こします: 多用途の身体化されたエージェントにはいくつのプリミティブ アクション (API) が必要で、それらはどのようなものであるべきですか?
これを思考実験によって調査します。wikiHow チュートリアルが人間が作成したさまざまなタスクをカバーしていると仮定すると、これらの指示をカバーするために必要な API のスペースはどれくらいでしょうか?
私たちは、エージェントのポリシーに応じた wikiHow 命令を基礎にして、新しい API を反復的に誘導するフレームワークを提案します。
具現化された計画のための大規模言語モデル (LLM) における最近の成功に触発され、私たちは、GPT-4 を操作して Pythonic プログラムをエージェント ポリシーとして生成し、1) API のシード セットを再利用することによって API のユニバースをブートストラップするよう促す数ショット プロンプトを提案します。
次に、2) 必要に応じて新しい API 呼び出しを作成します。
この思考実験の焦点は、これらの API の実行可能性ではなく、API の定義にあります。
提案されたパイプラインを wikiHow チュートリアルの指示に適用します。
チュートリアルのごく一部 (0.5%) では、物理世界の多種多様なタスクをキャプチャするために必要な 300 以上の API のアクション スペースを誘導します。
誘導出力の詳細な自動分析と人間による分析により、提案されたパイプラインにより API の効果的な再利用と作成が可能になることが明らかになりました。
さらに、手動レビューにより、既存のシミュレータが誘導 API のごく一部 (頻繁に使用される API 上位 50 個のうち 9 個) しかサポートしていないことが明らかになったため、アクションが豊富な具体化された環境の開発が促進されます。
要約(オリジナル)
AI systems make decisions in physical environments through primitive actions or affordances that are accessed via API calls. While deploying AI agents in the real world involves numerous high-level actions, existing embodied simulators offer a limited set of domain-salient APIs. This naturally brings up the questions: how many primitive actions (APIs) are needed for a versatile embodied agent, and what should they look like? We explore this via a thought experiment: assuming that wikiHow tutorials cover a wide variety of human-written tasks, what is the space of APIs needed to cover these instructions? We propose a framework to iteratively induce new APIs by grounding wikiHow instruction to situated agent policies. Inspired by recent successes in large language models (LLMs) for embodied planning, we propose a few-shot prompting to steer GPT-4 to generate Pythonic programs as agent policies and bootstrap a universe of APIs by 1) reusing a seed set of APIs; and then 2) fabricate new API calls when necessary. The focus of this thought experiment is on defining these APIs rather than their executability. We apply the proposed pipeline on instructions from wikiHow tutorials. On a small fraction (0.5%) of tutorials, we induce an action space of 300+ APIs necessary for capturing the rich variety of tasks in the physical world. A detailed automatic and human analysis of the induction output reveals that the proposed pipeline enables effective reuse and creation of APIs. Moreover, a manual review revealed that existing simulators support only a small subset of the induced APIs (9 of the top 50 frequent APIs), motivating the development of action-rich embodied environments.
arxiv情報
著者 | Jiefu Ou,Arda Uzunoglu,Benjamin Van Durme,Daniel Khashabi |
発行日 | 2024-07-10 15:52:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google