SAS-Prompt: Large Language Models as Numerical Optimizers for Robot Self-Improvement

要約

ロボットポリシーの反復的自己改善を実行する大規模な言語モデル(LLM)の能力を実証します。
このペーパーの重要な洞察は、LLMが(確率的)数値最適化を実行する能力を組み込んでおり、このプロパティを説明可能なロボットポリシー検索のために活用できることです。
この洞察に基づいて、SASプロンプト(要約、分析、合成)を紹介します。これは、新しい目に見えない動作を合成するために以前のロボットトレースを取得、推論、最適化するLLMの能力を組み合わせることにより、ロボット行動の反復学習と適応を可能にする単一のプロンプトです。
私たちのアプローチは、LLM内で完全に実装されている説明可能なポリシー検索方法の新しいファミリーの初期の例と見なすことができます。
シミュレーションとレアルロボット卓球タスクの両方でアプローチを評価します。
プロジェクトWebサイト:sites.google.com/asu.edu/sas-llm/

要約(オリジナル)

We demonstrate the ability of large language models (LLMs) to perform iterative self-improvement of robot policies. An important insight of this paper is that LLMs have a built-in ability to perform (stochastic) numerical optimization and that this property can be leveraged for explainable robot policy search. Based on this insight, we introduce the SAS Prompt (Summarize, Analyze, Synthesize) — a single prompt that enables iterative learning and adaptation of robot behavior by combining the LLM’s ability to retrieve, reason and optimize over previous robot traces in order to synthesize new, unseen behavior. Our approach can be regarded as an early example of a new family of explainable policy search methods that are entirely implemented within an LLM. We evaluate our approach both in simulation and on a real-robot table tennis task. Project website: sites.google.com/asu.edu/sas-llm/

arxiv情報

著者 Heni Ben Amor,Laura Graesser,Atil Iscen,David D’Ambrosio,Saminda Abeyruwan,Alex Bewley,Yifan Zhou,Kamalesh Kalirathinam,Swaroop Mishra,Pannag Sanketi
発行日 2025-04-29 06:39:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク