Code as Policies: Language Model Programs for Embodied Control

要約

コード補完でトレーニングされた大規模言語モデル (LLM) は、docstring から単純な Python プログラムを合成できることが示されています [1]。
これらのコード作成 LLM は、自然言語コマンドを指定してロボット ポリシー コードを作成するために再利用できることがわかりました。
具体的には、ポリシー コードは、知覚出力 (オブジェクト検出器 [2]、[3] など) を処理し、制御プリミティブ API をパラメータ化する関数またはフィードバック ループを表現できます。
入力としていくつかのサンプル言語コマンド (コメントとしてフォーマット) とそれに続く対応するポリシー コード (数ショット プロンプト経由) が提供されると、LLM は新しいコマンドを受け取り、自律的に API 呼び出しを再構成して新しいポリシー コードをそれぞれ生成できます。
古典的な論理構造を連鎖させ、サードパーティのライブラリ (NumPy、Shapely など) を参照して算術演算を実行することにより、この方法で使用される LLM は、(i) 空間幾何学的推論を示し、(ii) 新しい命令に一般化して、
(iii) 文脈 (すなわち、行動常識) に応じて、曖昧な説明 (「より速い」) に対して正確な値 (例: 速度) を規定する。
この論文では、コードをポリシーとして提示します。これは、リアクティブなポリシー (インピーダンス コントローラーなど) およびウェイポイント ベースのポリシー (ビジョン ベースのピック アンド プレイス、軌道ベース) を表すことができる言語モデル生成プログラム (LMP) のロボット中心の定式化です。
制御)、複数の実際のロボット プラットフォームにわたって実証されます。
私たちのアプローチの中心となるのは、階層的なコード生成 (未定義の関数を再帰的に定義する) を促すことです。これにより、より複雑なコードを作成できるようになり、HumanEval [1] ベンチマークの問題の 39.8% を解決できるように最先端の技術も向上します。
コードとビデオは https://code-as-policies.github.io で入手できます。

要約(オリジナル)

Large language models (LLMs) trained on code completion have been shown to be capable of synthesizing simple Python programs from docstrings [1]. We find that these code-writing LLMs can be re-purposed to write robot policy code, given natural language commands. Specifically, policy code can express functions or feedback loops that process perception outputs (e.g.,from object detectors [2], [3]) and parameterize control primitive APIs. When provided as input several example language commands (formatted as comments) followed by corresponding policy code (via few-shot prompting), LLMs can take in new commands and autonomously re-compose API calls to generate new policy code respectively. By chaining classic logic structures and referencing third-party libraries (e.g., NumPy, Shapely) to perform arithmetic, LLMs used in this way can write robot policies that (i) exhibit spatial-geometric reasoning, (ii) generalize to new instructions, and (iii) prescribe precise values (e.g., velocities) to ambiguous descriptions (‘faster’) depending on context (i.e., behavioral commonsense). This paper presents code as policies: a robot-centric formulation of language model generated programs (LMPs) that can represent reactive policies (e.g., impedance controllers), as well as waypoint-based policies (vision-based pick and place, trajectory-based control), demonstrated across multiple real robot platforms. Central to our approach is prompting hierarchical code-gen (recursively defining undefined functions), which can write more complex code and also improves state-of-the-art to solve 39.8% of problems on the HumanEval [1] benchmark. Code and videos are available at https://code-as-policies.github.io

arxiv情報

著者 Jacky Liang,Wenlong Huang,Fei Xia,Peng Xu,Karol Hausman,Brian Ichter,Pete Florence,Andy Zeng
発行日 2023-05-25 03:50:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク