要約
コード補完でトレーニングされた大規模言語モデル (LLM) は、docstring から単純な Python プログラムを合成できることが示されています [1]。
これらのコード記述 LLM は、自然言語コマンドが与えられた場合、ロボット ポリシー コードを記述するために再利用できることがわかりました。
具体的には、ポリシー コードは、知覚出力 (オブジェクト検出器 [2]、[3] など) を処理し、制御プリミティブ API をパラメーター化する関数またはフィードバック ループを表現できます。
入力としていくつかのサンプル言語コマンド (コメント形式) とそれに続く対応するポリシー コード (少数のプロンプトを介して) が提供されると、LLM は新しいコマンドを取り込み、自律的に API 呼び出しを再構成して、新しいポリシー コードをそれぞれ生成することができます。
従来の論理構造を連鎖させ、サードパーティ ライブラリ (NumPy、Shapely など) を参照して算術を実行することにより、この方法で使用される LLM は、(i) 空間幾何学的推論を示す、(ii) 新しい命令に一般化する、および
(iii) 文脈 (すなわち、行動の常識) に応じて、正確な値 (速度など) をあいまいな記述 (「より速く」) に規定する。
このホワイト ペーパーでは、コードをポリシーとして提示します。ロボット中心の言語モデル生成プログラム (LMP) の定式化は、リアクティブ ポリシー (インピーダンス コントローラーなど) とウェイポイント ベースのポリシー (ビジョン ベースのピック アンド プレース、トラジェクトリ ベース) を表すことができます。
コントロール)、複数の実際のロボット プラットフォームで実証されています。
私たちのアプローチの中心にあるのは、階層的なコード生成 (未定義の関数を再帰的に定義する) を促進することです。これにより、より複雑なコードを記述できるようになり、HumanEval [1] ベンチマークの問題の 39.8% を解決する最先端技術も向上します。
コードとビデオは、https://code-as-policies.github.io で入手できます。
要約(オリジナル)
Large language models (LLMs) trained on code completion have been shown to be capable of synthesizing simple Python programs from docstrings [1]. We find that these code-writing LLMs can be re-purposed to write robot policy code, given natural language commands. Specifically, policy code can express functions or feedback loops that process perception outputs (e.g.,from object detectors [2], [3]) and parameterize control primitive APIs. When provided as input several example language commands (formatted as comments) followed by corresponding policy code (via few-shot prompting), LLMs can take in new commands and autonomously re-compose API calls to generate new policy code respectively. By chaining classic logic structures and referencing third-party libraries (e.g., NumPy, Shapely) to perform arithmetic, LLMs used in this way can write robot policies that (i) exhibit spatial-geometric reasoning, (ii) generalize to new instructions, and (iii) prescribe precise values (e.g., velocities) to ambiguous descriptions (‘faster’) depending on context (i.e., behavioral commonsense). This paper presents code as policies: a robot-centric formulation of language model generated programs (LMPs) that can represent reactive policies (e.g., impedance controllers), as well as waypoint-based policies (vision-based pick and place, trajectory-based control), demonstrated across multiple real robot platforms. Central to our approach is prompting hierarchical code-gen (recursively defining undefined functions), which can write more complex code and also improves state-of-the-art to solve 39.8% of problems on the HumanEval [1] benchmark. Code and videos are available at https://code-as-policies.github.io
arxiv情報
著者 | Jacky Liang,Wenlong Huang,Fei Xia,Peng Xu,Karol Hausman,Brian Ichter,Pete Florence,Andy Zeng |
発行日 | 2023-03-01 04:02:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google