要約
私たちは、事前トレーニングされた大規模言語モデル (LLM) が、確率的文脈自由文法 (PCFG) によって手続き的に生成された任意のトークンから、抽象推論コーパス (ARC) にあるより豊富な空間パターンに至るまで、複雑なトークン シーケンスを自己回帰的に完成させることができることを観察しました。
)、ASCII アートのスタイルでプロンプトが表示される一般的な AI ベンチマーク。
驚くべきことに、パターン補完の習熟度は、語彙からランダムにサンプリングされたトークンを使用してシーケンスが表現される場合でも、部分的に保持することができます。
これらの結果は、追加のトレーニングを行わなくても、LLM がコンテキスト内学習によって駆動される一般的なシーケンス モデラーとして機能できることを示唆しています。
この研究では、これらのゼロショット機能が、単純な動作を完了するための時間の経過に伴う状態を表す数列の外挿から、報酬条件付き軌道の最小から最大までのプロンプトに至るまで、ロボット工学の問題にどのように適用されるかを調査します。
閉ループ ポリシー (CartPole の安定化コントローラーなど) を検出して表現します。
レイテンシ、コンテキスト サイズの制限、および計算コストのせいで、今日実際のシステムに導入することは困難ですが、LLM を使用して低レベルの制御を推進するアプローチは、単語間のパターンがどのようにアクションに転送されるかについて興味深い洞察を提供する可能性があります。
要約(オリジナル)
We observe that pre-trained large language models (LLMs) are capable of autoregressively completing complex token sequences — from arbitrary ones procedurally generated by probabilistic context-free grammars (PCFG), to more rich spatial patterns found in the Abstract Reasoning Corpus (ARC), a general AI benchmark, prompted in the style of ASCII art. Surprisingly, pattern completion proficiency can be partially retained even when the sequences are expressed using tokens randomly sampled from the vocabulary. These results suggest that without any additional training, LLMs can serve as general sequence modelers, driven by in-context learning. In this work, we investigate how these zero-shot capabilities may be applied to problems in robotics — from extrapolating sequences of numbers that represent states over time to complete simple motions, to least-to-most prompting of reward-conditioned trajectories that can discover and represent closed-loop policies (e.g., a stabilizing controller for CartPole). While difficult to deploy today for real systems due to latency, context size limitations, and compute costs, the approach of using LLMs to drive low-level control may provide an exciting glimpse into how the patterns among words could be transferred to actions.
arxiv情報
著者 | Suvir Mirchandani,Fei Xia,Pete Florence,Brian Ichter,Danny Driess,Montserrat Gonzalez Arenas,Kanishka Rao,Dorsa Sadigh,Andy Zeng |
発行日 | 2023-07-10 17:32:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google