Grounded Decoding: Guiding Text Generation with Grounded Models for Embodied Agents

要約

大規模言語モデル (LLM) の最近の進歩により、自己回帰モデルを使用した事前トレーニングを通じてインターネット規模の知識を学習して活用できることが実証されました。
残念ながら、このようなモデルをロボットなどの身体化されたエージェントがいる環境に適用することは、エージェントには物理世界に関する経験が不足していること、非言語の観察を解析できないこと、ロボットが必要とする可能性のある報酬や安全上の制約を知らないため、困難です。
一方、インタラクション データから学習する言語条件付きロボット ポリシーは、エージェントが現実世界に正しく位置することを可能にする必要な基盤を提供できますが、そのようなポリシーは、
トレーニングに利用できるインタラクション データの範囲は限られています。
したがって、言語モデルの意味知識を身体化された環境に置きながら利用したい場合は、言語モデルに従って可能性が高く、環境の根拠に基づいたモデルに従って実現可能なアクション シーケンスを構築する必要があります。

これを確率的フィルタリングに似た問題として組み立てます。つまり、言語モデルの下で高い確率を持ち、一連の根拠のあるモデル目標の下で高い確率を持つシーケンスをデコードします。
我々は、このような根拠のあるモデルが 3 つのシミュレーション領域と現実世界の領域にわたってどのように取得できるかを実証し、提案された復号化戦略が両方のモデルの知識を活用することで、ロボット環境における複雑で長期的な実施タスクを解決できることを実証します。
プロジェクトの Web サイトは、grounded-decoding.github.io にあります。

要約(オリジナル)

Recent progress in large language models (LLMs) has demonstrated the ability to learn and leverage Internet-scale knowledge through pre-training with autoregressive models. Unfortunately, applying such models to settings with embodied agents, such as robots, is challenging due to their lack of experience with the physical world, inability to parse non-language observations, and ignorance of rewards or safety constraints that robots may require. On the other hand, language-conditioned robotic policies that learn from interaction data can provide the necessary grounding that allows the agent to be correctly situated in the real world, but such policies are limited by the lack of high-level semantic understanding due to the limited breadth of the interaction data available for training them. Thus, if we want to make use of the semantic knowledge in a language model while still situating it in an embodied setting, we must construct an action sequence that is both likely according to the language model and also realizable according to grounded models of the environment. We frame this as a problem similar to probabilistic filtering: decode a sequence that both has high probability under the language model and high probability under a set of grounded model objectives. We demonstrate how such grounded models can be obtained across three simulation and real-world domains, and that the proposed decoding strategy is able to solve complex, long-horizon embodiment tasks in a robotic setting by leveraging the knowledge of both models. The project’s website can be found at grounded-decoding.github.io.

arxiv情報

著者 Wenlong Huang,Fei Xia,Dhruv Shah,Danny Driess,Andy Zeng,Yao Lu,Pete Florence,Igor Mordatch,Sergey Levine,Karol Hausman,Brian Ichter
発行日 2023-12-11 20:58:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO パーマリンク