要約
自然言語を使用して模倣学習のための状態抽象化を設計するためのフレームワークについて説明します。
高次元の観察空間における一般化可能なポリシー学習は、適切に設計された状態表現によって促進され、環境の重要な特徴を表面化し、無関係な特徴を隠すことができます。
これらの状態表現は通常、手動で指定されるか、他の労働集約的なラベル付け手順から派生されます。
私たちの手法である LGA (言語誘導抽象化) は、自然言語の監視と言語モデル (LM) からの背景知識の組み合わせを使用して、目に見えないタスクに合わせた状態表現を自動的に構築します。
LGA では、ユーザーはまず、自然言語でターゲット タスクの (おそらく不完全な) 説明を提供します。
次に、事前トレーニングされた LM が、このタスクの説明を、無関係な機能をマスクする状態抽象化関数に変換します。
最後に、少数のデモンストレーションと LGA によって生成された抽象状態を使用して、模倣ポリシーがトレーニングされます。
シミュレートされたロボット タスクの実験では、LGA が人間によって設計されたものと同様の状態抽象化を、ほんのわずかな時間で生成できること、およびこれらの抽象化により、偽の相関や曖昧な仕様が存在する場合の一般化と堅牢性が向上することが示されています。
Spot ロボットを使用したモバイル操作タスクにおける学習された抽象化の有用性を説明します。
要約(オリジナル)
We describe a framework for using natural language to design state abstractions for imitation learning. Generalizable policy learning in high-dimensional observation spaces is facilitated by well-designed state representations, which can surface important features of an environment and hide irrelevant ones. These state representations are typically manually specified, or derived from other labor-intensive labeling procedures. Our method, LGA (language-guided abstraction), uses a combination of natural language supervision and background knowledge from language models (LMs) to automatically build state representations tailored to unseen tasks. In LGA, a user first provides a (possibly incomplete) description of a target task in natural language; next, a pre-trained LM translates this task description into a state abstraction function that masks out irrelevant features; finally, an imitation policy is trained using a small number of demonstrations and LGA-generated abstract states. Experiments on simulated robotic tasks show that LGA yields state abstractions similar to those designed by humans, but in a fraction of the time, and that these abstractions improve generalization and robustness in the presence of spurious correlations and ambiguous specifications. We illustrate the utility of the learned abstractions on mobile manipulation tasks with a Spot robot.
arxiv情報
著者 | Andi Peng,Ilia Sucholutsky,Belinda Z. Li,Theodore R. Sumers,Thomas L. Griffiths,Jacob Andreas,Julie A. Shah |
発行日 | 2024-02-28 23:57:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google