要約
ロボットが生の状態を入力として直接受け取る大容量モデルを使用して報酬関数を学習する場合、タスクで重要なものの表現 (タスクの「機能」) と、これらの機能を組み合わせて
単一の目的。
完全な報酬関数を教えるために設計された入力から両方を一度に実行しようとすると、データに誤った相関関係を含む表現になってしまい、新しい設定に一般化できなくなります。
代わりに、私たちの最終的な目標は、人々が実際に関心を持ち、状態や行動を表すときに使用する因果的特徴をロボットが識別して分離できるようにすることです。
私たちの考えは、どの行動が似ていると考えるかをユーザーに尋ねることで、この表現に合わせることができるということです。
逆に言えば、重要な機能が 1 つでも異なれば、動作も異なります。
これにより、ロボットは、表現に入れる必要があるものとスプリアスなもの、および動作のどの側面を一緒に圧縮できるかできないかを明確にすることができます。
類似性に基づいて表現を学習するという概念は、視覚的に類似したデータ ポイントを類似の埋め込みにマッピングする自己教師あり表現学習手法である対照学習とよく似ています。類似性は、データ拡張ヒューリスティックを通じてデザイナーによって定義されます。
対照的に、人々が使用する表現を学習し、彼らの好みや目的を知るために、類似性の定義を使用します。
シミュレーションとユーザー調査では、このような類似性クエリによる学習が、完全にはほど遠いものの、自己教師ありタスク入力の代替手段よりも実際により一般化可能な表現につながることを示しています。
要約(オリジナル)
When robots learn reward functions using high capacity models that take raw state directly as input, they need to both learn a representation for what matters in the task — the task “features’ — as well as how to combine these features into a single objective. If they try to do both at once from input designed to teach the full reward function, it is easy to end up with a representation that contains spurious correlations in the data, which fails to generalize to new settings. Instead, our ultimate goal is to enable robots to identify and isolate the causal features that people actually care about and use when they represent states and behavior. Our idea is that we can tune into this representation by asking users what behaviors they consider similar: behaviors will be similar if the features that matter are similar, even if low-level behavior is different; conversely, behaviors will be different if even one of the features that matter differs. This, in turn, is what enables the robot to disambiguate between what needs to go into the representation versus what is spurious, as well as what aspects of behavior can be compressed together versus not. The notion of learning representations based on similarity has a nice parallel in contrastive learning, a self-supervised representation learning technique that maps visually similar data points to similar embeddings, where similarity is defined by a designer through data augmentation heuristics. By contrast, in order to learn the representations that people use, so we can learn their preferences and objectives, we use their definition of similarity. In simulation as well as in a user study, we show that learning through such similarity queries leads to representations that, while far from perfect, are indeed more generalizable than self-supervised and task-input alternatives.
arxiv情報
著者 | Andreea Bobu,Yi Liu,Rohin Shah,Daniel S. Brown,Anca D. Dragan |
発行日 | 2023-03-17 17:29:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google