Preference-Conditioned Language-Guided Abstraction

要約

実演から学習することは、ユーザーがロボットに教える一般的な方法であるが、偽の特徴相関が生じやすい。最近の研究では、より一般化可能な学習を行う方法として、言語から状態の抽象化、すなわちタスクに関連する特徴を含む視覚表現を構築している。しかし、このような抽象化は、タスクにおいて何が重要であるかというユーザの嗜好にも依存し、言語だけでは記述することが困難であったり、網羅的に指定することが不可能であったりする。このような潜在的な嗜好を捉えるために、どのように抽象化を構築すればよいのだろうか。私たちは、人間がどのように行動するかによって、世界をどのように見ているかが明らかになることを観察している。我々の重要な洞察は、人間の行動の変化から、人間がどのように世界を見るかについての選好、すなわち状態の抽象化に違いがあることを知ることができるということである。本研究では、言語モデル(LM)を用いることで、行動に変化が起きたという知識があれば、その嗜好を直接問い合わせることを提案する。第一に、タスクのテキスト記述と状態間の行動変化に関する知識が与えられた場合、LMに隠された嗜好の可能性を問い合わせる。このフレームワークでは、LMの推定値が不確かな場合、LMは人間に直接質問することもできる。我々は、このフレームワークが効果的な嗜好条件付き抽象化を構築できることを、模擬実験、ユーザ調査、および移動操作タスクを実行する実際のSpotロボットを用いて実証する。

要約(オリジナル)

Learning from demonstrations is a common way for users to teach robots, but it is prone to spurious feature correlations. Recent work constructs state abstractions, i.e. visual representations containing task-relevant features, from language as a way to perform more generalizable learning. However, these abstractions also depend on a user’s preference for what matters in a task, which may be hard to describe or infeasible to exhaustively specify using language alone. How do we construct abstractions to capture these latent preferences? We observe that how humans behave reveals how they see the world. Our key insight is that changes in human behavior inform us that there are differences in preferences for how humans see the world, i.e. their state abstractions. In this work, we propose using language models (LMs) to query for those preferences directly given knowledge that a change in behavior has occurred. In our framework, we use the LM in two ways: first, given a text description of the task and knowledge of behavioral change between states, we query the LM for possible hidden preferences; second, given the most likely preference, we query the LM to construct the state abstraction. In this framework, the LM is also able to ask the human directly when uncertain about its own estimate. We demonstrate our framework’s ability to construct effective preference-conditioned abstractions in simulated experiments, a user study, as well as on a real Spot robot performing mobile manipulation tasks.

arxiv情報

著者 Andi Peng,Andreea Bobu,Belinda Z. Li,Theodore R. Sumers,Ilia Sucholutsky,Nishanth Kumar,Thomas L. Griffiths,Julie A. Shah
発行日 2024-02-05 15:12:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク