Distilling and Retrieving Generalizable Knowledge for Robot Manipulation via Language Corrections

要約

今日のロボット ポリシーは、新しい環境に一般化するという課題に直面すると、平均以下のパフォーマンスを示します。
人間による修正フィードバックは、このような一般化を可能にするための重要なガイダンス形式です。
ただし、オンラインでの人間による修正に適応し、そこから学習することは簡単な作業ではありません。ロボットは、新しい設定で適切な情報を取得して介入率を下げるために、人間のフィードバックを時間をかけて記憶する必要があるだけでなく、次のことができる必要があります。
人間の高レベルの好みに関する恣意的な修正からスキルパラメータの低レベルの調整まで、フィードバックに応答するため。
この研究では、任意の形式の言語フィードバックに応答し、修正から一般化可能な知識を抽出し、テキストに基づいて関連する過去の経験を取得できる大規模言語モデル (LLM) ベースのシステムであるオンライン修正の蒸留と取得 (DROC) を紹介します。
新しい設定でのパフォーマンスを向上させるための視覚的な類似性。
DROC は、高レベルのタスク プランと低レベルのスキル プリミティブの両方の失敗に対処する一連のオンライン言語修正に対応できます。
DROC がナレッジ ベース内の一連のオンライン修正から関連情報を効果的に抽出し、新しいタスクまたはオブジェクト インスタンスを使用した設定でそのナレッジを取得することを実証します。
DROC は、最初のラウンドで必要な修正の総数の半分のみを使用し、LLM 経由でロボット コードを直接生成する他の手法よりも優れたパフォーマンスを発揮し、2 回の反復後には修正をほとんどまたはまったく必要としません。
詳細な結果、ビデオ、プロンプト、コードは https://sites.google.com/stanford.edu/droc でご覧いただけます。

要約(オリジナル)

Today’s robot policies exhibit subpar performance when faced with the challenge of generalizing to novel environments. Human corrective feedback is a crucial form of guidance to enable such generalization. However, adapting to and learning from online human corrections is a non-trivial endeavor: not only do robots need to remember human feedback over time to retrieve the right information in new settings and reduce the intervention rate, but also they would need to be able to respond to feedback that can be arbitrary corrections about high-level human preferences to low-level adjustments to skill parameters. In this work, we present Distillation and Retrieval of Online Corrections (DROC), a large language model (LLM)-based system that can respond to arbitrary forms of language feedback, distill generalizable knowledge from corrections, and retrieve relevant past experiences based on textual and visual similarity for improving performance in novel settings. DROC is able to respond to a sequence of online language corrections that address failures in both high-level task plans and low-level skill primitives. We demonstrate that DROC effectively distills the relevant information from the sequence of online corrections in a knowledge base and retrieves that knowledge in settings with new task or object instances. DROC outperforms other techniques that directly generate robot code via LLMs by using only half of the total number of corrections needed in the first round and requires little to no corrections after two iterations. We show further results, videos, prompts and code on https://sites.google.com/stanford.edu/droc .

arxiv情報

著者 Lihan Zha,Yuchen Cui,Li-Heng Lin,Minae Kwon,Montserrat Gonzalez Arenas,Andy Zeng,Fei Xia,Dorsa Sadigh
発行日 2024-03-21 05:47:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク