Learning to Learn Faster from Human Feedback with Language Model Predictive Control

要約

大規模言語モデル (LLM) は、言語コマンドからロボット コードを作成するなど、幅広い機能を発揮することが示されています。これにより、専門家でなくても、ロボットの動作を指示したり、フィードバックに基づいて変更したり、新しいタスクを実行するようにロボットを構成したりすることができます。
ただし、これらの機能 (コンテキスト内学習による) は短期間のインタラクションに限定されており、ユーザーのフィードバックは LLM のコンテキスト サイズ内に収まる限り関連性があり、長期間のインタラクションでは忘れられる可能性があります。
この研究では、コンテキスト内での対話を記憶し、ロボットのコード作成 LLM を微調整して、その教えやすさ、つまりロボットが人間の入力にどれだけ効率的に適応するかを調査します (ユーザーがタスクが成功したとみなすまでの平均修正回数で測定)
)。
私たちの重要な観察は、人間とロボットのインタラクションが部分的に観察可能なマルコフ決定プロセス (人間の言語入力が観察であり、ロボット コードの出力がアクションである) として定式化される場合、以前のインタラクションを完了するために LLM をトレーニングすることは、
遷移ダイナミクス モデル — モデル予測制御 (MPC) などの古典的なロボティクス技術と組み合わせて、成功へのより短い道筋を発見できます。
これにより、言語モデル予測制御 (LMPC) が誕生しました。このフレームワークは、PaLM 2 を微調整して、ロボットの 5 つの実施形態にわたる 78 のタスクの教示可能性を向上させます。これにより、未見のタスクの非専門家による教示成功率が 26.9% 向上し、平均値が低下しました。
人間による修正の数が 2.4 から 1.9 に。
実験では、LMPC が強力なメタ学習器も生成し、まだ見ぬロボットの実施形態と API に関する新しいタスクをコンテキスト内で学習する成功率が 31.5% 向上することが示されています。
https://robot-teaching.github.io/ でビデオ、コード、デモをご覧ください。

要約(オリジナル)

Large language models (LLMs) have been shown to exhibit a wide range of capabilities, such as writing robot code from language commands — enabling non-experts to direct robot behaviors, modify them based on feedback, or compose them to perform new tasks. However, these capabilities (driven by in-context learning) are limited to short-term interactions, where users’ feedback remains relevant for only as long as it fits within the context size of the LLM, and can be forgotten over longer interactions. In this work, we investigate fine-tuning the robot code-writing LLMs, to remember their in-context interactions and improve their teachability i.e., how efficiently they adapt to human inputs (measured by average number of corrections before the user considers the task successful). Our key observation is that when human-robot interactions are formulated as a partially observable Markov decision process (in which human language inputs are observations, and robot code outputs are actions), then training an LLM to complete previous interactions can be viewed as training a transition dynamics model — that can be combined with classic robotics techniques such as model predictive control (MPC) to discover shorter paths to success. This gives rise to Language Model Predictive Control (LMPC), a framework that fine-tunes PaLM 2 to improve its teachability on 78 tasks across 5 robot embodiments — improving non-expert teaching success rates of unseen tasks by 26.9% while reducing the average number of human corrections from 2.4 to 1.9. Experiments show that LMPC also produces strong meta-learners, improving the success rate of in-context learning new tasks on unseen robot embodiments and APIs by 31.5%. See videos, code, and demos at: https://robot-teaching.github.io/.

arxiv情報

著者 Jacky Liang,Fei Xia,Wenhao Yu,Andy Zeng,Montserrat Gonzalez Arenas,Maria Attarian,Maria Bauza,Matthew Bennice,Alex Bewley,Adil Dostmohamed,Chuyuan Kelly Fu,Nimrod Gileadi,Marissa Giustina,Keerthana Gopalakrishnan,Leonard Hasenclever,Jan Humplik,Jasmine Hsu,Nikhil Joshi,Ben Jyenis,Chase Kew,Sean Kirmani,Tsang-Wei Edward Lee,Kuang-Huei Lee,Assaf Hurwitz Michaely,Joss Moore,Ken Oslund,Dushyant Rao,Allen Ren,Baruch Tabanpour,Quan Vuong,Ayzaan Wahid,Ted Xiao,Ying Xu,Vincent Zhuang,Peng Xu,Erik Frey,Ken Caluwaerts,Tingnan Zhang,Brian Ichter,Jonathan Tompson,Leila Takayama,Vincent Vanhoucke,Izhak Shafran,Maja Mataric,Dorsa Sadigh,Nicolas Heess,Kanishka Rao,Nik Stewart,Jie Tan,Carolina Parada
発行日 2024-02-18 04:16:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク