Cooking Task Planning using LLM and Verified by Graph Network

要約

調理作業は、複雑さのためにロボット工学にとって挑戦的な問題のままです。
料理のビデオは、このようなタスクの貴重な情報源ですが、このデータをロボット環境に変換する方法という点で多くの変動性を紹介します。
この研究の目的は、大規模な言語モデル(LLM)ベースのタスクおよびモーションプランニング(TAMP)フレームワークを使用して、字幕付きのビデオから調理タスクプランを自律的に生成し、実行することにより、タスク計画の生成ステップに焦点を当て、このプロセスを合理化することを目的としています。
従来のLLMベースのタスク計画方法は、ビデオの不確実性とその出力の幻覚のリスクにより、調理ビデオデータを解釈するのに適していません。
これらの問題の両方に対処するために、機能的なオブジェクト指向ネットワーク(FOON)と組み合わせてLLMを使用して、計画を検証し、障害の場合にフィードバックを提供します。
この組み合わせは、ロボットによって論理的に正しく、実行可能な操作モーションを使用してタスクシーケンスを生成できます。
デュアルアームロボットセットアップのいくつかのショットLLMのみのアプローチによって生成された計画に対して、私たちのアプローチから5つの調理レシピの生成された計画の実行を比較します。
私たちのアプローチによって生成された4つの計画を正常に実行することができますが、LLMのみを使用して生成された計画の1つだけが実行される可能性があります。

要約(オリジナル)

Cooking tasks remain a challenging problem for robotics due to their complexity. Videos of people cooking are a valuable source of information for such task, but introduces a lot of variability in terms of how to translate this data to a robotic environment. This research aims to streamline this process, focusing on the task plan generation step, by using a Large Language Model (LLM)-based Task and Motion Planning (TAMP) framework to autonomously generate cooking task plans from videos with subtitles, and execute them. Conventional LLM-based task planning methods are not well-suited for interpreting the cooking video data due to uncertainty in the videos, and the risk of hallucination in its output. To address both of these problems, we explore using LLMs in combination with Functional Object-Oriented Networks (FOON), to validate the plan and provide feedback in case of failure. This combination can generate task sequences with manipulation motions that are logically correct and executable by a robot. We compare the execution of the generated plans for 5 cooking recipes from our approach against the plans generated by a few-shot LLM-only approach for a dual-arm robot setup. It could successfully execute 4 of the plans generated by our approach, whereas only 1 of the plans generated by solely using the LLM could be executed.

arxiv情報

著者 Ryunosuke Takebayashi,Vitor Hideyo Isume,Takuya Kiyokawa,Weiwei Wan,Kensuke Harada
発行日 2025-03-27 14:47:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク