Cook2LTL: Translating Cooking Recipes to LTL Formulae using Large Language Models

要約

料理レシピは、豊かな言語的複雑さ、時間的に拡張された相互接続されたタスク、およびほぼ無限の可能なアクションの空間を特徴とするため、ロボット計画に変換するのは困難です。
私たちの重要な洞察は、料理ドメインの知識源と、料理レシピの時間的豊かさを捉える形式主義を組み合わせることで、明確なロボット実行可能な計画の抽出が可能になる可能性があるということです。
この研究では、料理レシピの時間的性質をモデル化するのに十分な表現力を持つ形式言語として線形時相論理 (LTL) を使用します。
事前トレーニング済みの大規模言語モデル (LLM) を活用して、インターネット上で見つかった任意の料理レシピの指示ステップを一連の LTL 式に変換するシステムである Cook2LTL を紹介します。これは、高レベルの調理アクションを一連の原始的なアクションに基礎付けます。
キッチン環境のマニピュレータによって実行可能。
Cook2LTL は、実行時にクエリ可能なアクション ライブラリを動的に構築するキャッシュ スキームを利用します。
実際のシミュレーション環境 (AI2-THOR) で Cook2LTL をインスタンス化し、一連の料理レシピ全体でそのパフォーマンスを評価します。
実行時に新しく発生したアクションごとに LLM にクエリを実行するベースラインと比較して、システムが LLM API 呼び出し (-51%)、レイテンシ (-59%)、およびコスト (-42%) を大幅に削減していることを示します。

要約(オリジナル)

Cooking recipes are challenging to translate to robot plans as they feature rich linguistic complexity, temporally-extended interconnected tasks, and an almost infinite space of possible actions. Our key insight is that combining a source of cooking domain knowledge with a formalism that captures the temporal richness of cooking recipes could enable the extraction of unambiguous, robot-executable plans. In this work, we use Linear Temporal Logic (LTL) as a formal language expressive enough to model the temporal nature of cooking recipes. Leveraging a pretrained Large Language Model (LLM), we present Cook2LTL, a system that translates instruction steps from an arbitrary cooking recipe found on the internet to a set of LTL formulae, grounding high-level cooking actions to a set of primitive actions that are executable by a manipulator in a kitchen environment. Cook2LTL makes use of a caching scheme that dynamically builds a queryable action library at runtime. We instantiate Cook2LTL in a realistic simulation environment (AI2-THOR), and evaluate its performance across a series of cooking recipes. We demonstrate that our system significantly decreases LLM API calls (-51%), latency (-59%), and cost (-42%) compared to a baseline that queries the LLM for every newly encountered action at runtime.

arxiv情報

著者 Angelos Mavrogiannis,Christoforos Mavrogiannis,Yiannis Aloimonos
発行日 2024-03-07 13:00:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク