Recognition of Heat-Induced Food State Changes by Time-Series Use of Vision-Language Model for Cooking Robot

要約

調理タスクは食品の状態が大きく変化するという特徴があり、これはロボットによる調理タスクの実行における大きな課題の 1 つです。
特に、コンロを使って食材に熱を加える調理では、他の作業では見られない特殊な状態変化が多く発生するため、認識器の設計が困難になります。
本研究では、オープンボキャブラリーオブジェクトを時系列的に識別できる視覚言語モデルを用いて、ロボットの調理状態の変化を統一的に認識する手法を提案する。
実際のロボットを用いた調理における代表的な4つの状態変化のデータを収集し、提案手法の有効性を確認した。
また、条件を比較し、状態変化を認識するのに適した自然言語プロンプトの種類と画像領域についても議論しました。

要約(オリジナル)

Cooking tasks are characterized by large changes in the state of the food, which is one of the major challenges in robot execution of cooking tasks. In particular, cooking using a stove to apply heat to the foodstuff causes many special state changes that are not seen in other tasks, making it difficult to design a recognizer. In this study, we propose a unified method for recognizing changes in the cooking state of robots by using the vision-language model that can discriminate open-vocabulary objects in a time-series manner. We collected data on four typical state changes in cooking using a real robot and confirmed the effectiveness of the proposed method. We also compared the conditions and discussed the types of natural language prompts and the image regions that are suitable for recognizing the state changes.

arxiv情報

著者 Naoaki Kanazawa,Kento Kawaharazuka,Yoshiki Obinata,Kei Okada,Masayuki Inaba
発行日 2023-09-06 05:47:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク