Fully Automated Task Management for Generation, Execution, and Evaluation: A Framework for Fetch-and-Carry Tasks with Natural Language Instructions in Continuous Space

要約

この論文は、FCOG (Fetch-and-Carry with Object Grounding) タスクの自然言語命令に応じて、ロボットが視覚情報に基づいてタスクを実行できるフレームワークを開発することを目的としています。
多くのフレームワークが存在しますが、それらは通常、手動で与えられた指示文に依存しています。
したがって、評価は固定されたタスクのみで行われてきました。
さらに、ベンチマークの多くのマルチモーダル言語理解モデルは、個別のアクションのみを考慮しています。
この制限に対処するために、FCOG タスクの生成、実行、評価を完全に自動化するフレームワークを提案します。
さらに、FCOG タスクを 4 つの異なるサブタスクに分割して解決するアプローチを紹介します。

要約(オリジナル)

This paper aims to develop a framework that enables a robot to execute tasks based on visual information, in response to natural language instructions for Fetch-and-Carry with Object Grounding (FCOG) tasks. Although there have been many frameworks, they usually rely on manually given instruction sentences. Therefore, evaluations have only been conducted with fixed tasks. Furthermore, many multimodal language understanding models for the benchmarks only consider discrete actions. To address the limitations, we propose a framework for the full automation of the generation, execution, and evaluation of FCOG tasks. In addition, we introduce an approach to solving the FCOG tasks by dividing them into four distinct subtasks.

arxiv情報

著者 Motonari Kambara,Komei Sugiura
発行日 2023-11-07 15:38:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.RO パーマリンク