要約
家庭のキッチンなどの予測不可能な環境で複雑なタスクを完了することは、ロボット システムにとって課題です。
これらの課題には、「温かい飲み物を作って」などの人間の高レベルのコマンドを解釈したり、移動するマグカップに正確な量の水を注ぐなどのアクションを実行したりすることが含まれます。
これらの課題に対処するために、大規模言語モデル (LLM)、厳選されたナレッジ ベース、および統合フォース アンド ビジュアル フィードバック (IFVF) を組み合わせた新しいフレームワークを紹介します。
私たちのアプローチは、抽象的な命令を解釈し、長期的なタスクを実行し、さまざまな不確実性を処理します。
GPT-4 を利用してユーザーのクエリと周囲の状況を分析し、実行中に厳選された関数のデータベースにアクセスするコードを生成します。
抽象的な指示を実行可能なステップに変換します。
各ステップには、検索拡張一般化を使用してナレッジ ベースから IFVF 関連の例を取得することによってカスタム コードを生成することが含まれます。
IFVF を使用すると、ロボットは実行中のノイズや外乱に応答できます。
私たちは、コーヒーの淹れ方と皿の装飾を使用して、注ぐところから引き出しを開けるところまでのコンポーネントを含むアプローチを実証します。それぞれが、異なるフィードバックの種類と方法から恩恵を受けます。
この新たな進歩は、不確実な環境で複雑なタスクを完了するためのスケーラブルで効率的なロボット フレームワークに向けた大きな進歩を示しています。
私たちの調査結果は付属のビデオで説明されており、オープンソースの GitHub リポジトリ (論文の受理後にリリースされます) によってサポートされています。
要約(オリジナル)
Completing complex tasks in unpredictable settings like home kitchens challenges robotic systems. These challenges include interpreting high-level human commands, such as ‘make me a hot beverage’ and performing actions like pouring a precise amount of water into a moving mug. To address these challenges, we present a novel framework that combines Large Language Models (LLMs), a curated Knowledge Base, and Integrated Force and Visual Feedback (IFVF). Our approach interprets abstract instructions, performs long-horizon tasks, and handles various uncertainties. It utilises GPT-4 to analyse the user’s query and surroundings, then generates code that accesses a curated database of functions during execution. It translates abstract instructions into actionable steps. Each step involves generating custom code by employing retrieval-augmented generalisation to pull IFVF-relevant examples from the Knowledge Base. IFVF allows the robot to respond to noise and disturbances during execution. We use coffee making and plate decoration to demonstrate our approach, including components ranging from pouring to drawer opening, each benefiting from distinct feedback types and methods. This novel advancement marks significant progress toward a scalable, efficient robotic framework for completing complex tasks in uncertain environments. Our findings are illustrated in an accompanying video and supported by an open-source GitHub repository (released upon paper acceptance).
arxiv情報
著者 | Ruaridh Mon-Williams,Gen Li,Ran Long,Wenqian Du,Chris Lucas |
発行日 | 2024-06-17 05:55:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google