Prompter: Utilizing Large Language Model Prompting for a Data Efficient Embodied Instruction Following

要約

身体的命令追従(EIF)は、自然言語命令で記述された長期的なタスクを達成するために、自律移動操作ロボットをどのように制御すべきかを研究します。
EIF に関する研究の多くはシミュレータで行われていますが、この分野の最終的な目標はエージェントを現実に展開することです。
これが、最近の手法がモデルのエンドツーエンドのトレーニングから離れ、高価な専門家の操作データを必要としないモジュール型のアプローチを採用している理由の 1 つです。
ただし、EIF へのモジュールのアイデアのインポートはまだ初期段階にあるため、EIF タスクに有効なモジュールの探索はまだ結論からはほど遠いです。
このペーパーでは、2 つの外部ソースから得た知識を使用してモジュール設計を拡張することを提案します。
まず、配備されたロボットの物理的制約をモジュール設計に組み込むことが非常に効果的であることを示します。
また、当社の設計により、最小限の変更で同じモジュラー システムが異なる構成のロボット間で動作できるようになります。
次に、ランドマークベースのオブジェクト検索は、以前は専用のデータセットを必要とするトレーニング済みモデルによって実装されていましたが、ランドマークとオブジェクトの関係について事前トレーニング済みの大規模言語モデルを促す実装に置き換えることができ、専用のトレーニングを収集する必要がなくなることを示します。
データ。
私たちが提案したプロンプターは、高レベル命令のみとステップバイステップ命令を使用した ALFRED ベンチマークでそれぞれ 41.53\% と 45.32\% を達成し、以前の最新技術を 5.46\% と 9.91\% 大幅に上回りました。

要約(オリジナル)

Embodied Instruction Following (EIF) studies how autonomous mobile manipulation robots should be controlled to accomplish long-horizon tasks described by natural language instructions. While much research on EIF is conducted in simulators, the ultimate goal of the field is to deploy the agents in real life. This is one of the reasons why recent methods have moved away from training models end-to-end and take modular approaches, which do not need the costly expert operation data. However, as it is still in the early days of importing modular ideas to EIF, a search for modules effective in the EIF task is still far from a conclusion. In this paper, we propose to extend the modular design using knowledge obtained from two external sources. First, we show that embedding the physical constraints of the deployed robots into the module design is highly effective. Our design also allows the same modular system to work across robots of different configurations with minimal modifications. Second, we show that the landmark-based object search, previously implemented by a trained model requiring a dedicated set of data, can be replaced by an implementation that prompts pretrained large language models for landmark-object relationships, eliminating the need for collecting dedicated training data. Our proposed Prompter achieves 41.53\% and 45.32\% on the ALFRED benchmark with high-level instructions only and step-by-step instructions, respectively, significantly outperforming the previous state of the art by 5.46\% and 9.91\%.

arxiv情報

著者 Yuki Inoue,Hiroki Ohashi
発行日 2024-03-12 09:01:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク