LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence

要約

実体エージェントは現実世界と対話する必要があるため、包括的な事前知識、長期的な計画能力、迅速な応答速度を備えていることが求められます。
最近の大規模言語モデル (LLM) ベースのエージェントは有望なパフォーマンスを達成していますが、依然としていくつかの制限があります。
たとえば、LLM の出力は説明文ですが、特定のアクションを決定する際には曖昧になります。
これらの制限に対処するために、大規模自己回帰モデル (LARM) を導入します。
LARM はテキストとマルチビュー画像の両方を入力として利用し、自己回帰的な方法でその後のアクションを予測します。
LARM をトレーニングするために、自己回帰ノード送信構造と呼ばれる新しいデータ形式を開発し、対応するデータセットを組み立てます。
LARM は、2 段階のトレーニング計画を採用し、Minecraft でエンチャントされた装備を収集することに成功しました。これには、これまでの最良の方法で最高の成果を上げたものよりも、はるかに複雑な意思決定の連鎖が要求されます。
さらに、LARM の速度は 6.8 倍高速です。

要約(オリジナル)

Due to the need to interact with the real world, embodied agents are required to possess comprehensive prior knowledge, long-horizon planning capability, and a swift response speed. Despite recent large language model (LLM) based agents achieving promising performance, they still exhibit several limitations. For instance, the output of LLMs is a descriptive sentence, which is ambiguous when determining specific actions. To address these limitations, we introduce the large auto-regressive model (LARM). LARM leverages both text and multi-view images as input and predicts subsequent actions in an auto-regressive manner. To train LARM, we develop a novel data format named auto-regressive node transmission structure and assemble a corresponding dataset. Adopting a two-phase training regimen, LARM successfully harvests enchanted equipment in Minecraft, which demands significantly more complex decision-making chains than the highest achievements of prior best methods. Besides, the speed of LARM is 6.8x faster.

arxiv情報

著者 Zhuoling Li,Xiaogang Xu,Zhenhua Xu,SerNam Lim,Hengshuang Zhao
発行日 2024-05-27 17:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク