MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in 3D World

要約

人間は、3D 世界を積極的に探索し、対話しながら、多感覚の手がかりを組み合わせて増殖する能力を持っています。
しかし、現在のマルチモーダル大規模言語モデルは、感覚データを入力として受動的に吸収し、3D 環境内のオブジェクトと能動的に対話し、それらの多感覚情報を動的に収集する能力に欠けています。
この分野の研究を開始するために、我々は、視覚、聴覚、触覚、熱情報を含む多感覚インタラクティブデータを大規模言語モデルに組み込むことができる、多感覚を具体化した大規模言語モデルであるMultiPLYを提案します。
そして知覚します。
この目的を達成するために、私たちはまず、LLM を利用した身体化エージェントを 3D 環境と連携させることで展開することにより、500,000 データからなる大規模な多感覚インタラクション データセットである Multisensory Universe を収集します。
このような生成されたデータに対して事前トレーニングされた LLM を使用して命令チューニングを実行するには、まず 3D シーンを抽象化されたオブジェクト中心の表現としてエンコードし、次に、具体化されたエージェントが環境内で特定のアクションを取ることを示すアクション トークンと、それを表す状態トークンを導入します。
各タイムステップでのエージェントの多感覚状態の観察。
推論時間中に、MultiPLY はアクション トークンを生成し、環境内でアクションを実行し、次の多感覚状態の観察を取得するようにエージェントに指示します。
その後、観察結果は状態トークンを介して LLM に追加され、後続のテキスト トークンまたはアクション トークンが生成されます。
私たちは、オブジェクトの検索、ツールの使用、多感覚キャプション、およびタスクの分解を含むさまざまな具体化されたタスクを通じて、MultiPLY がベースラインを大幅に上回るパフォーマンスを示すことを実証します。

要約(オリジナル)

Human beings possess the capability to multiply a melange of multisensory cues while actively exploring and interacting with the 3D world. Current multi-modal large language models, however, passively absorb sensory data as inputs, lacking the capacity to actively interact with the objects in the 3D environment and dynamically collect their multisensory information. To usher in the study of this area, we propose MultiPLY, a multisensory embodied large language model that could incorporate multisensory interactive data, including visual, audio, tactile, and thermal information into large language models, thereby establishing the correlation among words, actions, and percepts. To this end, we first collect Multisensory Universe, a large-scale multisensory interaction dataset comprising 500k data by deploying an LLM-powered embodied agent to engage with the 3D environment. To perform instruction tuning with pre-trained LLM on such generated data, we first encode the 3D scene as abstracted object-centric representations and then introduce action tokens denoting that the embodied agent takes certain actions within the environment, as well as state tokens that represent the multisensory state observations of the agent at each time step. In the inference time, MultiPLY could generate action tokens, instructing the agent to take the action in the environment and obtain the next multisensory state observation. The observation is then appended back to the LLM via state tokens to generate subsequent text or action tokens. We demonstrate that MultiPLY outperforms baselines by a large margin through a diverse set of embodied tasks involving object retrieval, tool use, multisensory captioning, and task decomposition.

arxiv情報

著者 Yining Hong,Zishuo Zheng,Peihao Chen,Yian Wang,Junyan Li,Chuang Gan
発行日 2024-01-16 18:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO パーマリンク