Merlin:Empowering Multimodal LLMs with Foresight Minds

要約

人間は、現在の観察に基づいてある程度未来を予見する驚くべき能力を持っている。しかしながら、この能力は、既存のマルチモーダル大規模言語モデル(MLLM)においては、ほとんど未開拓のままであり、物事の動作の基本原理や観察対象の背後にある意図を学習する能力を妨げている。この問題に対処するために、我々はMLLMの既存の学習フレームワークに未来モデリングを統合することを導入する。連続するフレームシーケンスの高度に構造化された表現である被験者の軌跡を学習目標として利用することで、過去と未来のギャップを埋めることを目指す。我々は、LLMの現代的な学習パラダイムに着想を得て、MLLMに先見性を持たせるための2つの革新的な手法、先見性事前訓練(FPT)と先見性教示チューニング(FIT)を提案する。具体的には、FPTは軌跡を中心とした様々なタスクを共同で訓練し、MLLMが与えられた初期観測から軌跡全体に注目し予測する方法を学習することを可能にする。そして、FITは、MLLMにまず関連する物体の軌跡を予測させ、それに基づいて将来の潜在的な事象を推論させる。FPTとFITの助けを借りて、我々はMerlinと名付けた新規で統一的なMLLMを構築した。Merlinは複数画像の入力をサポートし、将来の推論のために複数の物体の潜在的な行動に関する分析を行う。実験の結果、Merlinは未来推論と視覚理解タスクの両方において優れた性能を示し、強力な予見能力を持つことが示された。

要約(オリジナル)

Humans possess the remarkable ability to foresee the future to a certain extent based on present observations, a skill we term as foresight minds. However, this capability remains largely under explored within existing Multimodal Large Language Models (MLLMs), hindering their capacity to learn the fundamental principles of how things operate and the intentions behind the observed subjects. To address this issue, we introduce the integration of future modeling into the existing learning frameworks of MLLMs. By utilizing the subject trajectory, a highly structured representation of a consecutive frame sequence, as a learning objective, we aim to bridge the gap between the past and the future. We propose two innovative methods to empower MLLMs with foresight minds, Foresight Pre-Training (FPT) and Foresight Instruction-Tuning (FIT), which are inspired by the modern learning paradigm of LLMs. Specifically, FPT jointly training various tasks centered on trajectories, enabling MLLMs to learn how to attend and predict entire trajectories from a given initial observation. Then, FIT requires MLLMs to first predict trajectories of related objects and then reason about potential future events based on them. Aided by FPT and FIT, we build a novel and unified MLLM named Merlin that supports multi-images input and analysis about potential actions of multiple objects for the future reasoning. Experimental results show Merlin powerful foresight minds with impressive performance on both future reasoning and visual comprehension tasks.

arxiv情報

著者 En Yu,Liang Zhao,Yana Wei,Jinrong Yang,Dongming Wu,Lingyu Kong,Haoran Wei,Tiancai Wang,Zheng Ge,Xiangyu Zhang,Wenbing Tao
発行日 2024-07-03 17:58:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク