InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions

要約

人間の認知と同様に、長期間にわたって環境と対話できる AI システムを作成することは、長年の研究目標でした。
マルチモーダル大規模言語モデル (MLLM) の最近の進歩により、オープンワールドの理解は大幅に進歩しました。
しかし、継続的かつ同時のストリーミングの知覚、記憶、推論という課題は、ほとんど解明されていないままです。
現在の MLLM は、シーケンス間のアーキテクチャによって制約を受けており、入力を処理し、応答を同時に生成する能力が制限されており、知覚しながら考えることができないのと同じです。
さらに、履歴データを保存するために長いコンテキストに依存することは、すべての情報を保持するとコストがかかり非効率になるため、長期的な対話には非現実的です。
したがって、このプロジェクトは、すべての機能を実行するために単一の基盤モデルに依存するのではなく、Specialized Generalist AI の概念からインスピレーションを得て、絡み合っていないストリーミングの知覚、推論、記憶メカニズムを導入し、ストリーミング ビデオおよびオーディオ入力とのリアルタイムの対話を可能にします。

提案されたフレームワーク InternLM-XComposer2.5-OmniLive (IXC2.5-OL) は、3 つの主要なモジュールで構成されています。 (1) ストリーミング認識モジュール: マルチモーダル情報をリアルタイムで処理し、主要な詳細をメモリに保存し、ユーザーに応答して推論をトリガーします。
クエリ。
(2) マルチモーダル長期記憶モジュール: 短期記憶と長期記憶を統合し、短期記憶を長期記憶に圧縮して効率的な検索と精度の向上を実現します。
(3) 推論モジュール: クエリに応答し、知覚および記憶モジュールと連携して推論タスクを実行します。
このプロジェクトは人間のような認知をシミュレートし、マルチモーダルな大規模言語モデルが長期にわたって継続的かつ適応的なサービスを提供できるようにします。

要約(オリジナル)

Creating AI systems that can interact with environments over long periods, similar to human cognition, has been a longstanding research goal. Recent advancements in multimodal large language models (MLLMs) have made significant strides in open-world understanding. However, the challenge of continuous and simultaneous streaming perception, memory, and reasoning remains largely unexplored. Current MLLMs are constrained by their sequence-to-sequence architecture, which limits their ability to process inputs and generate responses simultaneously, akin to being unable to think while perceiving. Furthermore, relying on long contexts to store historical data is impractical for long-term interactions, as retaining all information becomes costly and inefficient. Therefore, rather than relying on a single foundation model to perform all functions, this project draws inspiration from the concept of the Specialized Generalist AI and introduces disentangled streaming perception, reasoning, and memory mechanisms, enabling real-time interaction with streaming video and audio input. The proposed framework InternLM-XComposer2.5-OmniLive (IXC2.5-OL) consists of three key modules: (1) Streaming Perception Module: Processes multimodal information in real-time, storing key details in memory and triggering reasoning in response to user queries. (2) Multi-modal Long Memory Module: Integrates short-term and long-term memory, compressing short-term memories into long-term ones for efficient retrieval and improved accuracy. (3) Reasoning Module: Responds to queries and executes reasoning tasks, coordinating with the perception and memory modules. This project simulates human-like cognition, enabling multimodal large language models to provide continuous and adaptive service over time.

arxiv情報

著者 Pan Zhang,Xiaoyi Dong,Yuhang Cao,Yuhang Zang,Rui Qian,Xilin Wei,Lin Chen,Yifei Li,Junbo Niu,Shuangrui Ding,Qipeng Guo,Haodong Duan,Xin Chen,Han Lv,Zheng Nie,Min Zhang,Bin Wang,Wenwei Zhang,Xinyue Zhang,Jiaye Ge,Wei Li,Jingwen Li,Zhongying Tu,Conghui He,Xingcheng Zhang,Kai Chen,Yu Qiao,Dahua Lin,Jiaqi Wang
発行日 2024-12-12 18:58:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク