要約
GPT-4O様の大型マルチモーダルモデル(LMMS)の出現により、テキスト、ビジョン、音声モダリティの統合の調査が発生し、より柔軟なマルチモーダル相互作用がサポートされています。
既存のLMMは通常、シーケンスディメンションに沿ったモダリティの表現を連結し、それらを大きな言語モデル(LLM)バックボーンに供給します。
シーケンスデジメンションの連結は、モダリティ統合のために簡単ですが、多くの場合、モダリティアライメントを学習するために大規模なデータに大きく依存しています。
この論文では、モダリティ間の関係をより意図的にモデル化することを目指しており、それにより、より効率的で柔軟なモダリティアラインメントを達成することを目指しています。
この目的のために、効率的なモダリティアラインメントを備えた大規模な言語ビジョンスピーチモデルであるStream-Omniを提案します。これは、さまざまなモダリティの組み合わせの下での相互作用を同時にサポートできます。
Stream-OmniはLLMをバックボーンとして採用し、その関係に基づいてビジョンとスピーチをテキストに合わせます。
テキストを意味的に補完するビジョンについては、Stream-Omniはシーケンスディメンションの連結を使用して、ビジョンテキストアライメントを実現します。
テキストと意味的に一致するスピーチの場合、Stream-OmniはCTCベースのレイヤーダメンションマッピングを導入して、音声テキストアライメントを実現します。
このようにして、Stream-Omniは、より少ないデータ(特に音声)でモダリティアラインメントを実現し、他のモダリティへのテキスト機能の転送を可能にします。
さまざまなベンチマークでの実験は、Stream-Omniが視覚的理解、音声相互作用、視覚接地の音声相互作用タスクに関する強力なパフォーマンスを達成することを示しています。
レイヤー次元マッピングにより、Stream-Omniは、音声相互作用中に中間テキスト出力(ASR転写やモデル応答など)を同時に提供し、ユーザーに包括的なマルチモーダルエクスペリエンスを提供できます。
要約(オリジナル)
The emergence of GPT-4o-like large multimodal models (LMMs) has raised the exploration of integrating text, vision, and speech modalities to support more flexible multimodal interaction. Existing LMMs typically concatenate representation of modalities along the sequence dimension and feed them into a large language model (LLM) backbone. While sequence-dimension concatenation is straightforward for modality integration, it often relies heavily on large-scale data to learn modality alignments. In this paper, we aim to model the relationships between modalities more purposefully, thereby achieving more efficient and flexible modality alignments. To this end, we propose Stream-Omni, a large language-vision-speech model with efficient modality alignments, which can simultaneously support interactions under various modality combinations. Stream-Omni employs LLM as the backbone and aligns the vision and speech to the text based on their relationships. For vision that is semantically complementary to text, Stream-Omni uses sequence-dimension concatenation to achieve vision-text alignment. For speech that is semantically consistent with text, Stream-Omni introduces a CTC-based layer-dimension mapping to achieve speech-text alignment. In this way, Stream-Omni can achieve modality alignments with less data (especially speech), enabling the transfer of text capabilities to other modalities. Experiments on various benchmarks demonstrate that Stream-Omni achieves strong performance on visual understanding, speech interaction, and vision-grounded speech interaction tasks. Owing to the layer-dimensional mapping, Stream-Omni can simultaneously provide intermediate text outputs (such as ASR transcriptions and model responses) during speech interaction, offering users a comprehensive multimodal experience.
arxiv情報
著者 | Shaolei Zhang,Shoutao Guo,Qingkai Fang,Yan Zhou,Yang Feng |
発行日 | 2025-06-16 16:06:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google