Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities

要約

マルチモーダル学習の主な課題の 1 つは、異種のモダリティ (ビデオ、オーディオ、テキストなど) を組み合わせる必要があることです。
たとえば、ビデオとオーディオはテキストよりもはるかに高速で取得され、時間的にほぼ一致しています。
これらは、タイトルや説明などのグローバル コンテキストとして提供されるテキストと同期していないことがよくあります。
さらに、ビデオとオーディオの入力ははるかに大容量であり、ビデオの長さが増加するにつれて増大するため、当然のことながら、これらのモダリティ専用により多くのコンピューティングが必要となり、長距離の依存関係のモデリングが困難になります。
ここでは、マルチモーダル モデリングを分離し、個別の焦点を絞った自己回帰モデルに分割し、モダリティの特性に従って入力を処理します。
我々は、時間同期モダリティ (オーディオとビデオ) の自己回帰コンポーネントと、必ずしも時間的に揃っているわけではないが連続しているコンテキスト モダリティの自己回帰コンポーネントで構成される、Mirasol3B と呼ばれるマルチモーダル モデルを提案します。
ビデオとオーディオ入力の長いシーケンスに対処するために、ビデオとオーディオのシーケンスを連続したスニペットにさらに分割し、それらの表現を自己回帰的に処理することを提案します。
そのために、時間枠内でオーディオとビデオの情報を一緒にモデル化する Combiner メカニズムを提案します。
Combiner は、生の時空間信号からオーディオとビデオの特徴を抽出することを学習し、次にこれらの特徴を融合して、スニペットごとにコンパクトかつ表現力豊かな表現を生成することを学習します。
私たちのアプローチは、確立されたマルチモーダルベンチマークで最先端を達成し、はるかに大規模なモデルを上回るパフォーマンスを発揮します。
これは、コンパクトな表現を学習し、オーディオビデオ特徴表現のシーケンス長を制御し、それらの依存関係を時間内にモデル化することによって、メディア入力の高い計算需要に効果的に対処します。

要約(オリジナル)

One of the main challenges of multimodal learning is the need to combine heterogeneous modalities (e.g., video, audio, text). For example, video and audio are obtained at much higher rates than text and are roughly aligned in time. They are often not synchronized with text, which comes as a global context, e.g., a title, or a description. Furthermore, video and audio inputs are of much larger volumes, and grow as the video length increases, which naturally requires more compute dedicated to these modalities and makes modeling of long-range dependencies harder. We here decouple the multimodal modeling, dividing it into separate, focused autoregressive models, processing the inputs according to the characteristics of the modalities. We propose a multimodal model, called Mirasol3B, consisting of an autoregressive component for the time-synchronized modalities (audio and video), and an autoregressive component for the context modalities which are not necessarily aligned in time but are still sequential. To address the long-sequences of the video-audio inputs, we propose to further partition the video and audio sequences in consecutive snippets and autoregressively process their representations. To that end, we propose a Combiner mechanism, which models the audio-video information jointly within a timeframe. The Combiner learns to extract audio and video features from raw spatio-temporal signals, and then learns to fuse these features producing compact but expressive representations per snippet. Our approach achieves the state-of-the-art on well established multimodal benchmarks, outperforming much larger models. It effectively addresses the high computational demand of media inputs by both learning compact representations, controlling the sequence length of the audio-video feature representations, and modeling their dependencies in time.

arxiv情報

著者 AJ Piergiovanni,Isaac Noble,Dahun Kim,Michael S. Ryoo,Victor Gomes,Anelia Angelova
発行日 2023-11-13 14:53:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク