要約
共有トークンと埋め込み空間内でテキスト、オーディオ、画像、ビデオを処理するマルチモーダル モデルのスケーリング則仮説を提案します。
私たちのフレームワークは、モダリティ固有の圧縮とトークン化の効率に基づいてモデルのパフォーマンスを予測し、確立されたスケーリング則をテキストベースのデコーダ モデルから混合モダリティ システムに拡張します。
複数のモダリティでより多くのトレーニング データを活用することでマルチモーダル モデルのサイズを削減し、リソースに制約のあるデバイスでの効率的な展開が可能になるかどうかを調査します。
要約(オリジナル)
We propose a scaling law hypothesis for multimodal models processing text, audio, images, and video within a shared token and embedding space. Our framework predicts model performance based on modality-specific compression and tokenization efficiency, extending established scaling laws from text-based decoder models to mixed-modality systems. We explore whether leveraging more training data in multiple modalities can reduce the size of the multimodal model, enabling efficient deployment on resource-constrained devices.
arxiv情報
著者 | Qingyun Sun,Zhen Guo |
発行日 | 2024-11-07 17:46:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google