要約
コンテキスト内長が長いモデルをトレーニングすることは、GPU メモリと計算コストが膨大になるため、マルチモーダル モデルにとって大きな課題となります。
この探索的研究は最先端のモデルを提示していません。
むしろ、マルチモダリティ大規模言語モデル (MLLM) でコンテキスト内のテキストの長さを効率的に増やすように設計された革新的な方法が導入されています。
ビジュアルトークンを使用して長いインコンテキストテキストを処理する、Visualized In-Context Text Processing (VisInContext) を紹介します。
この手法により、トレーニング段階と推論段階の両方で GPU メモリの使用量と浮動小数点演算 (FLOP) が大幅に削減されます。
たとえば、私たちの方法では、560 億パラメータの MOE モデルに対して、ほぼ同じ FLOP で、事前トレーニングのコンテキスト内テキストの長さを 256 トークンから 2048 トークンに拡張します。
実験結果は、VisInContext でトレーニングされたモデルが、コンテキスト内の少数ショット評価の一般的なダウンストリーム ベンチマークで優れたパフォーマンスを提供することを示しています。
さらに、VisInContext は、コンテキスト内テキストの長さを増やすための既存の方法を補完し、文書理解機能を強化し、文書 QA タスクや逐次文書検索において大きな可能性を示します。
要約(オリジナル)
Training models with longer in-context lengths is a significant challenge for multimodal model due to substantial GPU memory and computational costs. This exploratory study does not present state-of-the-art models; rather, it introduces an innovative method designed to increase in-context text length in multi-modality large language models (MLLMs) efficiently. We present Visualized In-Context Text Processing (VisInContext), which processes long in-context text using visual tokens. This technique significantly reduces GPU memory usage and floating point operations (FLOPs) for both training and inferenceing stage. For instance, our method expands the pre-training in-context text length from 256 to 2048 tokens with nearly same FLOPs for a 56 billion parameter MOE model. Experimental results demonstrate that model trained with VisInContext delivers superior performance on common downstream benchmarks for in-context few-shot evaluation. Additionally, VisInContext is complementary to existing methods for increasing in-context text length and enhances document understanding capabilities, showing great potential in document QA tasks and sequential document retrieval.
arxiv情報
著者 | Alex Jinpeng Wang,Linjie Li,Yiqi Lin,Min Li,Lijuan Wang,Mike Zheng Shou |
発行日 | 2024-06-04 17:59:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google