要約
視覚情報とテキスト情報の統合は、言語モデルの進歩において有望な方向性を示している。本論文では、文書画像とテキストの両方で事前訓練された自己回帰フレームワークの中で、視覚とテキストの両方の言語の二重モダリティを探求する。我々の手法はマルチモーダルな学習戦略を採用しており、回帰ヘッドによる次のパッチ予測を通じて視覚データを利用し、分類ヘッドによる次のトークン予測を通じてテキストデータを利用する。我々は、これら2つのモダリティ間の相互作用と、それらの組み合わせがモデルの性能に与える影響を理解することに重点を置いている。広範なベンチマークにおける我々の広範な評価により、ビジュアルデータとテキストデータの両方を組み込むことで、ピクセルベースの言語モデルの性能が大幅に向上することが示された。驚くべきことに、視覚データのみで訓練された一方向のピクセルベースモデルが、いくつかの言語理解タスクにおいて、最先端の双方向モデルと同等の結果を達成できることがわかった。この研究は、より効果的な言語モデリングのために、視覚的モダリティとテキスト的モダリティを統合することの未開発の可能性を明らかにするものである。私たちのコード、データ、モデルのチェックポイントは୧⃛(๑⃙⃘⁼̴̀꒳⁼̴́๑⃙⃘)୨⃛で公開しています。
要約(オリジナル)
The integration of visual and textual information represents a promising direction in the advancement of language models. In this paper, we explore the dual modality of language–both visual and textual–within an autoregressive framework, pre-trained on both document images and texts. Our method employs a multimodal training strategy, utilizing visual data through next patch prediction with a regression head and/or textual data through next token prediction with a classification head. We focus on understanding the interaction between these two modalities and their combined impact on model performance. Our extensive evaluation across a wide range of benchmarks shows that incorporating both visual and textual data significantly improves the performance of pixel-based language models. Remarkably, we find that a unidirectional pixel-based model trained solely on visual data can achieve comparable results to state-of-the-art bidirectional models on several language understanding tasks. This work uncovers the untapped potential of integrating visual and textual modalities for more effective language modeling. We release our code, data, and model checkpoints at \url{https://github.com/ernie-research/pixelgpt}.
arxiv情報
著者 | Yekun Chai,Qingyi Liu,Jingwu Xiao,Shuohuan Wang,Yu Sun,Hua Wu |
発行日 | 2024-10-03 17:46:40+00:00 |
arxivサイト | arxiv_id(pdf) |