StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond

要約

テキストが豊富な画像には重要かつ広範な価値があり、人間の生活のさまざまな側面に深く組み込まれています。
特に、テキストの多い画像内の視覚的な手がかりと言語記号は両方とも情報伝達において重要な役割を果たしますが、さまざまな課題を伴います。
したがって、テキストが豊富な画像を効率的かつ効果的に理解することは、視覚言語モデルの機能を試す重要なリトマス試験紙となります。
私たちは、テキストの多い画像に対するさまざまなインテリジェントなタスクに取り組むために調整された、効率的なビジョン言語モデル StrucTexTv3 を作成しました。
StrucTexTv3 の重要な設計は、次の側面で示されています。 まず、効果的なマルチスケール縮小ビジュアル トランスフォーマーとマルチ粒度トークン サンプラー (MG-Sampler) の組み合わせをビジュアル トークン ジェネレーターとして採用し、次の課題を解決します。
高解像度の入力とテキストの多い画像の複雑な表現の学習。
次に、命令学習を通じて StrucTexTv3 の知覚と理解能力を強化し、さまざまなテキスト指向のタスクを統一フレームワークにシームレスに統合します。
第三に、付随的なシーン、オフィス文書、Web ページ、スクリーンショットなどのさまざまなシナリオを網羅する、TIM-30M と略される高品質のテキストが豊富な画像の包括的なコレクションを厳選し、それによってモデルの堅牢性が向上しました。
私たちの方法は、テキストの多い画像認識タスクで SOTA の結果を達成し、理解タスクのパフォーマンスを大幅に向上させました。
約 1.8B パラメータの LLM デコーダを備えたマルチモーダル モデルの中でリーダーとして際立っており、エッジ デバイスの導入も可能になります。
要約すると、StrucTexTv3 モデルは、効率的な構造設計、卓越したパフォーマンス、広範な適応性を特徴としており、テキストの多い画像を含む多様なインテリジェント アプリケーション タスクに対する強力なサポートを提供するため、広範なアプリケーションへの計り知れない可能性を示しています。

要約(オリジナル)

Text-rich images have significant and extensive value, deeply integrated into various aspects of human life. Notably, both visual cues and linguistic symbols in text-rich images play crucial roles in information transmission but are accompanied by diverse challenges. Therefore, the efficient and effective understanding of text-rich images is a crucial litmus test for the capability of Vision-Language Models. We have crafted an efficient vision-language model, StrucTexTv3, tailored to tackle various intelligent tasks for text-rich images. The significant design of StrucTexTv3 is presented in the following aspects: Firstly, we adopt a combination of an effective multi-scale reduced visual transformer and a multi-granularity token sampler (MG-Sampler) as a visual token generator, successfully solving the challenges of high-resolution input and complex representation learning for text-rich images. Secondly, we enhance the perception and comprehension abilities of StrucTexTv3 through instruction learning, seamlessly integrating various text-oriented tasks into a unified framework. Thirdly, we have curated a comprehensive collection of high-quality text-rich images, abbreviated as TIM-30M, encompassing diverse scenarios like incidental scenes, office documents, web pages, and screenshots, thereby improving the robustness of our model. Our method achieved SOTA results in text-rich image perception tasks, and significantly improved performance in comprehension tasks. Among multimodal models with LLM decoder of approximately 1.8B parameters, it stands out as a leader, which also makes the deployment of edge devices feasible. In summary, the StrucTexTv3 model, featuring efficient structural design, outstanding performance, and broad adaptability, offers robust support for diverse intelligent application tasks involving text-rich images, thus exhibiting immense potential for widespread application.

arxiv情報

著者 Pengyuan Lyu,Yulin Li,Hao Zhou,Weihong Ma,Xingyu Wan,Qunyi Xie,Liang Wu,Chengquan Zhang,Kun Yao,Errui Ding,Jingdong Wang
発行日 2024-05-31 16:55:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク