Chimera: Improving Generalist Model with Domain-Specific Experts

要約

大規模マルチモーダル モデル (LMM) の最近の進歩により、画像とテキストのペアのデータを増加させ、一般的なタスクで優れたパフォーマンスを達成することによるスケーリングの重要性が強調されています。
幅広いアプリケーションで有効であるにもかかわらず、ジェネラリスト モデルは主に自然画像が大半を占める Web スケールのデータセットでトレーニングされるため、広範なドメインの事前知識を必要とするドメイン固有のタスクに対する特殊な機能が犠牲になります。
さらに、特定のドメインに合わせて調整されたエキスパート モデルを直接統合することは、ジェネラリスト モデルとエキスパートの間の表現上のギャップと不均衡な最適化のため、困難です。
これらの課題に対処するために、ドメイン固有の専門家によって既存の LMM の能力を強化するように設計された、スケーラブルで低コストのマルチモーダル パイプラインである Chimera を導入します。
具体的には、エキスパート モデルの特徴をジェネラリスト LMM の入力に統合するための進歩的なトレーニング戦略を設計します。
適切に調整された汎用ビジュアル エンコーダによって引き起こされる不均衡な最適化に対処するために、新しいジェネラリストとスペシャリストのコラボレーション マスキング (GSCM) メカニズムを導入します。
これにより、チャート、表、数学、ドキュメントの各領域で優れた汎用性の高いモデルが実現し、マルチモーダル推論とビジュアル コンテンツ抽出タスクで最先端のパフォーマンスを実現します。これらのタスクはどちらも既存の LMM を評価する上で困難なタスクです。

要約(オリジナル)

Recent advancements in Large Multi-modal Models (LMMs) underscore the importance of scaling by increasing image-text paired data, achieving impressive performance on general tasks. Despite their effectiveness in broad applications, generalist models are primarily trained on web-scale datasets dominated by natural images, resulting in the sacrifice of specialized capabilities for domain-specific tasks that require extensive domain prior knowledge. Moreover, directly integrating expert models tailored for specific domains is challenging due to the representational gap and imbalanced optimization between the generalist model and experts. To address these challenges, we introduce Chimera, a scalable and low-cost multi-modal pipeline designed to boost the ability of existing LMMs with domain-specific experts. Specifically, we design a progressive training strategy to integrate features from expert models into the input of a generalist LMM. To address the imbalanced optimization caused by the well-aligned general visual encoder, we introduce a novel Generalist-Specialist Collaboration Masking (GSCM) mechanism. This results in a versatile model that excels across the chart, table, math, and document domains, achieving state-of-the-art performance on multi-modal reasoning and visual content extraction tasks, both of which are challenging tasks for assessing existing LMMs.

arxiv情報

著者 Tianshuo Peng,Mingsheng Li,Hongbin Zhou,Renqiu Xia,Renrui Zhang,Lei Bai,Song Mao,Bin Wang,Conghui He,Aojun Zhou,Botian Shi,Tao Chen,Bo Zhang,Xiangyu Yue
発行日 2025-01-10 12:28:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク