Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models

要約

大規模な自然なシーン画像で対比訓練された視覚エンコーダーの恩恵を受けて、大規模なマルチモーダルモデル(LMM)は、さまざまな視覚的知覚タスクで顕著なパフォーマンスを達成しています。
ただし、要約された説明に対する対照学習の固有の制限は、特に幾何学的な問題解決の重要なシナリオで、綿密な推論におけるモデルの能力を根本的に制限します。
幾何学的理解を高めるために、Vision Encoderの新しいハードネガティブコントラスト学習フレームワークを提案します。これは、摂動図生成コードによって作成された生成ベースのハードネガを使用して画像ベースの造影学習を組み合わせており、修正された地理学的説明から導出されたルールベースのネガを使用してテキストベースのネガティブを使用して、キャプチャの類似性に基づいて選択された回収ベースのネガティブを使用します。
強力なネガティブ学習方法、つまりMMCLIP(マルチモーダル数学クリップ)を使用してクリップをトレーニングし、その後、幾何学的な問題解決のためにLMMを訓練します。
実験では、訓練されたモデルであるMmgeolmが、3つの幾何学的推論ベンチマークで他のオープンソースモデルを大幅に上回ることが示されています。
7Bのサイズであっても、GPT-4Oのような強力なクローズドソースモデルに匹敵することができます。
さらに、さまざまな負のサンプル構築方法の影響と、LMMの幾何学的推論パフォーマンスに対する負のサンプルの数を研究し、実りある結論をもたらします。
コードとデータセットはhttps://github.com/thu-keg/mmgeolmで入手できます。

要約(オリジナル)

Benefiting from contrastively trained visual encoders on large-scale natural scene images, Large Multimodal Models (LMMs) have achieved remarkable performance across various visual perception tasks. However, the inherent limitations of contrastive learning upon summarized descriptions fundamentally restrict the capabilities of models in meticulous reasoning, particularly in crucial scenarios of geometric problem-solving. To enhance geometric understanding, we propose a novel hard negative contrastive learning framework for the vision encoder, which combines image-based contrastive learning using generation-based hard negatives created by perturbing diagram generation code, and text-based contrastive learning using rule-based negatives derived from modified geometric descriptions and retrieval-based negatives selected based on caption similarity. We train CLIP using our strong negative learning method, namely MMCLIP (Multimodal Math CLIP), and subsequently train an LMM for geometric problem-solving. Experiments show that our trained model, MMGeoLM, significantly outperforms other open-source models on three geometric reasoning benchmarks. Even with a size of 7B, it can rival powerful closed-source models like GPT-4o. We further study the impact of different negative sample construction methods and the number of negative samples on the geometric reasoning performance of LMM, yielding fruitful conclusions. The code and dataset are available at https://github.com/THU-KEG/MMGeoLM.

arxiv情報

著者 Kai Sun,Yushi Bai,Zhen Yang,Jiajie Zhang,Ji Qi,Lei Hou,Juanzi Li
発行日 2025-05-26 15:55:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク