要約
大規模なマルチモーダルモデル(LMM)は英語で強力なパフォーマンスを実証していますが、高品質のトレーニングデータが不足しているため、日本語での有効性は限られたままです。
現在の日本のLMMは、しばしば翻訳された英語のデータセットに依存しており、日本固有の文化的知識を捉える能力を制限しています。
これに対処するために、日本のPDFデータのトレーニングリソースとしての可能性を調査します。これは、ほとんど活用されていない領域です。
レイアウト分析、OCR、およびビジョン言語ペアリングを通じてPDFから画像テキストペアを抽出するために前処理されたモデルを活用する完全に自動化されたパイプラインを導入し、手動注釈の必要性を削除します。
さらに、抽出された画像テキストペアから命令データを構築して、トレーニングデータを豊かにします。
PDF由来のデータの有効性を評価するために、日本のLMMを訓練し、日本のLMMベンチマークでのパフォーマンスを評価します。
私たちの結果は大幅な改善を示しており、パフォーマンスの向上はヘロンベンチで3.9%から13.8%の範囲です。
さらなる分析では、モデルサイズや言語モデルなどのさまざまな要因に対するPDF由来のデータが日本のLMMのマルチモーダルリソースとしての価値を強化する影響を強調しています。
ソースコードとデータを受け入れたときに公開することを計画しています。
要約(オリジナル)
Large Multimodal Models (LMMs) have demonstrated strong performance in English, but their effectiveness in Japanese remains limited due to the lack of high-quality training data. Current Japanese LMMs often rely on translated English datasets, restricting their ability to capture Japan-specific cultural knowledge. To address this, we explore the potential of Japanese PDF data as a training resource, an area that remains largely underutilized. We introduce a fully automated pipeline that leverages pretrained models to extract image-text pairs from PDFs through layout analysis, OCR, and vision-language pairing, removing the need for manual annotation. Additionally, we construct instruction data from extracted image-text pairs to enrich the training data. To evaluate the effectiveness of PDF-derived data, we train Japanese LMMs and assess their performance on the Japanese LMM Benchmark. Our results demonstrate substantial improvements, with performance gains ranging from 3.9% to 13.8% on Heron-Bench. Further analysis highlights the impact of PDF-derived data on various factors, such as model size and language models, reinforcing its value as a multimodal resource for Japanese LMMs. We plan to make the source code and data publicly available upon acceptance.
arxiv情報
著者 | Jeonghun Baek,Akiko Aizawa,Kiyoharu Aizawa |
発行日 | 2025-02-20 17:59:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google