Chain of Correction for Full-text Speech Recognition with Large Language Models

要約

自動音声認識(ASR)のための大規模な言語モデル(LLMS)とのフルテキストエラー補正は、長いコンテキストでエラーを修正し、句読点の回復や逆テキスト正規化など、より広範なエラータイプに対処する可能性があるため、注目を集めています。
それにもかかわらず、安定性、制御可能性、完全性、流encyに関連する問題など、多くの課題が続きます。
これらの課題を軽減するために、このペーパーでは、LLMSとのフルテキストエラー補正のための補正チェーン(COC)を提案します。これは、通常のマルチターンチャット形式のガイダンスとして事前認識テキストを使用してセグメントごとにエラーセグメントを修正します。
また、COCはコンテキストに事前に認識された全文を使用して、モデルがグローバルなセマンティクスをよりよく把握し、コンテンツ全体の包括的な概要を維持できるようにします。
オープンソースのフルテキストエラー修正データセットCHFTを利用して、事前に訓練されたLLMを微調整して、COCフレームワークのパフォーマンスを評価します。
実験結果は、COCがフルテキストASR出力のエラーを効果的に修正し、ベースラインおよびベンチマークシステムを大幅に上回ることを示しています。
さらに、補正のしきい値を設定して、過補正と過剰補給のバランスをとり、COCモデルを非常に長いASR出力で外挿し、他の種類の情報を使用してエラー修正プロセスを導くことができるかどうかを調査する方法を分析します。

要約(オリジナル)

Full-text error correction with Large Language Models (LLMs) for Automatic Speech Recognition (ASR) has gained increased attention due to its potential to correct errors across long contexts and address a broader spectrum of error types, including punctuation restoration and inverse text normalization. Nevertheless, many challenges persist, including issues related to stability, controllability, completeness, and fluency. To mitigate these challenges, this paper proposes the Chain of Correction (CoC) for full-text error correction with LLMs, which corrects errors segment by segment using pre-recognized text as guidance within a regular multi-turn chat format. The CoC also uses pre-recognized full text for context, allowing the model to better grasp global semantics and maintain a comprehensive overview of the entire content. Utilizing the open-sourced full-text error correction dataset ChFT, we fine-tune a pre-trained LLM to evaluate the performance of the CoC framework. Experimental results demonstrate that the CoC effectively corrects errors in full-text ASR outputs, significantly outperforming baseline and benchmark systems. We further analyze how to set the correction threshold to balance under-correction and over-rephrasing, extrapolate the CoC model on extremely long ASR outputs, and investigate whether other types of information can be employed to guide the error correction process.

arxiv情報

著者 Zhiyuan Tang,Dong Wang,Zhikai Zhou,Yong Liu,Shen Huang,Shidong Shang
発行日 2025-04-02 09:06:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS | Chain of Correction for Full-text Speech Recognition with Large Language Models はコメントを受け付けていません

Redefining technology for indigenous languages

要約

この論文では、先住民族の言語の概要を説明し、その切り下げの原因と言語権に関する法律の必要性を特定します。
これらの言語を活性化するために使用されるテクノロジーをレビューし、外から来たときに、彼らが求めるものとは逆の効果があることが多いことを発見します。
しかし、コミュニティ内から開発されると、それらは強力な表現手段になります。
大規模な言語モデル(LLM)に先住民の知識を含めることは、技術的景観を豊かにするが、知識の交換を促進する参加型環境で行わなければならないことを提案します。

要約(オリジナル)

In this paper, we offer an overview of indigenous languages, identifying the causes of their devaluation and the need for legislation on language rights. We review the technologies used to revitalize these languages, finding that when they come from outside, they often have the opposite effect to what they seek; however, when developed from within communities, they become powerful instruments of expression. We propose that the inclusion of Indigenous knowledge in large language models (LLMs) will enrich the technological landscape, but must be done in a participatory environment that encourages the exchange of knowledge.

arxiv情報

著者 Silvia Fernandez-Sabido,Laura Peniche-Sabido
発行日 2025-04-02 09:08:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY | Redefining technology for indigenous languages はコメントを受け付けていません

Medical Spoken Named Entity Recognition

要約

話された名前の名前のエンティティ認識(NER)は、スピーチから名前のエンティティを抽出し、それらを人、場所、組織などの種類に分類することを目的としています。
私たちの知る限り、当社のベトナムの実世界のデータセットは、18の異なるタイプを備えたエンティティタイプの数に関する世界最大のNERデータセットです。
さらに、さまざまな最先端の事前訓練モデルを使用してベースライン結果を提示します:エンコーダのみおよびシーケンスからシーケンス。
定量的および定性的エラー分析を実施します。
事前に訓練された多言語モデルは、一般に、参照テキストで単一言語モデルよりも優れていることがわかりました。
トランスクリプトを翻訳することにより、データセットは、ベトナム以外の言語の医療ドメインのテキストNERにも使用できます。
すべてのコード、データ、モデルは公開されています:https://github.com/leduckhai/multimed/tree/master/vietmed-ner。

要約(オリジナル)

Spoken Named Entity Recognition (NER) aims to extract named entities from speech and categorise them into types like person, location, organization, etc. In this work, we present VietMed-NER – the first spoken NER dataset in the medical domain. To our knowledge, our Vietnamese real-world dataset is the largest spoken NER dataset in the world regarding the number of entity types, featuring 18 distinct types. Furthermore, we present baseline results using various state-of-the-art pre-trained models: encoder-only and sequence-to-sequence; and conduct quantitative and qualitative error analysis. We found that pre-trained multilingual models generally outperform monolingual models on reference text and ASR output and encoders outperform sequence-to-sequence models in NER tasks. By translating the transcripts, the dataset can also be utilised for text NER in the medical domain in other languages than Vietnamese. All code, data and models are publicly available: https://github.com/leduckhai/MultiMed/tree/master/VietMed-NER.

arxiv情報

著者 Khai Le-Duc,David Thulke,Hung-Phong Tran,Long Vo-Dang,Khai-Nguyen Nguyen,Truong-Son Hy,Ralf Schlüter
発行日 2025-04-02 09:12:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Medical Spoken Named Entity Recognition はコメントを受け付けていません

FortisAVQA and MAVEN: a Benchmark Dataset and Debiasing Framework for Robust Multimodal Reasoning

要約

オーディオビジュアル質問応答(AVQA)は、ペアのオーディオビデオ入力に基づいて自然言語クエリに正確に答えることをインテリジェントなシステムに要求する挑戦的なマルチモーダル推論タスクです。
ただし、既存のAVQAアプローチは、しばしばデータセットバイアスに過剰適合することに苦しみ、堅牢性が低下します。
さらに、現在のデータセットはこれらの方法を効果的に診断しない場合があります。
これらの課題に対処するために、最初に2つの段階で構築された新しいデータセットであるFortisavqaを紹介します。(1)パブリックミュージックAVQAデータセットのテスト分割で質問を再定再配置し、(2)質問全体の分布シフトを導入します。
最初の段階では、多様性が大きくなるとテスト空間が拡張され、2番目の段階では、まれで頻繁な、全体的な質問分布にわたって洗練された堅牢性評価が可能になります。
第二に、バイアス学習を緩和するためにマルチフェセットサイクル共同コラボレーション戦略を活用する堅牢なマルチモーダルオーディオビジュアル認識ネットワーク(Maven)を紹介します。
実験結果は、私たちのアーキテクチャがFortisavqaで最先端のパフォーマンスを達成し、7.81 \%の顕著な改善を実証していることを示しています。
両方のデータセットでの広範なアブレーション研究により、委員会のコンポーネントの有効性が検証されます。
さらに、我々の評価により、既存のマルチモーダルQAメソッドの限られた堅牢性が明らかになります。
また、両方のデータセットにわたってさまざまなベースラインモデルと統合することにより、戦略のプラグアンドプレイ機能を検証します。
データセットとコードはhttps://github.com/reml-group/fortisavqaで入手できます。

要約(オリジナル)

Audio-Visual Question Answering (AVQA) is a challenging multimodal reasoning task requiring intelligent systems to answer natural language queries based on paired audio-video inputs accurately. However, existing AVQA approaches often suffer from overfitting to dataset biases, leading to poor robustness. Moreover, current datasets may not effectively diagnose these methods. To address these challenges, we first introduce a novel dataset, FortisAVQA, constructed in two stages: (1) rephrasing questions in the test split of the public MUSIC-AVQA dataset and (2) introducing distribution shifts across questions. The first stage expands the test space with greater diversity, while the second enables a refined robustness evaluation across rare, frequent, and overall question distributions. Second, we introduce a robust Multimodal Audio-Visual Epistemic Network (MAVEN) that leverages a multifaceted cycle collaborative debiasing strategy to mitigate bias learning. Experimental results demonstrate that our architecture achieves state-of-the-art performance on FortisAVQA, with a notable improvement of 7.81\%. Extensive ablation studies on both datasets validate the effectiveness of our debiasing components. Additionally, our evaluation reveals the limited robustness of existing multimodal QA methods. We also verify the plug-and-play capability of our strategy by integrating it with various baseline models across both datasets. Our dataset and code are available at https://github.com/reml-group/fortisavqa.

arxiv情報

著者 Jie Ma,Zhitao Gao,Qi Chai,Jun Liu,Pinghui Wang,Jing Tao,Zhou Su
発行日 2025-04-02 09:19:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.MM, H.5.1 | FortisAVQA and MAVEN: a Benchmark Dataset and Debiasing Framework for Robust Multimodal Reasoning はコメントを受け付けていません

Context-Aware Toxicity Detection in Multiplayer Games: Integrating Domain-Adaptive Pretraining and Match Metadata

要約

競争力のあるオンラインビデオゲームにおける毒性の有害な影響は広く認められており、出版社にプレイヤーチャットの会話を監視するよう促しています。
これは、毒性のコンテキスト依存性の性質のために挑戦的であり、しばしば複数のメッセージに広がったり、非テキストの相互作用によって情報を提供したりします。
従来の毒性検出器は、孤立したメッセージに焦点を当て、正確な節度に必要なより広いコンテキストを欠いています。
これは、特にその希少性を考えると、標準モデルが毒性を検出することを困難にしているため、特に標準モデルが毒性を検出することを困難にしているため、これはビデオゲームで特に問題があります。
Roberta LLMを調整して、ビデオゲームに合わせたモデレーションをサポートし、テキストと非テキストのコンテキストの両方を統合しました。
メタデータを使用した前提条件の埋め込みを強化し、ドメイン適応前脱出を介したユニークなスラングと言語の癖に対処することにより、私たちの方法は、プレーヤーの相互作用のニュアンスをよりよく捉えています。
2つのゲームデータセットを使用して、Andefients 2(Dota 2)とCall of Duty $^\ cirfare $:Modern Warfare $^\ circledr $ iii(MWIII)のコールオブデューティ$^\ cirfare $:Context of Context(メタデータ、以前の相互作用…)が最も便利であり、パフォーマンスを高めるために最適な方法で最も有用であり、条件を促進します。
この作業は、積極的な節度のためのコンテキスト認識とドメイン固有のアプローチの重要性を強調しています。

要約(オリジナル)

The detrimental effects of toxicity in competitive online video games are widely acknowledged, prompting publishers to monitor player chat conversations. This is challenging due to the context-dependent nature of toxicity, often spread across multiple messages or informed by non-textual interactions. Traditional toxicity detectors focus on isolated messages, missing the broader context needed for accurate moderation. This is especially problematic in video games, where interactions involve specialized slang, abbreviations, and typos, making it difficult for standard models to detect toxicity, especially given its rarity. We adapted RoBERTa LLM to support moderation tailored to video games, integrating both textual and non-textual context. By enhancing pretrained embeddings with metadata and addressing the unique slang and language quirks through domain adaptive pretraining, our method better captures the nuances of player interactions. Using two gaming datasets – from Defense of the Ancients 2 (DOTA 2) and Call of Duty$^\circledR$: Modern Warfare$^\circledR$III (MWIII) we demonstrate which sources of context (metadata, prior interactions…) are most useful, how to best leverage them to boost performance, and the conditions conducive to doing so. This work underscores the importance of context-aware and domain-specific approaches for proactive moderation.

arxiv情報

著者 Adrien Schurger-Foy,Rafal Dariusz Kocielnik,Caglar Gulcehre,R. Michael Alvarez
発行日 2025-04-02 09:21:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Context-Aware Toxicity Detection in Multiplayer Games: Integrating Domain-Adaptive Pretraining and Match Metadata はコメントを受け付けていません

From Smør-re-brød to Subwords: Training LLMs on Danish, One Morpheme at a Time

要約

最高のパフォーマンスの変圧器ベースの言語モデルは、バイトペアエンコード(BPE)などのサブワードトークン化手法を使用します。
ただし、これらのアプローチは、言語固有の単語構造を理解するための基本であると考えている形態学的セグメンテーションなど、言語の原則を見落としていることがよくあります。
この研究では、注釈付きのデンマークの形態データセットを活用して、形態学的セグメンテーションのために半承認されたモデルを訓練し、デンマークの形態に最適化されたトークン剤の開発を可能にします。
デンマークの単語を形態学的にセグメント化するパフォーマンスを分析することにより、2つのカスタム形態学的トークナイザーを含む4つの異なるトークナザーを評価します。
さらに、これらのトーナイザーを使用して、\ textit {cerebrasgpt-11m}と\ textit {llama-3.2 1b}と\ textit {cerebrasgpt-11m}と\ textit {cerebrasgpt-11m}をトレーニングし、下流のパフォーマンスを評価します。
私たちの調査結果は、カスタム開発されたトークンザーが形態学的セグメンテーションを大幅に強化し、デンマークのBPEトークナイザーによって達成された39.28と比較して58.84のF1スコアを達成することを明らかにしています。
ダウンストリームタスクでは、形態学的トークンザーで訓練されたモデルは、さまざまな評価メトリックでBPEトーナイザーを使用しているモデルよりも優れています。
これらの結果は、デンマークの形態学的セグメンテーション戦略をトークンザーに組み込むと、デンマーク語の生成トランスモデルのパフォーマンスが向上することを強調しています

要約(オリジナル)

The best performing transformer-based language models use subword tokenization techniques, such as Byte-Pair-Encoding (BPE). However, these approaches often overlook linguistic principles, such as morphological segmentation, which we believe is fundamental for understanding language-specific word structure. In this study, we leverage an annotated Danish morphological dataset to train a semisupervised model for morphological segmentation, enabling the development of tokenizers optimized for Danish morphology. We evaluate four distinct tokenizers, including two custom morphological tokenizers, by analyzing their performance in morphologically segmenting Danish words. Additionally, we train two generative transformer models, \textit{CerebrasGPT-111M} and \textit{LLaMA-3.2 1B}, using these tokenizers and evaluate their downstream performance. Our findings reveal that our custom-developed tokenizers substantially enhance morphological segmentation, achieving an F1 score of 58.84, compared to 39.28 achieved by a Danish BPE tokenizer. In downstream tasks, models trained with our morphological tokenizers outperform those using BPE tokenizers across different evaluation metrics. These results highlight that incorporating Danish morphological segmentation strategies into tokenizers leads to improved performance in generative transformer models on Danish language

arxiv情報

著者 Mikkel Wildner Kildeberg,Emil Allerslev Schledermann,Nicolaj Larsen,Rob van der Goot
発行日 2025-04-02 09:26:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | From Smør-re-brød to Subwords: Training LLMs on Danish, One Morpheme at a Time はコメントを受け付けていません

Register Always Matters: Analysis of LLM Pretraining Data Through the Lens of Language Variation

要約

事前削除データキュレーションは、大規模な言語モデル(LLM)開発の基礎であり、大規模なWebコーパスの品質フィルタリングに関する研究の増加につながります。
統計的品質フラグからLLMベースのラベル付けシステムまで、データセットはカテゴリに分割され、頻繁にバイナリに減少します。貴重な例とみなされるフィルターを渡すものは、役に立たないまたは有害なものとして破棄されます。
ただし、モデルパフォーマンスへのさまざまな種類のテキストの貢献についてのより詳細な理解は、まだほとんど欠けています。
この記事では、登録剤(ジャンルとも呼ばれる)を使用した最初の研究(コーパス言語学で広く使用されている標準である言語の変動をモデル化する)を提示し、事前削除データセットをキュレートし、LLMSのパフォーマンスに対するレジスタの効果を調査します。
登録モデルを分類したデータでモデルをトレーニングし、標準のベンチマークを使用して評価することで比較研究を実行し、事前販売データのレジスタがモデルのパフォーマンスに大きく影響することを示します。
事前トレーニング資料と結果として得られるモデルの間の驚くべき関係を明らかにします。ニュースレジスターを使用すると、レビューや意見ブログなどのテキストをカバーする意見クラスを含む反対に、非常に有益です。
フィルター処理されていないデータセット全体で訓練されたモデルは、単一のレジスタに限定されたデータセットでトレーニングされたものよりも優れています。
さらに、個々のベンチマーク結果を分析すると、特定のレジスタクラスの強度と欠点の重要な違いが、事前化データとして明らかになります。
これらの調査結果は、登録がモデルの変動の重要な説明者であり、より意図的な将来のデータ選択慣行を促進できることを示しています。

要約(オリジナル)

Pretraining data curation is a cornerstone in Large Language Model (LLM) development, leading to growing research on quality filtering of large web corpora. From statistical quality flags to LLM-based labeling systems, datasets are divided into categories, frequently reducing to a binary: those passing the filters deemed as valuable examples, others discarded as useless or detrimental. However, a more detailed understanding of the contribution of different kinds of texts to model performance is still largely lacking. In this article, we present the first study utilizing registers (also known as genres) – a widely used standard in corpus linguistics to model linguistic variation – to curate pretraining datasets and investigate the effect of register on the performance of LLMs. We perform comparative studies by training models with register classified data and evaluating them using standard benchmarks, and show that the register of pretraining data substantially affects model performance. We uncover surprising relationships between the pretraining material and the resulting models: using the News register results in subpar performance, and on the contrary, including the Opinion class, covering texts such as reviews and opinion blogs, is highly beneficial. While a model trained on the entire unfiltered dataset outperforms those trained on datasets limited to a single register, combining well-performing registers like How-to-Instructions, Informational Description, and Opinion leads to major improvements. Furthermore, analysis of individual benchmark results reveals key differences in the strengths and drawbacks of specific register classes as pretraining data. These findings show that register is an important explainer of model variation and can facilitate more deliberate future data selection practices.

arxiv情報

著者 Amanda Myntti,Erik Henriksson,Veronika Laippala,Sampo Pyysalo
発行日 2025-04-02 09:30:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Register Always Matters: Analysis of LLM Pretraining Data Through the Lens of Language Variation はコメントを受け付けていません

Induction Heads as an Essential Mechanism for Pattern Matching in In-context Learning

要約

大規模な言語モデル(LLM)は、コンテキスト学習(ICL)を通じて複雑なタスクを学習および実行する顕著な能力を示しています。
ただし、その内部メカニズムの包括的な理解はまだ不足しています。
このペーパーでは、いくつかのショットICL設定における誘導ヘッドの役割を探ります。
抽象パターン認識とNLPタスクで、2つの最先端のモデル、Llama-3-8BとInternLM2-20Bを分析します。
我々の結果は、誘導ヘッドの最小限のアブレーションでさえ、抽象的なパターン認識タスクのICLパフォーマンスが最大32%減少し、パフォーマンスをランダムに近づけることを示しています。
NLPタスクの場合、このアブレーションにより、モデルの例から利益を得る能力が大幅に減少し、ゼロショットプロンプトのICLパフォーマンスが少ないICLパフォーマンスに近づきます。
さらに、注意ノックアウトを使用して特定の誘導パターンを無効にし、誘導メカニズムがICLで果たす役割について細粒の証拠を提示します。

要約(オリジナル)

Large language models (LLMs) have shown a remarkable ability to learn and perform complex tasks through in-context learning (ICL). However, a comprehensive understanding of its internal mechanisms is still lacking. This paper explores the role of induction heads in a few-shot ICL setting. We analyse two state-of-the-art models, Llama-3-8B and InternLM2-20B on abstract pattern recognition and NLP tasks. Our results show that even a minimal ablation of induction heads leads to ICL performance decreases of up to ~32% for abstract pattern recognition tasks, bringing the performance close to random. For NLP tasks, this ablation substantially decreases the model’s ability to benefit from examples, bringing few-shot ICL performance close to that of zero-shot prompts. We further use attention knockout to disable specific induction patterns, and present fine-grained evidence for the role that the induction mechanism plays in ICL.

arxiv情報

著者 Joy Crosbie,Ekaterina Shutova
発行日 2025-04-02 09:40:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Induction Heads as an Essential Mechanism for Pattern Matching in In-context Learning はコメントを受け付けていません

Representation Bending for Large Language Model Safety

要約

大規模な言語モデル(LLM)は強力なツールとして浮上していますが、有害なコンテンツ生成からより広範な社会的危害に至るまでの固有の安全リスクは、大きな課題をもたらします。
これらのリスクは、最近の敵対的な攻撃、微調整の脆弱性、およびハイステークス環境でのLLMの展開の増加によって増幅される可能性があります。
人間のフィードバックや敵対的なトレーニングで微調整するなどの既存の安全性向上技術は、特定の脅威に対処し、目に見えない攻撃間で一般化することができない、または手動システムレベルの防御を必要とすることが多いため、依然として脆弱です。
このペーパーでは、LLMの有害行動の根底にある表現を根本的に混乱させる新しいアプローチであるRepbendを紹介し、(潜在的に固有の)安全性を高めるためのスケーラブルなソリューションを提供します。
repbendは、活性化ステアリングのアイデアをもたらします – 推論中のステアリングモデルの動作のための単純なベクター算術 – 損失ベースの微調整にもたらされます。
Repbendは、広範な評価を通じて、最先端のパフォーマンスを達成し、回路ブレーカー、RMU、NPOなどの以前の方法を上回り、多様なジェイルブレイクベンチマーク全体で攻撃成功率を最大95%削減し、すべてモデルの使いやすさと一般的な機能を軽減します。

要約(オリジナル)

Large Language Models (LLMs) have emerged as powerful tools, but their inherent safety risks – ranging from harmful content generation to broader societal harms – pose significant challenges. These risks can be amplified by the recent adversarial attacks, fine-tuning vulnerabilities, and the increasing deployment of LLMs in high-stakes environments. Existing safety-enhancing techniques, such as fine-tuning with human feedback or adversarial training, are still vulnerable as they address specific threats and often fail to generalize across unseen attacks, or require manual system-level defenses. This paper introduces RepBend, a novel approach that fundamentally disrupts the representations underlying harmful behaviors in LLMs, offering a scalable solution to enhance (potentially inherent) safety. RepBend brings the idea of activation steering – simple vector arithmetic for steering model’s behavior during inference – to loss-based fine-tuning. Through extensive evaluation, RepBend achieves state-of-the-art performance, outperforming prior methods such as Circuit Breaker, RMU, and NPO, with up to 95% reduction in attack success rates across diverse jailbreak benchmarks, all with negligible reduction in model usability and general capabilities.

arxiv情報

著者 Ashkan Yousefpour,Taeheon Kim,Ryan S. Kwon,Seungbeen Lee,Wonje Jeung,Seungju Han,Alvin Wan,Harrison Ngan,Youngjae Yu,Jonghyun Choi
発行日 2025-04-02 09:47:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG | Representation Bending for Large Language Model Safety はコメントを受け付けていません

Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources

要約

高品質のデータフィルタリング、マルチモーダルデータ混合戦略、シーケンスパッキング技術、トレーニングフレームワークなど、最先端のマルチモーダルLLM Pre-Training Pre-Training Pre-Training Faceは、パイプラインのあらゆる段階で障壁を照らします。
220 A100-40G GPU時間のみを使用して、29mの画像テキストペアで効率的に事前に訓練された完全にオープンソース2Bパラメーターマルチモーダル大手言語モデルであるOpen-QWEN2VLを導入します。
私たちのアプローチは、低から高度の動的画像解像度とマルチモーダルシーケンスパッキングを採用して、トレーニング前の効率を大幅に向上させます。
トレーニングデータセットは、MLLMベースのフィルタリング技術(MLM-Filterなど)と従来のクリップベースのフィルタリング方法の両方を使用して、データの品質とトレーニング効率を大幅に改善して、慎重にキュレーションされました。
Open-QWEN2VLプリトレーニングは、5BパックされたマルチモーダルトークンのUCSBのアカデミックレベル8XA100-40G GPUで行われます。
最終的な命令チューニングされたOpen-QWEN2VLは、MMBench、Seedbench、MMStar、およびMathvistaのさまざまなマルチモーダルベンチマークで部分的にオープンした最先端のMLLM QWEN2-VL-2Bを上回り、Open-QWEN2VLの顕著なトレーニング効率を示しています。
計算効率の良いトレーニングの詳細、データフィルタリング方法、シーケンスパッキングスクリプト、WebDataSet形式のプリトレーニングデータ、FSDPベースのトレーニングコードベース、および命令チューニングモデルチェックポイントの両方を含む、作業のすべての側面をオープンソーシングします。
マルチモーダルLLMの「完全に開いて」を再定義します。1)トレーニングコードベース、2)詳細データフィルタリング手法、3)モデルの開発に使用されるすべてのトレーニング前および監視された微調整データ。

要約(オリジナル)

The reproduction of state-of-the-art multimodal LLM pre-training faces barriers at every stage of the pipeline, including high-quality data filtering, multimodal data mixture strategies, sequence packing techniques, and training frameworks. We introduce Open-Qwen2VL, a fully open-source 2B-parameter Multimodal Large Language Model pre-trained efficiently on 29M image-text pairs using only 220 A100-40G GPU hours. Our approach employs low-to-high dynamic image resolution and multimodal sequence packing to significantly enhance pre-training efficiency. The training dataset was carefully curated using both MLLM-based filtering techniques (e.g., MLM-Filter) and conventional CLIP-based filtering methods, substantially improving data quality and training efficiency. The Open-Qwen2VL pre-training is conducted on academic level 8xA100-40G GPUs at UCSB on 5B packed multimodal tokens, which is 0.36% of 1.4T multimodal pre-training tokens of Qwen2-VL. The final instruction-tuned Open-Qwen2VL outperforms partially-open state-of-the-art MLLM Qwen2-VL-2B on various multimodal benchmarks of MMBench, SEEDBench, MMstar, and MathVista, indicating the remarkable training efficiency of Open-Qwen2VL. We open-source all aspects of our work, including compute-efficient and data-efficient training details, data filtering methods, sequence packing scripts, pre-training data in WebDataset format, FSDP-based training codebase, and both base and instruction-tuned model checkpoints. We redefine ‘fully open’ for multimodal LLMs as the complete release of: 1) the training codebase, 2) detailed data filtering techniques, and 3) all pre-training and supervised fine-tuning data used to develop the model.

arxiv情報

著者 Weizhi Wang,Yu Tian,Linjie Yang,Heng Wang,Xifeng Yan
発行日 2025-04-02 11:17:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources はコメントを受け付けていません