QualBench: Benchmarking Chinese LLMs with Localized Professional Qualifications for Vertical Domain Evaluation

要約

中国の大手言語モデル(LLMS)の急速な進歩は、信頼できるアプリケーションを確保するためにドメイン固有の評価の必要性を強調しています。
ただし、既存のベンチマークには、垂直ドメインのカバレッジが不足していることが多く、中国の作業コンテキストに対する洞察が限られています。
人間の専門知識評価のための統一されたフレームワークとしての資格試験を活用すると、中国のLLMのローカライズされた評価に特化した最初のマルチドメイン中国のQAベンチマークであるQualbenchを紹介します。
データセットには、6つの垂直ドメインにわたって17,000を超える質問が含まれており、24の中国の資格に基づいたデータの選択は、国家政策と作業基準に密接に合わせています。
包括的な評価を通じて、QWEN2.5モデルは、より高度なGPT-4Oを上回り、中国のLLMは一貫して非中国語モデルを上回り、資格要件を満たす際のローカライズされたドメイン知識の重要性を強調しました。
75.26%の最高のパフォーマンスにより、モデル機能内のドメインカバレッジの現在のギャップが明らかになります。
さらに、クラウドソーシングメカニズムとのLLMコラボレーションの失敗を提示し、連合学習を用いたマルチドメインRAG知識強化と垂直ドメインLLMトレーニングの機会を示唆しています。

要約(オリジナル)

The rapid advancement of Chinese large language models (LLMs) underscores the need for domain-specific evaluations to ensure reliable applications. However, existing benchmarks often lack coverage in vertical domains and offer limited insights into the Chinese working context. Leveraging qualification exams as a unified framework for human expertise evaluation, we introduce QualBench, the first multi-domain Chinese QA benchmark dedicated to localized assessment of Chinese LLMs. The dataset includes over 17,000 questions across six vertical domains, with data selections grounded in 24 Chinese qualifications to closely align with national policies and working standards. Through comprehensive evaluation, the Qwen2.5 model outperformed the more advanced GPT-4o, with Chinese LLMs consistently surpassing non-Chinese models, highlighting the importance of localized domain knowledge in meeting qualification requirements. The best performance of 75.26% reveals the current gaps in domain coverage within model capabilities. Furthermore, we present the failure of LLM collaboration with crowdsourcing mechanisms and suggest the opportunities for multi-domain RAG knowledge enhancement and vertical domain LLM training with Federated Learning.

arxiv情報

著者 Mengze Hong,Wailing Ng,Di Jiang,Chen Jason Zhang
発行日 2025-05-08 13:16:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | QualBench: Benchmarking Chinese LLMs with Localized Professional Qualifications for Vertical Domain Evaluation はコメントを受け付けていません

Applications of Artificial Intelligence for Cross-language Intelligibility Assessment of Dysarthric Speech

要約

目的:音声明瞭度は、ダイサルリアの評価と管理における重要な結果ですが、ほとんどの研究と臨床慣行は英語に焦点を当てており、言語全体の適用性を制限しています。
この解説では、概念的なフレームワークと、それがどのように実装できるかのデモンストレーションを紹介します – 人工知能(AI)をレバレッジ化して、ダンガージ横断的な視認性評価のダイナリスリックスピーチを前進させます。
方法:ダイサルトリック音声を音響音量化表現にコードする普遍的な音声モデルで構成される2層の概念的なフレームワークを提案し、その後、ターゲット言語の音韻または韻律構造内のこれらの表現を解釈する言語固有の明瞭度評価モデルが続きます。
さらに、データ不足、注釈の複雑さ、およびダイサルトリックスピーチに関する限られた言語洞察を含む、ダイナリクロススターのスピーチの障壁の障壁を特定し、これらの課題を克服するための潜在的なAI駆動型ソリューションの概要を示します。
結論:ダンガージ横断的な表現性評価の前進は、ダイサルトリック音声の評価には、効率的でスケーラブルなモデルが必要でありながら、正確で言語に敏感な評価を確保するための言語規則によって制約されているモデルが必要です。
AIの最近の進歩は、この統合をサポートするための基礎ツールを提供し、一般化可能な言語的に情報に基づいた評価フレームワークに向けて将来の方向を形成します。

要約(オリジナル)

Purpose: Speech intelligibility is a critical outcome in the assessment and management of dysarthria, yet most research and clinical practices have focused on English, limiting their applicability across languages. This commentary introduces a conceptual framework–and a demonstration of how it can be implemented–leveraging artificial intelligence (AI) to advance cross-language intelligibility assessment of dysarthric speech. Method: We propose a two-tiered conceptual framework consisting of a universal speech model that encodes dysarthric speech into acoustic-phonetic representations, followed by a language-specific intelligibility assessment model that interprets these representations within the phonological or prosodic structures of the target language. We further identify barriers to cross-language intelligibility assessment of dysarthric speech, including data scarcity, annotation complexity, and limited linguistic insights into dysarthric speech, and outline potential AI-driven solutions to overcome these challenges. Conclusion: Advancing cross-language intelligibility assessment of dysarthric speech necessitates models that are both efficient and scalable, yet constrained by linguistic rules to ensure accurate and language-sensitive assessment. Recent advances in AI provide the foundational tools to support this integration, shaping future directions toward generalizable and linguistically informed assessment frameworks.

arxiv情報

著者 Eunjung Yeo,Julie Liss,Visar Berisha,David Mortensen
発行日 2025-05-08 13:22:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Applications of Artificial Intelligence for Cross-language Intelligibility Assessment of Dysarthric Speech はコメントを受け付けていません

Toward Reasonable Parrots: Why Large Language Models Should Argue with Us by Design

要約

このポジションペーパーでは、議論のプロセスをサポートおよび促進するように本質的に設計された会話技術の開発を提唱しています。
現在、この目的には大きな言語モデル(LLM)が不十分であると主張し、議論のスキルを向上させることを目的とした理想的な技術設計を提案しています。
これには、LLMSをそれらを置き換えるのではなく、批判的思考を行使するためのツールとして再編成することが含まれます。
関連性、責任、自由の基本原則を具体化し、論争的な対話的な動きを通して相互作用する「合理的なオウム」の概念を紹介します。
これらの原則と動きは、議論理論の数千年の仕事から生じ、議論の基本原則を組み込んだLLMベースのテクノロジーの出発点として機能するはずです。

要約(オリジナル)

In this position paper, we advocate for the development of conversational technology that is inherently designed to support and facilitate argumentative processes. We argue that, at present, large language models (LLMs) are inadequate for this purpose, and we propose an ideal technology design aimed at enhancing argumentative skills. This involves re-framing LLMs as tools to exercise our critical thinking rather than replacing them. We introduce the concept of ‘reasonable parrots’ that embody the fundamental principles of relevance, responsibility, and freedom, and that interact through argumentative dialogical moves. These principles and moves arise out of millennia of work in argumentation theory and should serve as the starting point for LLM-based technology that incorporates basic principles of argumentation.

arxiv情報

著者 Elena Musi,Nadin Kokciyan,Khalid Al-Khatib,Davide Ceolin,Emmanuelle Dietz,Klara Gutekunst,Annette Hautli-Janisz,Cristian Manuel Santibañez Yañez,Jodi Schneider,Jonas Scholz,Cor Steging,Jacky Visser,Henning Wachsmuth
発行日 2025-05-08 14:41:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MA | Toward Reasonable Parrots: Why Large Language Models Should Argue with Us by Design はコメントを受け付けていません

SAPIENT: Mastering Multi-turn Conversational Recommendation with Strategic Planning and Monte Carlo Tree Search

要約

会話型推奨システム(CRS)は、ユーザーをインタラクティブな対話に積極的に関与させて、ユーザーの好みを引き出し、パーソナライズされた推奨事項を提供します。
既存の方法は、貪欲なアクション選択またはサンプリング戦略を備えた強化学習(RL)ベースのエージェントを訓練し、最適ではない会話計画に苦しむ可能性があります。
これに対処するために、新しいMonte Carlo Tree Search(MCTS)ベースのCRSフレームワークSapientを提示します。
Sapientは、会話エージェント(S-Agent)と会話プランナー(S-Planner)で構成されています。
S-Plannerは、S-Agentが提案して会話計画を見つけるために提案された初期アクションに基づいて、MCTと会話型検索ツリーを構築します。
S-Plannerからの最高の会話計画は、S-Agentのトレーニングを導くために使用され、S-Agentが会話計画の能力を繰り返し改善できるセルフトレーニングループを作成します。
さらに、トレーニングの効率とパフォーマンスのトレードオフのための効率的なバリアントサピエントを提案します。
4つのベンチマークデータセットでの広範な実験は、当社のアプローチの有効性を検証し、サピエントが最先端のベースラインを上回ることを示しています。
私たちのコードとデータは、https://github.com/ninglab/sapientからアクセスできます。

要約(オリジナル)

Conversational Recommender Systems (CRS) proactively engage users in interactive dialogues to elicit user preferences and provide personalized recommendations. Existing methods train Reinforcement Learning (RL)-based agent with greedy action selection or sampling strategy, and may suffer from suboptimal conversational planning. To address this, we present a novel Monte Carlo Tree Search (MCTS)-based CRS framework SAPIENT. SAPIENT consists of a conversational agent (S-agent) and a conversational planner (S-planner). S-planner builds a conversational search tree with MCTS based on the initial actions proposed by S-agent to find conversation plans. The best conversation plans from S-planner are used to guide the training of S-agent, creating a self-training loop where S-agent can iteratively improve its capability for conversational planning. Furthermore, we propose an efficient variant SAPIENT for trade-off between training efficiency and performance. Extensive experiments on four benchmark datasets validate the effectiveness of our approach, showing that SAPIENT outperforms the state-of-the-art baselines. Our code and data are accessible through https://github.com/ninglab/SAPIENT.

arxiv情報

著者 Hanwen Du,Bo Peng,Xia Ning
発行日 2025-05-08 14:47:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SAPIENT: Mastering Multi-turn Conversational Recommendation with Strategic Planning and Monte Carlo Tree Search はコメントを受け付けていません

TCAN: Text-oriented Cross Attention Network for Multimodal Sentiment Analysis

要約

マルチモーダル感情分析(MSA)は、言語、視覚、音響のモダリティを活用することにより、人間の感情を理解するよう努めています。
以前のMSAアプローチによって示された驚くべきパフォーマンスにもかかわらず、固有のマルチモーダル不均一性の存在は課題をもたらし、異なるモダリティの貢献度はかなり異なります。
過去の研究は、主に表現学習技術の改善と特徴融合戦略に焦点を当てていました。
しかし、これらの努力の多くは、異なるモダリティ間の意味的な豊かさの変動を見落とし、各モダリティを均一に扱いました。
このアプローチは、弱いモダリティの重要性を強調しすぎて、強いモダリティの重要性を過小評価することにつながる可能性があります。
これらの洞察に動機付けられて、MSAにおけるテキストモダリティの主な役割を強調し、テキスト指向のクロスアテンションネットワーク(TCAN)を紹介します。
具体的には、各マルチモーダルサンプルについて、3つのモダリティの無整合シーケンスを入力として使用することにより、最初に抽出されたユニモーダル機能を視覚テキストとアコーステキストペアに割り当てます。
その後、テキストのモダリティに自己関節を実装し、視覚的および音響モダリティにテキストQuarsedの相互告知を適用します。
ノイズ信号と冗長機能の影響を緩和するために、ゲート制御メカニズムをフレームワークに組み込みます。
さらに、バックプロパゲーションを通じて多様なモダリティ全体で均一な感情的傾向をより深く理解するために、単峰性の共同学習を導入します。
実験結果は、TCANが2つのデータセット(CMU-MOSIおよびCMU-MOSEI)で一貫して最先端のMSAメソッドを上回ることを示しています。

要約(オリジナル)

Multimodal Sentiment Analysis (MSA) endeavors to understand human sentiment by leveraging language, visual, and acoustic modalities. Despite the remarkable performance exhibited by previous MSA approaches, the presence of inherent multimodal heterogeneities poses a challenge, with the contribution of different modalities varying considerably. Past research predominantly focused on improving representation learning techniques and feature fusion strategies. However, many of these efforts overlooked the variation in semantic richness among different modalities, treating each modality uniformly. This approach may lead to underestimating the significance of strong modalities while overemphasizing the importance of weak ones. Motivated by these insights, we introduce a Text-oriented Cross-Attention Network (TCAN), emphasizing the predominant role of the text modality in MSA. Specifically, for each multimodal sample, by taking unaligned sequences of the three modalities as inputs, we initially allocate the extracted unimodal features into a visual-text and an acoustic-text pair. Subsequently, we implement self-attention on the text modality and apply text-queried cross-attention to the visual and acoustic modalities. To mitigate the influence of noise signals and redundant features, we incorporate a gated control mechanism into the framework. Additionally, we introduce unimodal joint learning to gain a deeper understanding of homogeneous emotional tendencies across diverse modalities through backpropagation. Experimental results demonstrate that TCAN consistently outperforms state-of-the-art MSA methods on two datasets (CMU-MOSI and CMU-MOSEI).

arxiv情報

著者 Weize Quan,Yunfei Feng,Ming Zhou,Yunzhen Zhao,Tong Wang,Dong-Ming Yan
発行日 2025-05-08 15:04:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MM | TCAN: Text-oriented Cross Attention Network for Multimodal Sentiment Analysis はコメントを受け付けていません

ICon: In-Context Contribution for Automatic Data Selection

要約

命令チューニングのためのデータ選択は、大規模な言語モデル(LLMS)のパフォーマンスを改善し、トレーニングコストを削減するために不可欠です。
ただし、既存の自動選択方法は、計算上の高価なグラデーションベースの測定値または手動で設計されたヒューリスティックに依存しているため、データの本質的な属性を完全に活用できない可能性があります。
このホワイトペーパーでは、貢献測定のためのコンテキスト内学習(ICON)を提案します。これは、勾配計算または手動インジケーターエンジニアリングなしでサンプルの寄与を測定するために、コンテキスト内学習(ICL)の暗黙の微調整性(ICL)を活用する新しいグラデーションフリーの方法です。
アイコンは、勾配ベースの方法に計算的に効率的な代替品を提供し、ヒューリスティックベースのアプローチに固有の人間の誘導バイアスを減らします。
ICONは3つのコンポーネントで構成され、ICLを介した暗黙の学習下でのパフォーマンスシフトを評価することにより、高い矛盾データを識別します。
12のベンチマークと5つのペアワイズ評価セットにわたる3つのLLMでの広範な実験は、アイコンの有効性を示しています。
驚くべきことに、llama3.1-8bでは、アイコン選択データの15%でトレーニングされたモデルでは、完全なデータセットを5.42%上回り、広く使用されている選択方法の最高のパフォーマンスを2.06%上回ります。
さらに、最も難しいタスクではなく、多様なタスクと適切な難易度レベルの両方を示すアイコンで選択された高販売サンプルを分析します。

要約(オリジナル)

Data selection for instruction tuning is essential for improving the performance of Large Language Models (LLMs) and reducing training cost. However, existing automated selection methods either depend on computationally expensive gradient-based measures or manually designed heuristics, which may fail to fully exploit the intrinsic attributes of data. In this paper, we propose In-context Learning for Contribution Measurement (ICon), a novel gradient-free method that takes advantage of the implicit fine-tuning nature of in-context learning (ICL) to measure sample contribution without gradient computation or manual indicators engineering. ICon offers a computationally efficient alternative to gradient-based methods and reduces human inductive bias inherent in heuristic-based approaches. ICon comprises three components and identifies high-contribution data by assessing performance shifts under implicit learning through ICL. Extensive experiments on three LLMs across 12 benchmarks and 5 pairwise evaluation sets demonstrate the effectiveness of ICon. Remarkably, on LLaMA3.1-8B, models trained on 15% of ICon-selected data outperform full datasets by 5.42% points and exceed the best performance of widely used selection methods by 2.06% points. We further analyze high-contribution samples selected by ICon, which show both diverse tasks and appropriate difficulty levels, rather than just the hardest ones.

arxiv情報

著者 Yixin Yang,Qingxiu Dong,Linli Yao,Fangwei Zhu,Zhifang Sui
発行日 2025-05-08 15:17:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ICon: In-Context Contribution for Automatic Data Selection はコメントを受け付けていません

TiC-LM: A Web-Scale Benchmark for Time-Continual LLM Pretraining

要約

履歴Webデータでトレーニングされた大規模な言語モデル(LLM)は必然的に時代遅れになります。
新しいデータが利用可能になると、LLMの評価戦略と更新方法を調査します。
114個のダンプの一般的なクロール(CC)のダンプから派生したLLMの時間継続的な事前削除のためのWebスケールデータセットを紹介します。
また、一般的なCCデータと特定のドメイン(Wikipedia、stackexchange、およびコードドキュメント)の両方で時間階段化された評価を設計し、過去の知識を保持しながら、さまざまな継続的な学習方法が新しいデータにどれだけ適応するかを評価します。
我々の調査結果は、一般的なCCデータでは、古いデータの固定比率のリプレイと組み合わせた自己回帰メタスケジュールが、ゼロからの再トレーニングに匹敵する保有損失を達成できるが、計算が大幅に少ない(2.6倍)ことを実証していることが示されています。
ただし、新しいデータを組み込むことと古いデータのリプレイとの間の最適なバランスは、リプレイが一般的なWebデータを忘れないようにするために重要であるため、特定のドメインではそれほど重要ではありません。

要約(オリジナル)

Large Language Models (LLMs) trained on historical web data inevitably become outdated. We investigate evaluation strategies and update methods for LLMs as new data becomes available. We introduce a web-scale dataset for time-continual pretraining of LLMs derived from 114 dumps of Common Crawl (CC) – orders of magnitude larger than previous continual language modeling benchmarks. We also design time-stratified evaluations across both general CC data and specific domains (Wikipedia, StackExchange, and code documentation) to assess how well various continual learning methods adapt to new data while retaining past knowledge. Our findings demonstrate that, on general CC data, autoregressive meta-schedules combined with a fixed-ratio replay of older data can achieve comparable held-out loss to re-training from scratch, while requiring significantly less computation (2.6x). However, the optimal balance between incorporating new data and replaying old data differs as replay is crucial to avoid forgetting on generic web data but less so on specific domains.

arxiv情報

著者 Jeffrey Li,Mohammadreza Armandpour,Iman Mirzadeh,Sachin Mehta,Vaishaal Shankar,Raviteja Vemulapalli,Samy Bengio,Oncel Tuzel,Mehrdad Farajtabar,Hadi Pouransari,Fartash Faghri
発行日 2025-05-08 16:22:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | TiC-LM: A Web-Scale Benchmark for Time-Continual LLM Pretraining はコメントを受け付けていません

Frame In, Frame Out: Do LLMs Generate More Biased News Headlines than Humans?

要約

メディアでのフレーミングは、他の人を軽視しながらいくつかの詳細を選択的に強調することにより、一般の認識を批判的に形作ります。
自動化されたニュースやコンテンツの作成における大規模な言語モデルの台頭により、これらのシステムが人間の著者と比較してフレーミングバイアスを導入または増幅する可能性があるという懸念が高まっています。
この論文では、すぐに調整されたLLMで生成されたニュースコンテンツの両方で、フレーミングがどのようにマニフェストされるかを探ります。
私たちの分析は、特に政治的および社会的に敏感な文脈において、LLMは人間よりも顕著なフレーミングを示す傾向があることを明らかにしています。
さらに、さまざまなモデルアーキテクチャにわたるフレーミング傾向の有意なばらつきが観察され、一部のモデルは特に高いバイアスを表示します。
これらの調査結果は、自動化されたニュースコンテンツがバランスレポートの基準を支持することを保証するために、効果的なトレーニング後の緩和戦略とより厳しい評価フレームワークの必要性を指摘しています。

要約(オリジナル)

Framing in media critically shapes public perception by selectively emphasizing some details while downplaying others. With the rise of large language models in automated news and content creation, there is growing concern that these systems may introduce or even amplify framing biases compared to human authors. In this paper, we explore how framing manifests in both out-of-the-box and fine-tuned LLM-generated news content. Our analysis reveals that, particularly in politically and socially sensitive contexts, LLMs tend to exhibit more pronounced framing than their human counterparts. In addition, we observe significant variation in framing tendencies across different model architectures, with some models displaying notably higher biases. These findings point to the need for effective post-training mitigation strategies and tighter evaluation frameworks to ensure that automated news content upholds the standards of balanced reporting.

arxiv情報

著者 Valeria Pastorino,Nafise Sadat Moosavi
発行日 2025-05-08 16:46:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Frame In, Frame Out: Do LLMs Generate More Biased News Headlines than Humans? はコメントを受け付けていません

Correctness Coverage Evaluation for Medical Multiple-Choice Question Answering Based on the Enhanced Conformal Prediction Framework

要約

大規模な言語モデル(LLM)は、医療質問(QA)シナリオでますます採用されています。
ただし、LLMは幻覚と非事実情報を生成し、ハイステークスの医療タスクでの信頼性を損なう可能性があります。
適合予測(CP)は、限界(平均)カバレッジ保証の統計的に厳密なフレームワークを提供しますが、医療QAの調査は限られています。
このペーパーでは、医療複数選択質問(MCQA)タスクのための強化されたCPフレームワークを提案します。
不適合スコアを正しいオプションの周波数スコアに関連付け、自己整合性を活用することにより、フレームワークは内部モデルの不透明度に対処し、単調な損失関数を備えたリスク制御戦略を組み込みます。
MedMCQA、MEDQA、およびMMLUデータセットで4つの既製のLLMSを使用して評価された提案方法は、指定されたエラー率保証を満たし、リスクレベルを上げる平均予測セットサイズを減らし、LLMSの有望な不確実性評価メトリックを提供します。

要約(オリジナル)

Large language models (LLMs) are increasingly adopted in medical question-answering (QA) scenarios. However, LLMs can generate hallucinations and nonfactual information, undermining their trustworthiness in high-stakes medical tasks. Conformal Prediction (CP) provides a statistically rigorous framework for marginal (average) coverage guarantees but has limited exploration in medical QA. This paper proposes an enhanced CP framework for medical multiple-choice question-answering (MCQA) tasks. By associating the non-conformance score with the frequency score of correct options and leveraging self-consistency, the framework addresses internal model opacity and incorporates a risk control strategy with a monotonic loss function. Evaluated on MedMCQA, MedQA, and MMLU datasets using four off-the-shelf LLMs, the proposed method meets specified error rate guarantees while reducing average prediction set size with increased risk level, offering a promising uncertainty evaluation metric for LLMs.

arxiv情報

著者 Yusong Ke,Hongru Lin,Yuting Ruan,Junya Tang,Li Li
発行日 2025-05-08 16:52:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Correctness Coverage Evaluation for Medical Multiple-Choice Question Answering Based on the Enhanced Conformal Prediction Framework はコメントを受け付けていません

Ultra-FineWeb: Efficient Data Filtering and Verification for High-Quality LLM Training Data

要約

データの品質は、大規模な言語モデル(LLMS)の急速な発展により、モデルのパフォーマンスを向上させる重要な要因となっています。
モデル駆動型のデータフィルタリングは、高品質のデータを取得するための主要なアプローチになりつつあります。
ただし、まだ2つの主な課題に直面しています。(1)効率的なデータ検証戦略がないため、データの品質に関するタイムリーなフィードバックを提供することは困難です。
(2)トレーニング分類器のための種子データの選択には明確な基準がなく、人間の専門知識に大きく依存し、ある程度の主観性を導入しています。
最初の課題に対処するために、最小限の計算コストでLLMトレーニングに対するデータの影響の迅速な評価を可能にする効率的な検証戦略を紹介します。
2番目の課題に取り組むために、高品質の種子データがLLMトレーニングに有益であるという仮定に基づいて構築し、提案された検証戦略を統合することにより、正と負のサンプルの選択を最適化し、効率的なデータフィルタリングパイプラインを提案します。
このパイプラインは、フィルタリング効率、分類器の品質、堅牢性を改善するだけでなく、実験コストと推論コストを大幅に削減します。
さらに、高品質のデータを効率的にフィルタリングするために、FastTextに基づいて軽量分類器を採用し、フィルタリングパイプラインを2つの広く使用されている作業、FineWeb、および中国のファインウェブデータセットに正常に適用し、高品質のウルトラファインウェブデータセットを作成します。
Ultra-FineWebには、約1兆個の英語トークンと1200億個の中国のトークンが含まれています。
経験的な結果は、超微細ウェブで訓練されたLLMSが複数のベンチマークタスクにわたって大幅なパフォーマンスの改善を示し、データの品質とトレーニング効率の両方を高めるパイプラインの有効性を検証することを示しています。

要約(オリジナル)

Data quality has become a key factor in enhancing model performance with the rapid development of large language models (LLMs). Model-driven data filtering has increasingly become a primary approach for acquiring high-quality data. However, it still faces two main challenges: (1) the lack of an efficient data verification strategy makes it difficult to provide timely feedback on data quality; and (2) the selection of seed data for training classifiers lacks clear criteria and relies heavily on human expertise, introducing a degree of subjectivity. To address the first challenge, we introduce an efficient verification strategy that enables rapid evaluation of the impact of data on LLM training with minimal computational cost. To tackle the second challenge, we build upon the assumption that high-quality seed data is beneficial for LLM training, and by integrating the proposed verification strategy, we optimize the selection of positive and negative samples and propose an efficient data filtering pipeline. This pipeline not only improves filtering efficiency, classifier quality, and robustness, but also significantly reduces experimental and inference costs. In addition, to efficiently filter high-quality data, we employ a lightweight classifier based on fastText, and successfully apply the filtering pipeline to two widely-used pre-training corpora, FineWeb and Chinese FineWeb datasets, resulting in the creation of the higher-quality Ultra-FineWeb dataset. Ultra-FineWeb contains approximately 1 trillion English tokens and 120 billion Chinese tokens. Empirical results demonstrate that the LLMs trained on Ultra-FineWeb exhibit significant performance improvements across multiple benchmark tasks, validating the effectiveness of our pipeline in enhancing both data quality and training efficiency.

arxiv情報

著者 Yudong Wang,Zixuan Fu,Jie Cai,Peijun Tang,Hongya Lyu,Yewei Fang,Zhi Zheng,Jie Zhou,Guoyang Zeng,Chaojun Xiao,Xu Han,Zhiyuan Liu
発行日 2025-05-08 17:15:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Ultra-FineWeb: Efficient Data Filtering and Verification for High-Quality LLM Training Data はコメントを受け付けていません