Think When You Need: Self-Adaptive Chain-of-Thought Learning

要約

思考の連鎖(CoT)推論は言語モデルの性能を向上させるが、単純な問題では非効率な「考えすぎ」につながることが多い。我々は、推論の長さに直接ペナルティを与える既存のアプローチでは、問題の複雑さが変化することを考慮できないことを明らかにする。我々のアプローチは、解の正しさと簡潔さを同時に高める理論的仮定に導かれ、長さと質の比較を通して報酬を構成する。さらに、グランドトゥルースが利用できないファジーなタスクに対しても、我々の手法を実証する。複数の推論ベンチマークにわたる実験により、我々の手法が精度を維持しつつ、より簡潔な説明を生成し、「必要なときに考える」ことを効果的にモデルに教えることが実証された。

要約(オリジナル)

Chain of Thought (CoT) reasoning enhances language models’ performance but often leads to inefficient ‘overthinking’ on simple problems. We identify that existing approaches directly penalizing reasoning length fail to account for varying problem complexity. Our approach constructs rewards through length and quality comparisons, guided by theoretical assumptions that jointly enhance solution correctness with conciseness. Moreover, we further demonstrate our method to fuzzy tasks where ground truth is unavailable. Experiments across multiple reasoning benchmarks demonstrate that our method maintains accuracy while generating significantly more concise explanations, effectively teaching models to ‘think when needed.’

arxiv情報

著者 Junjie Yang,Ke Lin,Xing Yu
発行日 2025-04-04 07:34:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | Think When You Need: Self-Adaptive Chain-of-Thought Learning はコメントを受け付けていません

Inherent and emergent liability issues in LLM-based agentic systems: a principal-agent perspective

要約

大規模言語モデル(LLM)を利用したエージェントシステムは、ますます複雑で高性能になってきている。LLMのエージェンシー性はますます高まり、導入環境も拡大しているため、効果的なガバナンスポリシー、モニタリング、制御プロトコルに注目が集まっている。エージェント市場の新たな景観に基づき、プリンシパル・エージェントの観点から、LLMエージェントとその拡張システムの委任利用から生じる潜在的な責任問題を分析する。我々の分析は、人工エージェンシーに関する既存のリスクベースの研究を補完するものであり、プリンシパルとエージェントの関係の重要な側面と、その展開における潜在的な結果のスペクトルをカバーするものである。さらに、解釈可能性と行動評価、報酬と紛争管理、検知とフェイルセーフ機構の原理的工学を通したミスアラインメントと不正行為の緩和という方向性に沿って、技術的ガバナンスのための手法開発の動機付けを行う。LLMベースのエージェントシステムのAI責任における未解決の問題を説明することにより、透明性と説明責任を強化するためのシステム設計、監査、監視のアプローチに情報を提供することを目指す。

要約(オリジナル)

Agentic systems powered by large language models (LLMs) are becoming progressively more complex and capable. Their increasing agency and expanding deployment settings attract growing attention over effective governance policies, monitoring and control protocols. Based on emerging landscapes of the agentic market, we analyze the potential liability issues stemming from delegated use of LLM agents and their extended systems from a principal-agent perspective. Our analysis complements existing risk-based studies on artificial agency and covers the spectrum of important aspects of the principal-agent relationship and their potential consequences at deployment. Furthermore, we motivate method developments for technical governance along the directions of interpretability and behavior evaluations, reward and conflict management, and the mitigation of misalignment and misconduct through principled engineering of detection and fail-safe mechanisms. By illustrating the outstanding issues in AI liability for LLM-based agentic systems, we aim to inform the system design, auditing and monitoring approaches to enhancing transparency and accountability.

arxiv情報

著者 Garry A. Gabison,R. Patrick Xian
発行日 2025-04-04 08:10:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CY, cs.MA | Inherent and emergent liability issues in LLM-based agentic systems: a principal-agent perspective はコメントを受け付けていません

RWKVTTS: Yet another TTS based on RWKV-7

要約

人間とAIのインタラクションは、直感的で効率的なインターフェイスで繁栄しており、その中でも音声は特に自然で利用しやすいモダリティとして際立っています。近年、Fish-Speech、CosyVoice、MegaTTS 3 などの変換器ベースの音声合成(TTS)システムの進歩により、品質とリアリズムが著しく向上し、TTS 領域が大きく進化しています。本稿では、RWKV-7 ⦅peng2025rwkv ⦆を紹介します。従来のトランスフォーマーモデルとは異なり、RWKV-7はリカレントニューラルネットワークの長所を活用し、高品質の出力を維持しながら、より高い計算効率とスケーラビリティを達成する。我々の包括的なベンチマークにより、RWKV-7は、合成速度、音声の自然さ、リソース効率などの複数の主要な指標において、トランスフォーマーベースのモデルを上回ることが実証された。さらに、多様な言語コンテキストや低リソース環境への適応性を探求し、TTS技術を民主化する可能性を示す。これらの結果は、RWKV-7を強力で革新的な代替手段として位置づけ、実世界のアプリケーションにおいて、より利用しやすく汎用性の高い音声合成ソリューションへの道を開くものである。我々のコードと重みは、https://github.com/yynil/RWKVTTS、https://huggingface.co/spaces/RWKV-Red-Team。

要約(オリジナル)

Human-AI interaction thrives on intuitive and efficient interfaces, among which voice stands out as a particularly natural and accessible modality. Recent advancements in transformer-based text-to-speech (TTS) systems, such as Fish-Speech, CosyVoice, and MegaTTS 3, have delivered remarkable improvements in quality and realism, driving a significant evolution in the TTS domain. In this paper, we introduce RWKV-7 \cite{peng2025rwkv}, a cutting-edge RNN-based architecture tailored for TTS applications. Unlike traditional transformer models, RWKV-7 leverages the strengths of recurrent neural networks to achieve greater computational efficiency and scalability, while maintaining high-quality output. Our comprehensive benchmarks demonstrate that RWKV-7 outperforms transformer-based models across multiple key metrics, including synthesis speed, naturalness of speech, and resource efficiency. Furthermore, we explore its adaptability to diverse linguistic contexts and low-resource environments, showcasing its potential to democratize TTS technology. These findings position RWKV-7 as a powerful and innovative alternative, paving the way for more accessible and versatile voice synthesis solutions in real-world applications.Our code and weights are https://github.com/yynil/RWKVTTS, https://huggingface.co/spaces/RWKV-Red-Team

arxiv情報

著者 Lin yueyu,Liu Xiao
発行日 2025-04-04 09:17:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.SD, eess.AS | RWKVTTS: Yet another TTS based on RWKV-7 はコメントを受け付けていません

Stance-Driven Multimodal Controlled Statement Generation: New Dataset and Task

要約

特定のトピックに関する多様なスタンスや論争的なスタンスを支持する文章を作成することは、ユーザーの表現を可能にし、政治的言説を再構築し、社会批評や情報発信を推進するプラットフォームにとって不可欠である。大規模言語モデル(LLM)の台頭により、特定のスタンスに向けた制御可能なテキスト生成は、世論形成や商業マーケティングに応用可能な有望な研究分野となっている。しかし、現在のデータセットは、純粋なテキストにのみ焦点を当てていることが多く、マルチモーダルコンテンツや効果的なコンテキスト、特にスタンス検出のコンテキストが欠けている。本論文では、テキストと画像を含むツイートに対する、スタンス駆動型の制御可能なコンテンツ生成という新しい問題を正式に定義し、研究する。この目的のために、我々は政治的言説におけるマルチモーダルなスタンス制御可能なテキスト生成のために明示的に設計された最初のリソースである、マルチモーダルスタンス生成データセット(StanceGen2024)を作成する。このデータセットには、2024年の米国大統領選挙の投稿とユーザーコメントが含まれ、テキスト、画像、ビデオ、スタンス注釈が含まれ、マルチモーダルな政治コンテンツがスタンス表現をどのように形成するかを探る。さらに、意味的一貫性とスタンス制御を改善するために、マルチモーダル特徴の重み付け融合とスタンスガイダンスを統合するスタンス駆動マルチモーダル生成(SDMG)フレームワークを提案する。データセットとコード(https://anonymous.4open.science/r/StanceGen-BE9D)を公開する。

要約(オリジナル)

Formulating statements that support diverse or controversial stances on specific topics is vital for platforms that enable user expression, reshape political discourse, and drive social critique and information dissemination. With the rise of Large Language Models (LLMs), controllable text generation towards specific stances has become a promising research area with applications in shaping public opinion and commercial marketing. However, current datasets often focus solely on pure texts, lacking multimodal content and effective context, particularly in the context of stance detection. In this paper, we formally define and study the new problem of stance-driven controllable content generation for tweets with text and images, where given a multimodal post (text and image/video), a model generates a stance-controlled response. To this end, we create the Multimodal Stance Generation Dataset (StanceGen2024), the first resource explicitly designed for multimodal stance-controllable text generation in political discourse. It includes posts and user comments from the 2024 U.S. presidential election, featuring text, images, videos, and stance annotations to explore how multimodal political content shapes stance expression. Furthermore, we propose a Stance-Driven Multimodal Generation (SDMG) framework that integrates weighted fusion of multimodal features and stance guidance to improve semantic consistency and stance control. We release the dataset and code (https://anonymous.4open.science/r/StanceGen-BE9D) for public use and further research.

arxiv情報

著者 Bingqian Wang,Quan Fang,Jiachen Sun,Xiaoxiao Ma
発行日 2025-04-04 09:20:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | Stance-Driven Multimodal Controlled Statement Generation: New Dataset and Task はコメントを受け付けていません

Noise Augmented Fine Tuning for Mitigating Hallucinations in Large Language Models

要約

大規模言語モデル(LLM)は、しばしば不正確な、あるいは誤解を招くような内容認識を生成する。この課題を解決するために、SNRに基づく適応的なノイズ注入を活用してモデルの頑健性を向上させる新しいフレームワーク、Noise-Augmented Fine-Tuning (NoiseFiT)を導入する。特に、NoiseFiTは、動的にスケーリングされたガウスノイズを用いて、高SNR(よりロバスト)または低SNR(正則化不足の可能性)として識別されたレイヤーを選択的に変化させる。さらに、標準的なクロスエントロピー、ソフトクロスエントロピー、一貫性正則化を組み合わせたハイブリッド損失を提案し、ノイズの多い学習条件下でも安定した正確な出力を保証する。我々の理論的解析により、適応的ノイズ注入は不偏であり、分散を保存し、期待値における収束を強く保証することが示される。複数のテストデータセットとベンチマークデータセットでの実証結果は、NoiseFiTが幻覚率を有意に減少させ、しばしば主要なタスクにおいてベースラインの性能を向上させるか、それに匹敵することを示している。これらの結果は、法外な計算オーバーヘッドを発生させることなく、ロバストで信頼できる言語モデリングを達成するためのノイズ駆動戦略の有望性を強調するものである。我々の実験の包括的で詳細な性質を考慮し、さらなる研究、アクセシビリティ、再現性を促進するために、微調整ログ、ベンチマーク評価成果物、ソースコードをそれぞれW&B、Hugging Face、GitHubでオンライン公開しました。

要約(オリジナル)

Large language models (LLMs) often produce inaccurate or misleading content-hallucinations. To address this challenge, we introduce Noise-Augmented Fine-Tuning (NoiseFiT), a novel framework that leverages adaptive noise injection based on the signal-to-noise ratio (SNR) to enhance model robustness. In particular, NoiseFiT selectively perturbs layers identified as either high-SNR (more robust) or low-SNR (potentially under-regularized) using a dynamically scaled Gaussian noise. We further propose a hybrid loss that combines standard cross-entropy, soft cross-entropy, and consistency regularization to ensure stable and accurate outputs under noisy training conditions. Our theoretical analysis shows that adaptive noise injection is both unbiased and variance-preserving, providing strong guarantees for convergence in expectation. Empirical results on multiple test and benchmark datasets demonstrate that NoiseFiT significantly reduces hallucination rates, often improving or matching baseline performance in key tasks. These findings highlight the promise of noise-driven strategies for achieving robust, trustworthy language modeling without incurring prohibitive computational overhead. Given the comprehensive and detailed nature of our experiments, we have publicly released the fine-tuning logs, benchmark evaluation artifacts, and source code online at W&B, Hugging Face, and GitHub, respectively, to foster further research, accessibility and reproducibility.

arxiv情報

著者 Afshin Khadangi,Amir Sartipi,Igor Tchappi,Ramin Bahmani
発行日 2025-04-04 09:27:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | Noise Augmented Fine Tuning for Mitigating Hallucinations in Large Language Models はコメントを受け付けていません

Evaluating Compact LLMs for Zero-Shot Iberian Language Tasks on End-User Devices

要約

大規模言語モデルは、言語生成、翻訳、推論などのタスクで顕著な性能を達成し、自然言語処理を大きく発展させてきた。しかし、その膨大な計算量はハイエンドシステムへの展開を制限し、コンシューマーグレードのデバイスでの利用を制限している。この課題は、イベリア半島で話されているようなリソース不足の言語では特に顕著であり、言語リソースやベンチマークが比較的限られているため、効果的な評価が妨げられている。本研究では、イベリア半島の言語向けに調整されたいくつかの重要なNLPタスクにおいて、コンパクトな最新のLLMを包括的に評価した。その結果、特定のタスクにおいて一貫して優れているモデルがある一方で、特にバスク語のような言語では大きな性能差が残っていることが明らかになった。これらの知見は、モデルのコンパクト性とロバストな多言語性能のバランスをとるためのさらなる研究の必要性を浮き彫りにしている。

要約(オリジナル)

Large Language Models have significantly advanced natural language processing, achieving remarkable performance in tasks such as language generation, translation, and reasoning. However, their substantial computational requirements restrict deployment to high-end systems, limiting accessibility on consumer-grade devices. This challenge is especially pronounced for under-resourced languages like those spoken in the Iberian Peninsula, where relatively limited linguistic resources and benchmarks hinder effective evaluation. This work presents a comprehensive evaluation of compact state-of-the-art LLMs across several essential NLP tasks tailored for Iberian languages. The results reveal that while some models consistently excel in certain tasks, significant performance gaps remain, particularly for languages such as Basque. These findings highlight the need for further research on balancing model compactness with robust multilingual performance

arxiv情報

著者 Luís Couto Seller,Íñigo Sanz Torres,Adrián Vogel-Fernández,Carlos González Carballo,Pedro Miguel Sánchez Sánchez,Adrián Carruana Martín,Enrique de Miguel Ambite
発行日 2025-04-04 09:47:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG | Evaluating Compact LLMs for Zero-Shot Iberian Language Tasks on End-User Devices はコメントを受け付けていません

Low-Resource Transliteration for Roman-Urdu and Urdu Using Transformer-Based Models

要約

情報検索(IR)の分野で包括性の重要性がますます認識される中、低リソース言語のニーズへの対応は依然として重要な課題である。ウルドゥー語とそのローマ字表記であるローマンウルドゥー語の間の音訳は、南アジアで両方の文字が広く使われているにもかかわらず、まだ十分に研究されていない。Roman-Urdu-ParlデータセットでRNNを使用した先行研究は有望な結果を示したが、ドメイン適応性の低さと限られた評価に苦しんだ。我々は、m2m100多言語翻訳モデルを用いた変換器ベースのアプローチを提案し、Roman-Urdu-Parlデータセットとドメインが多様なDakshinaデータセットの両方において、マスク言語モデリング(MLM)の事前学習と微調整を強化する。従来の評価の欠陥に対処するため、厳密なデータセット分割を導入し、BLEU、文字レベルBLEU、CHRFを用いて性能を評価する。我々のモデルは強力な音訳性能を達成し、Char-BLEUスコアはウルドゥー語->ローマ字-ウルドゥー語で96.37、ローマ字-ウルドゥー語->ウルドゥー語で97.44であった。これらの結果は、RNNベースラインとGPT-4o Miniの両方を上回り、低リソース音訳タスクに対する多言語転送学習の有効性を実証している。

要約(オリジナル)

As the Information Retrieval (IR) field increasingly recognizes the importance of inclusivity, addressing the needs of low-resource languages remains a significant challenge. Transliteration between Urdu and its Romanized form, Roman Urdu, remains underexplored despite the widespread use of both scripts in South Asia. Prior work using RNNs on the Roman-Urdu-Parl dataset showed promising results but suffered from poor domain adaptability and limited evaluation. We propose a transformer-based approach using the m2m100 multilingual translation model, enhanced with masked language modeling (MLM) pretraining and fine-tuning on both Roman-Urdu-Parl and the domain-diverse Dakshina dataset. To address previous evaluation flaws, we introduce rigorous dataset splits and assess performance using BLEU, character-level BLEU, and CHRF. Our model achieves strong transliteration performance, with Char-BLEU scores of 96.37 for Urdu->Roman-Urdu and 97.44 for Roman-Urdu->Urdu. These results outperform both RNN baselines and GPT-4o Mini and demonstrate the effectiveness of multilingual transfer learning for low-resource transliteration tasks.

arxiv情報

著者 Umer Butt,Stalin Veranasi,Günter Neumann
発行日 2025-04-04 09:55:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | Low-Resource Transliteration for Roman-Urdu and Urdu Using Transformer-Based Models はコメントを受け付けていません

Enabling Low-Resource Language Retrieval: Establishing Baselines for Urdu MS MARCO

要約

情報検索(IR)分野がますます包括性の重要性を認識する中、低リソース言語のニーズへの対応は依然として重要な課題である。本稿では、MS MARCOデータセットを機械翻訳することによって作成された、初の大規模ウルドゥー語IRデータセットを紹介する。ウルドゥー語IRのゼロショット学習によるベースライン結果を確立し、その後、この新たに翻訳されたデータセットにmMARCO多言語IR手法を適用する。その結果、微調整されたモデル(Urdu-mT5-mMARCO)は、0.247のMRR@10(Mean Reciprocal Rank)と0.439のRecall@10(Recall@10)を達成し、ゼロショットの結果よりも大幅に改善され、ウルドゥー語話者のIRアクセスを拡大する可能性を示している。低リソース言語の話者のアクセスギャップを埋めることで、この研究は多言語IR研究を前進させるだけでなく、インクルーシブIR技術の倫理的・社会的重要性を強調している。この研究は、言語表現を改善するための課題と解決策に関する貴重な洞察を提供し、今後の研究、特に本研究で使用した適応可能な手法から恩恵を受けることができる南アジアの言語における研究の基礎を築くものである。

要約(オリジナル)

As the Information Retrieval (IR) field increasingly recognizes the importance of inclusivity, addressing the needs of low-resource languages remains a significant challenge. This paper introduces the first large-scale Urdu IR dataset, created by translating the MS MARCO dataset through machine translation. We establish baseline results through zero-shot learning for IR in Urdu and subsequently apply the mMARCO multilingual IR methodology to this newly translated dataset. Our findings demonstrate that the fine-tuned model (Urdu-mT5-mMARCO) achieves a Mean Reciprocal Rank (MRR@10) of 0.247 and a Recall@10 of 0.439, representing significant improvements over zero-shot results and showing the potential for expanding IR access for Urdu speakers. By bridging access gaps for speakers of low-resource languages, this work not only advances multilingual IR research but also emphasizes the ethical and societal importance of inclusive IR technologies. This work provides valuable insights into the challenges and solutions for improving language representation and lays the groundwork for future research, especially in South Asian languages, which can benefit from the adaptable methods used in this study.

arxiv情報

著者 Umer Butt,Stalin Varanasi,Günter Neumann
発行日 2025-04-04 10:07:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 68T50, cs.AI, cs.CL, cs.IR, I.2.7 | Enabling Low-Resource Language Retrieval: Establishing Baselines for Urdu MS MARCO はコメントを受け付けていません

BabyLM’s First Words: Word Segmentation as a Phonological Probing Task

要約

言語モデルは、予測に基づく言語理論を研究するための重要な枠組みを提供するが、大規模言語モデル(LLM)を用いた音韻解析は困難である。英語以外の音韻ベンチマークはほとんどなく、LLMで使用される標準的な入力表現(graphemesのサブワード)は音素の表現解析には適していない。本研究では、単語分割を音韻プロービング課題として使用する方法を示し、31言語にわたる子供の発話で学習した音素ベースの言語モデルが学習した表現を研究することを可能にする。単語分割の計算モデルに続いて、単語の開始点で予測誤差がピークに達するという観察結果を利用して、学習済みモデルから単語境界を抽出する教師なし手法を提示する。また、線形プローブを用いて、単語境界が学習中に出現しない場合でも、これらのモデルが暗黙的に単語境界を追跡することを確認する。この言語横断的な研究により、統計的学習による習得理論が裏付けられ、サブワード・トークナイザーの新しい学習方法が経験的に動機付けられる。

要約(オリジナル)

Language models provide a key framework for studying linguistic theories based on prediction, but phonological analysis using large language models (LLMs) is difficult; there are few phonological benchmarks beyond English and the standard input representation used in LLMs (subwords of graphemes) is not suitable for analyzing the representation of phonemes. In this work, we demonstrate how word segmentation can be used as a phonological probing task, allowing us to study the representations learned by phoneme-based language models trained on child-directed speech across 31 languages. Following computational models of word segmentation, we present unsupervised methods for extracting word boundaries from a trained model using the observation that prediction-error peaks at the start of words. We also use linear probes to identify that these models implicitly track word boundaries, even when they do not appear in training. This cross-lingual work corroborates statistical learning theories of acquisition and empirically motivates new methods for training subword tokenizers.

arxiv情報

著者 Zébulon Goriely
発行日 2025-04-04 10:42:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | BabyLM’s First Words: Word Segmentation as a Phonological Probing Task はコメントを受け付けていません

Predictive Data Selection: The Data That Predicts Is the Data That Teaches

要約

言語モデルの事前学習には、膨大なコーパスを用いた学習が必要であり、データの質が重要な役割を果たす。本研究では、プリトレーニング中のデータの寄与を直接推定し、効率的な方法でプリトレーニングデータを選択することを目指す。具体的には、あるテキストに対する多様なモデルの圧縮効率(すなわち正規化損失)は、テキストドメインが下流のベンチマークと一致する場合、下流の性能と強く相関することを示す最近の知見から着想を得る(Huang et al., 2024)。この観察に基づき、我々は、モデルの損失が下流の能力を予測するデータも学習に効果的に寄与するという仮説を立てる。この洞察を活用するために、我々は予測的データ選択(PreSelect)を導入する。これは、軽量で効率的なデータ選択手法であり、fastTextベースのスコアラーを訓練し配置するだけでよい。1Bと3Bのパラメータモデルを用いた包括的な実験を通じて、PreSelectを用いて選択された30Bのトークンで訓練されたモデルが、300Bのトークンで訓練されたバニラベースラインの性能を上回り、計算要件が10倍削減されることを実証する。さらに、PreSelectは、100Bトークンで訓練された3Bモデルのスケールにおいて、DCLMやFineWeb-Eduなどの他の競合データ選択ベースラインを大幅に上回ります。私たちは、学習したデータ選択スコアラを、キュレーションしたデータセットとともに https://github.com/hkust-nlp/PreSelect でオープンソース化しています。

要約(オリジナル)

Language model pretraining involves training on extensive corpora, where data quality plays a pivotal role. In this work, we aim to directly estimate the contribution of data during pretraining and select pretraining data in an efficient manner. Specifically, we draw inspiration from recent findings showing that compression efficiency (i.e., the normalized loss) of diverse models on certain text correlates strongly with their downstream performance, when the text domain aligns with the downstream benchmarks(Huang et al., 2024). Building on this observation, we hypothesize that data on which model losses are predictive of downstream abilities also contribute effectively to learning. To leverage this insight, we introduce predictive data selection (PreSelect), a lightweight and efficient data selection method that requires training and deploying only a fastText-based scorer. Through comprehensive experiments with 1B and 3B parameter models, we demonstrate that models trained on 30B tokens selected with PreSelect surpass the performance of the vanilla baseline trained on 300B tokens, achieving a 10x reduction in compute requirements. Furthermore, PreSelect significantly outperforms other competitive data selection baselines, such as DCLM and FineWeb-Edu on a scale of 3B models trained on 100B tokens. We open-source our trained data selection scorer along with the curated datasets at https://github.com/hkust-nlp/PreSelect.

arxiv情報

著者 Kashun Shum,Yuzhen Huang,Hongjian Zou,Qi Ding,Yixuan Liao,Xiaoxin Chen,Qian Liu,Junxian He
発行日 2025-04-04 10:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | Predictive Data Selection: The Data That Predicts Is the Data That Teaches はコメントを受け付けていません