ProjectTest: A Project-level Unit Test Generation Benchmark and Impact of Error Fixing Mechanisms

要約

ユニットテストの生成は、LLMSの有望で重要なユースケースになっています。
ただし、LLMユニットテスト生成機能を評価するための既存の評価ベンチマークは、より実用的で挑戦的なプロジェクトレベルのコードベースではなく、機能またはクラスレベルのコードに焦点を当てています。
このような制限に対処するために、Python、Java、およびJavaScriptをカバーするユニットテスト生成のプロジェクトレベルのベンチマークであるProjectTestを提案します。
ProjectTestは、言語ごとに20の中程度のサイズの高品質のプロジェクトを備えています。
ProjectTestで9つのフロンティアLLMを評価し、結果は、PicthonとJavaのProjecttestで中程度のパフォーマンスを示し、ProjectTestの難易度を強調していることを示しています。
また、徹底的なエラー分析も実施します。これは、Claude-3.5-SonnetなどのフロンティアLLMでさえ、コンピレーションやカスケードエラーを含む重要な簡単なエラーがあることを示しています。
この観察に動機付けられて、エラー固定メカニズムを装備した場合の可能性を評価するために、手動のエラー固定シナリオと自己誤差固定シナリオの下ですべてのフロンティアLLMをさらに評価します。

要約(オリジナル)

Unit test generation has become a promising and important use case of LLMs. However, existing evaluation benchmarks for assessing LLM unit test generation capabilities focus on function- or class-level code rather than more practical and challenging project-level codebases. To address such limitation, we propose ProjectTest, a project-level benchmark for unit test generation covering Python, Java, and JavaScript. ProjectTest features 20 moderate-sized and high-quality projects per language. We evaluate nine frontier LLMs on ProjectTest and the results show that all frontier LLMs tested exhibit moderate performance on ProjectTest on Python and Java, highlighting the difficulty of ProjectTest. We also conduct a thorough error analysis, which shows that even frontier LLMs, such as Claude-3.5-Sonnet, have significant simple errors, including compilation and cascade errors. Motivated by this observation, we further evaluate all frontier LLMs under manual error-fixing and self-error-fixing scenarios to assess their potential when equipped with error-fixing mechanisms.

arxiv情報

著者 Yibo Wang,Congying Xia,Wenting Zhao,Jiangshu Du,Chunyu Miao,Zhongfen Deng,Philip S. Yu,Chen Xing
発行日 2025-02-10 15:24:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE | ProjectTest: A Project-level Unit Test Generation Benchmark and Impact of Error Fixing Mechanisms はコメントを受け付けていません

Position: It’s Time to Act on the Risk of Efficient Personalized Text Generation

要約

高品質のオープンソースの生成AIテキストモデル(口語的に:LLMS)の最近の急増、および効率的な微調整技術は、高品質のパーソナライズされたモデルを作成する可能性を開きました。
そして、その人自身のデータを活用してオープンソースモデルを改良することにより、彼らの執筆スタイルを信頼できるように模倣することができます。
このようなモデルを作成するテクノロジーは個人がアクセスでき、そのようなモデルのトレーニングと実行は、消費者グレードのハードウェアで安く実行できます。
これらの進歩は、使いやすさとプライバシーにとって大きな利益です。
しかし、このポジションペーパーでは、これらの進歩は、少量の公開されたテキストに基づいて、たとえば電子メールのフィッシングを目的として、悪意のある俳優が大規模な特定の個人になりすまして実質的に実行可能にすることにより、新しい安全リスクをもたらすと主張しています。
私たちはさらに、これらのリスクは、画像、音声、ビデオディープフェイクなどの他のなりすまし攻撃の大いに議論されているリスクを補完し、それとは異なり、大規模な研究コミュニティ、または現在の世代のオープンによって適切に対処されていないと主張します。
– およびクローズドソースモデル。

要約(オリジナル)

The recent surge in high-quality open-sourced Generative AI text models (colloquially: LLMs), as well as efficient finetuning techniques, has opened the possibility of creating high-quality personalized models, i.e., models generating text attuned to a specific individual’s needs and capable of credibly imitating their writing style by leveraging that person’s own data to refine an open-source model. The technology to create such models is accessible to private individuals, and training and running such models can be done cheaply on consumer-grade hardware. These advancements are a huge gain for usability and privacy. This position paper argues, however, that these advancements also introduce new safety risks by making it practically feasible for malicious actors to impersonate specific individuals at scale, for instance for the purpose of phishing emails, based on small amounts of publicly available text. We further argue that these risks are complementary to – and distinct from – the much-discussed risks of other impersonation attacks such as image, voice, or video deepfakes, and are not adequately addressed by the larger research community, or the current generation of open – and closed-source models.

arxiv情報

著者 Eugenia Iofinova,Andrej Jovanovic,Dan Alistarh
発行日 2025-02-10 15:25:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | Position: It’s Time to Act on the Risk of Efficient Personalized Text Generation はコメントを受け付けていません

Jailbreaking LLMs’ Safeguard with Universal Magic Words for Text Embedding Models

要約

大規模な言語モデル(LLMS)のセキュリティ問題は最近、有害な出力を防ぐためにさまざまな防御メカニズムが開発されており、テキストの埋め込みモデルに基づく保護が基本的な防御として機能します。
テストを通じて、テキスト埋め込みモデルの出力の分布が大きな平均で大幅に偏っていることがわかります。
この観察に触発されて、テキストの埋め込みモデルを攻撃できる普遍的な魔法の言葉を検索するための新しい効率的な方法を提案します。
接尾辞としての普遍的な魔法の単語は、テキストの埋め込みをバイアス方向に移動できるため、テキストペアの類似性を操作し、保護策を誤解させます。
ユーザープロンプトに魔法の言葉を追加し、LLMに魔法の言葉で答えを終了するよう要求することにより、攻撃者はセーフガードを脱獄することができます。
このセキュリティリスクを根絶するために、このような攻撃に対する防衛メカニズムも提案します。これは、列車のない方法でテキスト埋め込みの偏った分布を修正することができます。

要約(オリジナル)

The security issue of large language models (LLMs) has gained significant attention recently, with various defense mechanisms developed to prevent harmful outputs, among which safeguards based on text embedding models serve as a fundamental defense. Through testing, we discover that the distribution of text embedding model outputs is significantly biased with a large mean. Inspired by this observation, we propose novel efficient methods to search for universal magic words that can attack text embedding models. The universal magic words as suffixes can move the embedding of any text towards the bias direction, therefore manipulate the similarity of any text pair and mislead safeguards. By appending magic words to user prompts and requiring LLMs to end answers with magic words, attackers can jailbreak the safeguard. To eradicate this security risk, we also propose defense mechanisms against such attacks, which can correct the biased distribution of text embeddings in a train-free manner.

arxiv情報

著者 Haoyu Liang,Youran Sun,Yunfeng Cai,Jun Zhu,Bo Zhang
発行日 2025-02-10 15:27:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.NE | Jailbreaking LLMs’ Safeguard with Universal Magic Words for Text Embedding Models はコメントを受け付けていません

Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation

要約

順次控除を含む1次ロジック(FOL)推論は、インテリジェントシステムにとって極めて重要であり、特に考え方(COT)コンテキストで、推論能力を評価するための貴重なタスクとして機能します。
既存のベンチマークは、多くの場合、広範な人間の注釈または手作りのテンプレートに依存しているため、堅牢な評価に必要な複雑さ、スケーラビリティ、多様性を実現することが困難です。
これらの制限に対処するために、大規模な言語モデル(LLM)の生成強度をシンボリックプロバーの厳密さと精度と相乗的に相乗するProvergenと呼ばれる新しいフレームワークを提案します。
Proverqa。
Proverqaは、各問題のアクセス可能で論理的に一貫性のある中間推論ステップを含めることによっても区別されます。
私たちの評価は、最先端のLLMSが、COTのプロンプトがあり、データセットの挑戦的な性質を強調している場合でも、Proverqaの問題を解決するのに苦労していることを示しています。
また、フレームワークによって生成された別のトレーニングセットにllama3.1-8b-instructを獲得します。
Finetunedモデルは、分散内および分散型テストセットの両方で一貫した改善を示し、提案されたデータ生成フレームワークの価値を示唆しています。
https://github.com/opendatalab/provergenで利用可能なコード

要約(オリジナル)

First-order logic (FOL) reasoning, which involves sequential deduction, is pivotal for intelligent systems and serves as a valuable task for evaluating reasoning capabilities, particularly in chain-of-thought (CoT) contexts. Existing benchmarks often rely on extensive human annotation or handcrafted templates, making it difficult to achieve the necessary complexity, scalability, and diversity for robust evaluation. To address these limitations, we propose a novel framework called ProverGen that synergizes the generative strengths of Large Language Models (LLMs) with the rigor and precision of symbolic provers, enabling the creation of a scalable, diverse, and high-quality FOL reasoning dataset, ProverQA. ProverQA is also distinguished by its inclusion of accessible and logically coherent intermediate reasoning steps for each problem. Our evaluation shows that state-of-the-art LLMs struggle to solve ProverQA problems, even with CoT prompting, highlighting the dataset’s challenging nature. We also finetune Llama3.1-8B-Instruct on a separate training set generated by our framework. The finetuned model demonstrates consistent improvements on both in-distribution and out-of-distribution test sets, suggesting the value of our proposed data generation framework. Code available at: https://github.com/opendatalab/ProverGen

arxiv情報

著者 Chengwen Qi,Ren Ma,Bowen Li,He Du,Binyuan Hui,Jinwang Wu,Yuanjun Laili,Conghui He
発行日 2025-02-10 15:31:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation はコメントを受け付けていません

LawGPT: Knowledge-Guided Data Generation and Its Application to Legal LLM

要約

独自およびオープンソースの両方である大規模な言語モデル(LLM)は、さまざまな自然言語処理タスクにわたって顕著な能力を実証しています。
しかし、彼らは法的推論のタスクに大きな制限に直面しています。
独自のモデルでは、データのプライバシーリスクと高い推論コストを導入しますが、法的ドメイントレーニングデータが不十分なため、オープンソースモデルがパフォーマンスが低下しています。
これらの制限に対処するために、独自のLLMSの助けを借りて、オープンソースLLMSの法的推論パフォーマンスを改善するために、法的推論のためにデータ生成を研究します。
これは、独自のLLMSに関する法的知識の欠如と、生成されたデータの検証の難しさのために困難です。
法的推論のための知識ガイド付きデータ生成フレームワークであるKGDGを提案します。
当社のフレームワークにより、法的知識を活用して生成の多様性を高め、生成されたデータの品質を確保するための改良と検証プロセスを導入できます。
さらに、生成されたデータセットを拡張して、LLMの推論機能をさらに強化します。
KGDGを使用して、50K高品質の例を含む合成法的推論データセットを作成します。
訓練されたモデルLawGPTは、既存の法的固有のLLMSを上回り、独自のLLMに匹敵するパフォーマンスを達成し、KGDGとLawGPTの有効性を実証します。
私たちのコードとリソースは、https://anonymous.4open.science/r/kgdg-45f5で公開されています。

要約(オリジナル)

Large language models (LLMs), both proprietary and open-source, have demonstrated remarkable capabilities across various natural language processing tasks. However, they face significant limitations in legal reasoning tasks. Proprietary models introduce data privacy risks and high inference costs, while open-source models underperform due to insufficient legal domain training data. To address these limitations, we study data generation for legal reasoning to improve the legal reasoning performance of open-source LLMs with the help of proprietary LLMs. This is challenging due to the lack of legal knowledge in proprietary LLMs and the difficulty in verifying the generated data. We propose KgDG, a knowledge-guided data generation framework for legal reasoning. Our framework enables leveraging legal knowledge to enhance generation diversity and introduces a refinement and verification process to ensure the quality of generated data. Moreover, we expand the generated dataset to further enhance the LLM reasoning capabilities. Using KgDG, we create a synthetic legal reasoning dataset containing 50K high-quality examples. Our trained model LawGPT outperforms existing legal-specific LLMs and achieves performance comparable to proprietary LLMs, demonstrating the effectiveness of KgDG and LawGPT. Our code and resources is publicly available at https://anonymous.4open.science/r/KgDG-45F5 .

arxiv情報

著者 Zhi Zhou,Kun-Yang Yu,Shi-Yu Tian,Jiang-Xin Shi,Xiao-Wen Yang,Pengxiao Song,Yi-Xuan Jin,Lan-Zhe Guo,Yu-Feng Li
発行日 2025-02-10 15:40:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | LawGPT: Knowledge-Guided Data Generation and Its Application to Legal LLM はコメントを受け付けていません

Generating Structured Outputs from Language Models: Benchmark and Studies

要約

構造化された出力を確実に生成することは、現代言語モデル(LM)アプリケーションにとって重要な機能になりました。
制約されたデコードは、生成中に構造化された出力を実施するためのセクター全体で支配的な技術として浮上しています。
採用の拡大にもかかわらず、制約されたデコードの行動とパフォーマンスの体系的な評価ではほとんど行われていません。
制約されたデコードフレームワークは、JSONスキーマを構造化されたデータ形式として標準化されており、ほとんどの用途はスキーマを与えられた制約コンプライアンスを保証します。
ただし、実際には方法の有効性についての理解が不十分です。
3つの重要な次元にわたって制約されたデコードアプローチを評価する評価フレームワークを提示します。制約に準拠した出力の生成効率、多様な制約タイプのカバレッジ、および生成された出力の品質です。
この評価を容易にするために、Jsonschemabenchを導入します。これは、さまざまな複雑さを伴う幅広い制約を含む10kの実世界のJSONスキーマを含む制約付きデコードのベンチマークです。
ベンチマークを既存の公式JSONスキーマテストスイートとペアにし、ガイダンス、アウトライン、ラマック、Xgrammar、Openai、Geminiなど、6つの最先端の制約付きデコードフレームワークを評価します。
広範な実験を通じて、実際のJSONスキーマを使用した構造化された生成の制約されたデコードの能力と制限に関する洞察を得ます。
私たちの仕事は、制約されたデコードフレームワークと構造化された生成タスクを改善するための実用的な洞察を提供し、制約されたデコードと構造化された生成を評価するための新しい基準を設定します。
https://github.com/guidance-ai/jsonschemabenchでjsonschemabenchをリリースします

要約(オリジナル)

Reliably generating structured outputs has become a critical capability for modern language model (LM) applications. Constrained decoding has emerged as the dominant technology across sectors for enforcing structured outputs during generation. Despite its growing adoption, little has been done with the systematic evaluation of the behaviors and performance of constrained decoding. Constrained decoding frameworks have standardized around JSON Schema as a structured data format, with most uses guaranteeing constraint compliance given a schema. However, there is poor understanding of the effectiveness of the methods in practice. We present an evaluation framework to assess constrained decoding approaches across three critical dimensions: efficiency in generating constraint-compliant outputs, coverage of diverse constraint types, and quality of the generated outputs. To facilitate this evaluation, we introduce JSONSchemaBench, a benchmark for constrained decoding comprising 10K real-world JSON schemas that encompass a wide range of constraints with varying complexity. We pair the benchmark with the existing official JSON Schema Test Suite and evaluate six state-of-the-art constrained decoding frameworks, including Guidance, Outlines, Llamacpp, XGrammar, OpenAI, and Gemini. Through extensive experiments, we gain insights into the capabilities and limitations of constrained decoding on structured generation with real-world JSON schemas. Our work provides actionable insights for improving constrained decoding frameworks and structured generation tasks, setting a new standard for evaluating constrained decoding and structured generation. We release JSONSchemaBench at https://github.com/guidance-ai/jsonschemabench

arxiv情報

著者 Saibo Geng,Hudson Cooper,Michał Moskal,Samuel Jenkins,Julian Berman,Nathan Ranchin,Robert West,Eric Horvitz,Harsha Nori
発行日 2025-02-10 15:41:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Generating Structured Outputs from Language Models: Benchmark and Studies はコメントを受け付けていません

Preserving Privacy in Large Language Models: A Survey on Current Threats and Solutions

要約

大規模な言語モデル(LLM)は、人工知能の大幅な進歩を表し、さまざまなドメインにわたってアプリケーションを見つけます。
ただし、トレーニング用の大規模なインターネットが設定したデータセットへの依存は、重要なドメイン(例:ヘルスケア)で悪化している顕著なプライバシーの問題をもたらします。
さらに、特定のアプリケーション固有のシナリオでは、プライベートデータでこれらのモデルを微調整する必要がある場合があります。
この調査では、LLMSに関連するプライバシーの脅威を批判的に検証し、これらのモデルが機密情報を暗記し、誤って明らかにする可能性を強調しています。
LLMSに対するプライバシー攻撃をレビューすることにより、現在の脅威を調査し、学習パイプライン全体にプライバシーメカニズムを統合するための包括的なソリューションを提案します。
これらのソリューションは、匿名のトレーニングデータセットから、トレーニング中のプライバシーの違いを実装したり、トレーニング後の推論やマシンの学習を実装したりすることにまで及びます。
既存の文献の包括的なレビューは、LLMSでプライバシーを維持するための継続的な課題、利用可能なツール、および将来の方向性を強調しています。
この作業の目的は、プライバシーの保存方法とリスクの緩和におけるそれらの有効性を完全に理解することにより、より安全で信頼できるAIシステムの開発を導くことです。

要約(オリジナル)

Large Language Models (LLMs) represent a significant advancement in artificial intelligence, finding applications across various domains. However, their reliance on massive internet-sourced datasets for training brings notable privacy issues, which are exacerbated in critical domains (e.g., healthcare). Moreover, certain application-specific scenarios may require fine-tuning these models on private data. This survey critically examines the privacy threats associated with LLMs, emphasizing the potential for these models to memorize and inadvertently reveal sensitive information. We explore current threats by reviewing privacy attacks on LLMs and propose comprehensive solutions for integrating privacy mechanisms throughout the entire learning pipeline. These solutions range from anonymizing training datasets to implementing differential privacy during training or inference and machine unlearning after training. Our comprehensive review of existing literature highlights ongoing challenges, available tools, and future directions for preserving privacy in LLMs. This work aims to guide the development of more secure and trustworthy AI systems by providing a thorough understanding of privacy preservation methods and their effectiveness in mitigating risks.

arxiv情報

著者 Michele Miranda,Elena Sofia Ruzzetti,Andrea Santilli,Fabio Massimo Zanzotto,Sébastien Bratières,Emanuele Rodolà
発行日 2025-02-10 15:42:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG | Preserving Privacy in Large Language Models: A Survey on Current Threats and Solutions はコメントを受け付けていません

Hephaestus: Improving Fundamental Agent Capabilities of Large Language Models through Continual Pre-Training

要約

エージェント指向の事前トレーニングデータが不足しているため、LLMベースの自律剤は通常、複雑な促進または広範な微調整に依存しています。
API関数呼び出し、本質的な推論と計画、および環境フィードバックへの適応におけるLLMエージェントの基本能力を強化するように設計された最初の大規模なトレーニング前コーパスであるHephaestus-Forgeを紹介します。
Hephaestus-forgeは、API関数の知識を導入するためのツールドキュメントと、本質的な推論を強化するための軌跡を呼び出す関数の両方のツールドキュメントを含む、76,537のAPIを含む103Bエージェント固有のデータで構成されています。
効果的なトレーニングプロトコルを調査するために、スケーリング法則を調査して、データ混合比の最適なレシピを特定します。
ヘファエストスフォージの継続的な事前トレーニングにより、ヘファーストスは3つのエージェントベンチマークで小規模から中規模のオープンソースLLMSを上回り、コマーシャルLLMSを上回り、トレーニング前のコーパスの有効性を実証しました。
新しいタスクまたは環境。

要約(オリジナル)

Due to the scarcity of agent-oriented pre-training data, LLM-based autonomous agents typically rely on complex prompting or extensive fine-tuning, which often fails to introduce new capabilities while preserving strong generalizability. We introduce Hephaestus-Forge, the first large-scale pre-training corpus designed to enhance the fundamental capabilities of LLM agents in API function calling, intrinsic reasoning and planning, and adapting to environmental feedback. Hephaestus-Forge comprises 103B agent-specific data encompassing 76,537 APIs, including both tool documentation to introduce knowledge of API functions and function calling trajectories to strengthen intrinsic reasoning. To explore effective training protocols, we investigate scaling laws to identify the optimal recipe in data mixing ratios. By continual pre-training on Hephaestus-Forge, Hephaestus outperforms small- to medium-scale open-source LLMs and rivals commercial LLMs on three agent benchmarks, demonstrating the effectiveness of our pre-training corpus in enhancing fundamental agentic capabilities and generalization of LLMs to new tasks or environments.

arxiv情報

著者 Yuchen Zhuang,Jingfeng Yang,Haoming Jiang,Xin Liu,Kewei Cheng,Sanket Lokegaonkar,Yifan Gao,Qing Ping,Tianyi Liu,Binxuan Huang,Zheng Li,Zhengyang Wang,Pei Chen,Ruijie Wang,Rongzhi Zhang,Nasser Zalmout,Priyanka Nigam,Bing Yin,Chao Zhang
発行日 2025-02-10 15:54:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Hephaestus: Improving Fundamental Agent Capabilities of Large Language Models through Continual Pre-Training はコメントを受け付けていません

Evaluation of Multilingual Image Captioning: How far can we get with CLIP models?

要約

言語の流encyさと視覚コンテンツへのセマンティック対応の両方を見ると、画像キャプションの評価は、かなりの努力を目撃しました。
それでも、クリップスコアメトリックなどの進歩にもかかわらず、多言語キャプション評価は比較的未開拓のままです。
この作業では、多言語設定でのクリップススコアバリアントの評価に関連するいくつかの戦略と広範な実験を提示します。
多言語テストデータの欠如に対処するために、2つの異なる戦略を検討します。(1)人間の判断を伴う品質認識マシン翻訳データセットを使用し、(2)セマンティック推論と推論をターゲットにする多言語データセットを再利用することを検討します。
私たちの結果は、言語間で一般化し、複雑な言語的課題に対処するための微調ューされた多言語モデルの可能性を強調しています。
機械翻訳データを使用したテストは、多言語のクリップススコアモデルが異なる言語にわたる人間の判断と高い相関を維持できることを示しており、ネイティブな多言語および多文化データを使用した追加のテストは、高品質の評価をさらに認めています。

要約(オリジナル)

The evaluation of image captions, looking at both linguistic fluency and semantic correspondence to visual contents, has witnessed a significant effort. Still, despite advancements such as the CLIPScore metric, multilingual captioning evaluation has remained relatively unexplored. This work presents several strategies, and extensive experiments, related to evaluating CLIPScore variants in multilingual settings. To address the lack of multilingual test data, we consider two different strategies: (1) using quality aware machine-translated datasets with human judgements, and (2) re-purposing multilingual datasets that target semantic inference and reasoning. Our results highlight the potential of finetuned multilingual models to generalize across languages and to handle complex linguistic challenges. Tests with machine-translated data show that multilingual CLIPScore models can maintain a high correlation with human judgements across different languages, and additional tests with natively multilingual and multicultural data further attest to the high-quality assessments.

arxiv情報

著者 Gonçalo Gomes,Chrysoula Zerva,Bruno Martins
発行日 2025-02-10 16:00:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? はコメントを受け付けていません

Do we really have to filter out random noise in pre-training data for language models?

要約

Webスケールの事前トレーニングデータセットは、LLMSの成功の基礎です。
ただし、インターネットからキュレーションされたテキストデータには、デコードエラーまたは規制されていないWebコンテンツによって引き起こされるランダムノイズが必然的に含まれています。
低品質または合成データに焦点を当てた以前の作品とは対照的に、我々の研究\ textBf {は、まとまりのある「What-How」フレームワークを介してそのようなランダムノイズの最初の体系的な調査を提供します。
次のトークン予測(NTP)の損失の増加は、ランダムノイズの割合よりも大幅に低かった。
この現象の理論的正当化を提供します。これは、多言語モデルの成功も解明します。
一方、実験は、下流タスクでのモデルのパフォーマンスがNTP損失のみに基づいていないことを示しています。つまり、ランダムノイズは下流のパフォーマンスが低下する可能性があります。
潜在的な悪影響に対処するために、モデルのパラメーターの知識を必要とせずに正常および乱れた機能の勾配を整列させることにより、下流タスクヘッドの除去能力を明示的に強化する新しいプラグアンドプレイ局所勾配マッチング損失を導入します。
8つの言語と14のビジョンベンチマークに関する追加の実験は、その有効性をさらに検証します。

要約(オリジナル)

Web-scale pre-training datasets are the cornerstone of LLMs’ success. However, text data curated from the internet inevitably contains random noise caused by decoding errors or unregulated web content. In contrast to previous works that focus on low quality or synthetic data, our study \textbf{provides the first systematic investigation into such random noise through a cohesive “What-Why-How” framework.} Surprisingly, we observed that the resulting increase in next-token prediction (NTP) loss was significantly lower than the proportion of random noise. We provide a theoretical justification for this phenomenon, which also elucidates the success of multilingual models. On the other hand, experiments show that the model’s performance in downstream tasks is not based solely on the NTP loss, which means that random noise may result in degraded downstream performance. To address the potential adverse effects, we introduce a novel plug-and-play Local Gradient Matching loss, which explicitly enhances the denoising capability of the downstream task head by aligning the gradient of normal and perturbed features without requiring knowledge of the model’s parameters. Additional experiments on 8 language and 14 vision benchmarks further validate its effectiveness.

arxiv情報

著者 Jinghan Ru,Yuxin Xie,Xianwei Zhuang,Yuguo Yin,Yuexian Zou
発行日 2025-02-10 16:01:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Do we really have to filter out random noise in pre-training data for language models? はコメントを受け付けていません