Efficient Zero-Order Federated Finetuning of Language Models for Resource-Constrained Devices

要約

Federated Fine-Tuningは、データプライバシーを維持しながら、エッジデバイスで大規模な言語モデル(LLM)を調整するための有望なアプローチを提供します。
ただし、これらのモデルをエッジデバイスで微調整すると、メモリ、通信、計算の需要が高いため、依然として困難なままです。
タスクアライメントを使用したゼロオーダー最適化は、潜在的なソリューションを提供し、推論レベルのメモリ要件で微調整を可能にしますが、より長い収束時間が必要です。
このホワイトペーパーでは、ネットワークを2つのブロックに分割するフェデレートスプリット摂動ゼロオーダー最適化(FEDSPZO)を提案し、ブロックごとに異なる数の摂動を計算上効果的な方法で適用し、より速い収束を達成します。
私たちの評価は、連邦学習におけるゼロオーダー最先端のテクニックと比較して、2.5〜7回の計算オーバーヘッドの$削減を示しています。

要約(オリジナル)

Federated fine-tuning offers a promising approach for tuning Large Language Models (LLMs) on edge devices while preserving data privacy. However, fine-tuning these models on edge devices remains challenging due to high memory, communication, and computational demands. Zero-order optimization with task alignment provides a potential solution, enabling fine-tuning with inference-level memory requirements but requires a longer convergence time. In this paper, we propose Federated Split-Perturbation Zero-order Optimization (FedSPZO) that divides the network into two blocks, applying a different number of perturbations per block in a computationally effective way, achieving faster convergence. Our evaluation shows a $2.5 – 7\times $ reduction in computation overhead compared to zero-order state of the art techniques in federated learning.

arxiv情報

著者 Mohamed Aboelenien Ahmed,Kilian Pfeiffer,Ramin Khalili,Heba Khdr,Jörg Henkel
発行日 2025-02-14 15:49:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Efficient Zero-Order Federated Finetuning of Language Models for Resource-Constrained Devices はコメントを受け付けていません

Strada-LLM: Graph LLM for traffic prediction

要約

トラフィック予測は、インテリジェント輸送システムの重要なコンポーネントです。
空間的および時間的次元の両方のトラフィックパターンについて推論することにより、正確で解釈可能な予測を提供できます。
交通予測のかなりの課題は、異なる場所で発生する大幅に異なる交通条件によって引き起こされる多様なデータ分布を処理することにあります。
LLMは、ラベル付けされたデータサンプル、つまり少ないショットの適応性を持つ新しいデータセットに適応する顕著な能力により、支配的なソリューションでした。
ただし、既存の予測手法は、主にローカルグラフ情報の抽出とテキストのようなプロンプトの形成に焦点を当てており、LLMベースのトラフィック予測をオープンな問題にしています。
この作業は、3つのハイライトを備えたトラフィック予測の確率的LLMを提示します。
近位の交通情報を考慮するトラフィック予測のために、グラフ認識LLMを提案します。
具体的には、隣接するノードのトラフィックを共変量と見なすことにより、モデルは対応する時系列LLMよりも優れています。
さらに、新しいデータ分布が少ない方法で直面している場合、効率的なドメイン適応のために軽量アプローチを採用しています。
比較実験は、提案された方法が最先端のLLMベースの方法と従来のGNNベースの監視されたアプローチを上回ることを示しています。
さらに、Strada-llmは、顕著なパフォーマンス低下なしに、異なるLLMバックボーンに簡単に適合できます。

要約(オリジナル)

Traffic prediction is a vital component of intelligent transportation systems. By reasoning about traffic patterns in both the spatial and temporal dimensions, accurate and interpretable predictions can be provided. A considerable challenge in traffic prediction lies in handling the diverse data distributions caused by vastly different traffic conditions occurring at different locations. LLMs have been a dominant solution due to their remarkable capacity to adapt to new datasets with very few labeled data samples, i.e., few-shot adaptability. However, existing forecasting techniques mainly focus on extracting local graph information and forming a text-like prompt, leaving LLM- based traffic prediction an open problem. This work presents a probabilistic LLM for traffic forecasting with three highlights. We propose a graph-aware LLM for traffic prediction that considers proximal traffic information. Specifically, by considering the traffic of neighboring nodes as covariates, our model outperforms the corresponding time-series LLM. Furthermore, we adopt a lightweight approach for efficient domain adaptation when facing new data distributions in few-shot fashion. The comparative experiment demonstrates the proposed method outperforms the state-of-the-art LLM-based methods and the traditional GNN- based supervised approaches. Furthermore, Strada-LLM can be easily adapted to different LLM backbones without a noticeable performance drop.

arxiv情報

著者 Seyed Mohamad Moghadas,Yangxintong Lyu,Bruno Cornelis,Alexandre Alahi,Adrian Munteanu
発行日 2025-02-14 16:09:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Strada-LLM: Graph LLM for traffic prediction はコメントを受け付けていません

Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers

要約

研究論文でデータがどのように言及され、使用されるかを追跡することで、データの発見可能性、品質、および生産を改善するための重要な洞察が得られます。
ただし、データセットの言及を手動で識別して分類することは、膨大な学術文献全体でリソース集中的であり、スケーラブルではありません。
このペーパーでは、大規模な言語モデル(LLM)、合成データ、および2段階の微調整プロセスを活用することにより、研究ドメイン全体でデータセットに言及する検出を自動化する機械学習フレームワークを紹介します。
私たちは、研究論文からのゼロショット抽出、質の高い評価のためにLLMとしてのJudge、および洗練された監視の合成データセットを生成するための推論エージェントを採用しています。
Phi-3.5-mini instruceモデルは、このデータセットで事前に調整されており、その後、手動で注釈付きのサブセットで微調整されます。
推論では、Modernbertベースの分類器がデータセットの言及を効率的にフィルターし、高いリコールを維持しながら計算オーバーヘッドを削減します。
保有された手動で注釈付きのサンプルで評価された微調整モデルは、データセット抽出精度でnuextract-v1.5とグリーナーラージ-v2.1を上回ります。
私たちの結果は、LLM生成された合成データがトレーニングデータの不足を効果的に対処し、低リソースの設定で一般化を改善する方法を強調しています。
このフレームワークは、データギャップを特定し、情報に基づいた意思決定のためのデータアクセシビリティを強化する際に、データセットの使用、透明性の向上、サポート研究者、資金提供者、および政策立案者のスケーラブルな監視に向けた経路を提供します。

要約(オリジナル)

Tracking how data is mentioned and used in research papers provides critical insights for improving data discoverability, quality, and production. However, manually identifying and classifying dataset mentions across vast academic literature is resource-intensive and not scalable. This paper presents a machine learning framework that automates dataset mention detection across research domains by leveraging large language models (LLMs), synthetic data, and a two-stage fine-tuning process. We employ zero-shot extraction from research papers, an LLM-as-a-Judge for quality assessment, and a reasoning agent for refinement to generate a weakly supervised synthetic dataset. The Phi-3.5-mini instruct model is pre-fine-tuned on this dataset, followed by fine-tuning on a manually annotated subset. At inference, a ModernBERT-based classifier efficiently filters dataset mentions, reducing computational overhead while maintaining high recall. Evaluated on a held-out manually annotated sample, our fine-tuned model outperforms NuExtract-v1.5 and GLiNER-large-v2.1 in dataset extraction accuracy. Our results highlight how LLM-generated synthetic data can effectively address training data scarcity, improving generalization in low-resource settings. This framework offers a pathway toward scalable monitoring of dataset usage, enhancing transparency, and supporting researchers, funders, and policymakers in identifying data gaps and strengthening data accessibility for informed decision-making.

arxiv情報

著者 Aivin V. Solatorio,Rafael Macalaba,James Liounis
発行日 2025-02-14 16:16:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.DB, cs.LG | Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers はコメントを受け付けていません

Are Large Language Models the future crowd workers of Linguistics?

要約

人間の参加者からのデータの引き出しは、経験的言語研究で使用されるコアデータ収集戦略の1つです。
このような研究の参加者の量は、ほんの一握りからクラウドソーシングの次元までの範囲で異なる場合があります。
彼らが機知に富んだ広範なデータを提供したとしても、これらの設定は両方とも、タスクの完了時の参加者の注意の低い制御、クラウドソーシング環境での不安定な労働条件、時間のかかる実験設計など、多くの欠点と並行しています。
これらの理由により、この研究は、経験的な言語パイプラインに含まれる場合、大規模な言語モデル(LLM)がそれらの障害を克服できるかどうかの問題に答えることを目的としています。
この問題を明確にするために、2つの繁殖ケーススタディが実施されています。Cruz(2023)とLombard et al。
(2021)。
もともと人間の参加者向けに設計された2つの強制誘発タスクは、OpenAIのGPT-4O-MINIモデルの助けを借りて提案されたフレームワークで再現されています。
ゼロショットプロンプトのベースラインでのパフォーマンスは、LLMSの有効性と高い汎用性を示しています。これは、言語タスクで人間の情報提供者よりも優れている傾向があります。
2番目の複製の結果は、2回目のフォローアップ実験では、クリティカルアイテムとフィラーアイテムの両方の人間のパフォーマンスに対するより高い整合性を示している、チェーンオブ思考(COT)プロンプトなど、追加のプロンプト技術を探索する必要性をさらに強調しています。

この研究の規模が限られていることを考えると、経験的言語学および人文科学の他の将来のアプリケーションでのLLMのパフォーマンスをさらに調査する価値があります。

要約(オリジナル)

Data elicitation from human participants is one of the core data collection strategies used in empirical linguistic research. The amount of participants in such studies may vary considerably, ranging from a handful to crowdsourcing dimensions. Even if they provide resourceful extensive data, both of these settings come alongside many disadvantages, such as low control of participants’ attention during task completion, precarious working conditions in crowdsourcing environments, and time-consuming experimental designs. For these reasons, this research aims to answer the question of whether Large Language Models (LLMs) may overcome those obstacles if included in empirical linguistic pipelines. Two reproduction case studies are conducted to gain clarity into this matter: Cruz (2023) and Lombard et al. (2021). The two forced elicitation tasks, originally designed for human participants, are reproduced in the proposed framework with the help of OpenAI’s GPT-4o-mini model. Its performance with our zero-shot prompting baseline shows the effectiveness and high versatility of LLMs, that tend to outperform human informants in linguistic tasks. The findings of the second replication further highlight the need to explore additional prompting techniques, such as Chain-of-Thought (CoT) prompting, which, in a second follow-up experiment, demonstrates higher alignment to human performance on both critical and filler items. Given the limited scale of this study, it is worthwhile to further explore the performance of LLMs in empirical Linguistics and in other future applications in the humanities.

arxiv情報

著者 Iris Ferrazzo
発行日 2025-02-14 16:23:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Are Large Language Models the future crowd workers of Linguistics? はコメントを受け付けていません

MeNTi: Bridging Medical Calculator and LLM Agent with Nested Tool Calling

要約

ツールを大規模な言語モデル(LLMS)に統合することで、広範なアプリケーションが容易になりました。
それにもかかわらず、専門のダウンストリームタスクのコンテキストでは、ツールのみへの依存は、現実世界の複雑さに完全に対処するには不十分です。
これにより、医学などの分野でのLLMの効果的な展開が特に制限されています。
この論文では、標準化されたテストを使用して個人の健康状態を評価する医療計算機の下流タスクに焦点を当てています。
LLMSのユニバーサルエージェントアーキテクチャであるMentiを紹介します。
Mentiは、専門の医療ツールキットを統合し、LLMツールの利用を強化するためにメタツールおよびネストされた呼び出しメカニズムを採用しています。
具体的には、計算機の選択、スロット充填、ユニット変換など、複雑な医療シナリオで直面する実際的な問題に対処するための柔軟なツール選択とネストされたツール呼び出しを実現します。
計算機シナリオの臨床プロセス全体で定量的評価のためのLLMSの機能を評価するために、CalcqAを紹介します。
このベンチマークでは、LLMが医療計算機を使用して計算を実行し、患者の健康状態を評価する必要があります。
Calcqaは専門医によって構築されており、281の医療ツールのツールキットで補完された100の症例計算因子ペアが含まれています。
実験結果は、フレームワークで大幅なパフォーマンスの改善を示しています。
この研究は、医学の要求の厳しいシナリオにLLMを適用するための新しい方向性を舗装しています。

要約(オリジナル)

Integrating tools into Large Language Models (LLMs) has facilitated the widespread application. Despite this, in specialized downstream task contexts, reliance solely on tools is insufficient to fully address the complexities of the real world. This particularly restricts the effective deployment of LLMs in fields such as medicine. In this paper, we focus on the downstream tasks of medical calculators, which use standardized tests to assess an individual’s health status. We introduce MeNTi, a universal agent architecture for LLMs. MeNTi integrates a specialized medical toolkit and employs meta-tool and nested calling mechanisms to enhance LLM tool utilization. Specifically, it achieves flexible tool selection and nested tool calling to address practical issues faced in intricate medical scenarios, including calculator selection, slot filling, and unit conversion. To assess the capabilities of LLMs for quantitative assessment throughout the clinical process of calculator scenarios, we introduce CalcQA. This benchmark requires LLMs to use medical calculators to perform calculations and assess patient health status. CalcQA is constructed by professional physicians and includes 100 case-calculator pairs, complemented by a toolkit of 281 medical tools. The experimental results demonstrate significant performance improvements with our framework. This research paves new directions for applying LLMs in demanding scenarios of medicine.

arxiv情報

著者 Yakun Zhu,Shaohang Wei,Xu Wang,Kui Xue,Xiaofan Zhang,Shaoting Zhang
発行日 2025-02-14 16:27:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | MeNTi: Bridging Medical Calculator and LLM Agent with Nested Tool Calling はコメントを受け付けていません

SequentialBreak: Large Language Models Can be Fooled by Embedding Jailbreak Prompts into Sequential Prompt Chains

要約

大規模な言語モデル(LLMS)がさまざまなアプリケーションに統合されると、誤用の感受性も増加すると、重大なセキュリティ上の懸念が高まります。
LLMSのセキュリティ防衛を評価するために、多数の脱獄攻撃が提案されています。
現在の脱獄攻撃は、主にシナリオカモフラージュ、迅速な難読化、迅速な最適化、および悪意のあるプロンプトを隠すための迅速な反復最適化に依存しています。
特に、単一のクエリのシーケンシャルプロンプトチェーンは、LLMSが特定のプロンプトに焦点を合わせながら、他のプロンプトを無視し、コンテキスト操作を促進する可能性があります。
このペーパーでは、この脆弱性を活用する新しい脱獄攻撃であるシーケンシャルブレイクを紹介します。
質問バンク、ダイアログの完了、ゲーム環境などの例に限定されないいくつかのシナリオについて説明します。ここでは、有害なプロンプトがLLMSをだまして有害な応答を生成できるように埋め込まれています。
これらのシナリオの明確な物語構造は、シーケンシャルブレイクが議論されているものを超えたさまざまな迅速な形式に適応するのに十分な柔軟性があることを示しています。
広範な実験では、SequentialBreakが1つのクエリのみを使用して、オープンソースモデルとクローズドソースモデルの両方に対して既存のベースラインにわたって攻撃成功率の大幅なゲインを達成することを示しています。
私たちの研究を通じて、LLMのセキュリティを強化し、潜在的な誤用を防ぐために、より堅牢で回復力のある保護手段の緊急の必要性を強調しています。
この調査に関連付けられたすべての結果ファイルとWebサイトは、このGitHubリポジトリで入手できます:https://anonymous.4open.science/r/jail Breakatcack-4f3b/。

要約(オリジナル)

As the integration of the Large Language Models (LLMs) into various applications increases, so does their susceptibility to misuse, raising significant security concerns. Numerous jailbreak attacks have been proposed to assess the security defense of LLMs. Current jailbreak attacks mainly rely on scenario camouflage, prompt obfuscation, prompt optimization, and prompt iterative optimization to conceal malicious prompts. In particular, sequential prompt chains in a single query can lead LLMs to focus on certain prompts while ignoring others, facilitating context manipulation. This paper introduces SequentialBreak, a novel jailbreak attack that exploits this vulnerability. We discuss several scenarios, not limited to examples like Question Bank, Dialog Completion, and Game Environment, where the harmful prompt is embedded within benign ones that can fool LLMs into generating harmful responses. The distinct narrative structures of these scenarios show that SequentialBreak is flexible enough to adapt to various prompt formats beyond those discussed. Extensive experiments demonstrate that SequentialBreak uses only a single query to achieve a substantial gain of attack success rate over existing baselines against both open-source and closed-source models. Through our research, we highlight the urgent need for more robust and resilient safeguards to enhance LLM security and prevent potential misuse. All the result files and website associated with this research are available in this GitHub repository: https://anonymous.4open.science/r/JailBreakAttack-4F3B/.

arxiv情報

著者 Bijoy Ahmed Saiem,MD Sadik Hossain Shanto,Rakib Ahsan,Md Rafi ur Rashid
発行日 2025-02-14 16:32:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG | SequentialBreak: Large Language Models Can be Fooled by Embedding Jailbreak Prompts into Sequential Prompt Chains はコメントを受け付けていません

EnigmaEval: A Benchmark of Long Multimodal Reasoning Challenges

要約

言語モデルが既存の推論ベンチマークをマスターするため、認知フロンティアを評価するための新しい課題が必要です。
パズル解決イベントは、幅広い高度な推論と知識機能をテストする挑戦的なマルチモーダル問題の豊富なリポジトリであり、フロンティア言語モデルを評価するためのユニークなテストベッドになります。
エニグマーバルを紹介します。これは、暗黙の知識統合とマルチステップの演ductiveな推論を実行するモデルの能力を調査するパズル競争とイベントから派生した問題と解決策のデータセットです。
既存の推論や知識のベンチマークとは異なり、パズル解決課題モデルは、一見無関係な情報の間の隠されたつながりを発見し、ソリューションパスを明らかにします。
ベンチマークは、さまざまな複雑さの1184のパズルで構成されています。それぞれが通常、熟練したソルバーのチームが完了するのに数日から数日までのチームを必要とします – 効率的な評価を可能にする明確で検証可能なソリューションを使用します。
最先端の言語モデルは、人類の最後の試験など、他の困難なベンチマークよりもさらに低いこれらのパズルで非常に低い精度を達成し、構造化されていないおよび横方向の推論を必要とする問題に挑戦した場合のモデルの欠点を明らかにします。

要約(オリジナル)

As language models master existing reasoning benchmarks, we need new challenges to evaluate their cognitive frontiers. Puzzle-solving events are rich repositories of challenging multimodal problems that test a wide range of advanced reasoning and knowledge capabilities, making them a unique testbed for evaluating frontier language models. We introduce EnigmaEval, a dataset of problems and solutions derived from puzzle competitions and events that probes models’ ability to perform implicit knowledge synthesis and multi-step deductive reasoning. Unlike existing reasoning and knowledge benchmarks, puzzle solving challenges models to discover hidden connections between seemingly unrelated pieces of information to uncover solution paths. The benchmark comprises 1184 puzzles of varying complexity — each typically requiring teams of skilled solvers hours to days to complete — with unambiguous, verifiable solutions that enable efficient evaluation. State-of-the-art language models achieve extremely low accuracy on these puzzles, even lower than other difficult benchmarks such as Humanity’s Last Exam, unveiling models’ shortcomings when challenged with problems requiring unstructured and lateral reasoning.

arxiv情報

著者 Clinton J. Wang,Dean Lee,Cristina Menghini,Johannes Mols,Jack Doughty,Adam Khoja,Jayson Lynch,Sean Hendryx,Summer Yue,Dan Hendrycks
発行日 2025-02-14 16:40:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | EnigmaEval: A Benchmark of Long Multimodal Reasoning Challenges はコメントを受け付けていません

A Hybrid Cross-Stage Coordination Pre-ranking Model for Online Recommendation Systems

要約

大規模な推奨システムは、多くの場合、検索、事前ランク、ランキング、および再ランクの段階で構成されるカスケードアーキテクチャを採用しています。
厳密な遅延要件により、事前ランクは軽量モデルを利用して、大規模な回収された候補者からの予備的な選択を実行します。
ただし、最近の研究は、下流の段階にのみ依存して、ランキングとの一貫性の向上にのみ焦点を当てています。
ダウンストリーム入力は事前ランク出力から派生しているため、サンプル選択バイアス(SSB)の問題とマシュー効果を悪化させ、最適な結果をもたらします。
制限に対処するために、上流(検索)および下流(ランキング、再ランキング)段階から情報を統合するための新しいハイブリッドクロスステージ調整前(HCCP)を提案します。
具体的には、クロスステージの調整とは、ストリーム全体に対する事前ランクの適応性と、上流と下流の間のより効果的な橋として機能することの役割を指します。
HCCPは、ハイブリッドサンプル構造とハイブリッドの目的最適化で構成されています。
ハイブリッドサンプル構造は、ストリーム全体からマルチレベルの非露出データをキャプチャし、それらを再配置して、事前ランク学習のための最適なガイド「グラウンドトゥルース」になります。
ハイブリッド目標の最適化には、提案されたマージンインフォンセ損失を通じて、一貫性と長期尾の精度の共同最適化が含まれています。
このようなハイブリッドの非露出サンプルから学習し、全体的なパフォーマンスを改善し、SSBの問題を軽減するように特別に設計されています。
付録では、潜在的な陽性を選択する際の提案された損失の有効性の証拠について説明しています。
オフラインおよびオンラインの広範な実験は、HCCPがクロスステージの調整を改善することによりSOTAメソッドを上回ることを示しています。
JD Eコマース推奨システムでは、最大14.9%のUCVRと1.3%のUCTRに寄与します。
コードプライバシーに関しては、参照用の擬似コードを提供します。

要約(オリジナル)

Large-scale recommendation systems often adopt cascading architecture consisting of retrieval, pre-ranking, ranking, and re-ranking stages. With strict latency requirements, pre-ranking utilizes lightweight models to perform a preliminary selection from massive retrieved candidates. However, recent works focus solely on improving consistency with ranking, relying exclusively on downstream stages. Since downstream input is derived from the pre-ranking output, they will exacerbate the sample selection bias (SSB) issue and Matthew effect, leading to sub-optimal results. To address the limitation, we propose a novel Hybrid Cross-Stage Coordination Pre-ranking model (HCCP) to integrate information from upstream (retrieval) and downstream (ranking, re-ranking) stages. Specifically, cross-stage coordination refers to the pre-ranking’s adaptability to the entire stream and the role of serving as a more effective bridge between upstream and downstream. HCCP consists of Hybrid Sample Construction and Hybrid Objective Optimization. Hybrid sample construction captures multi-level unexposed data from the entire stream and rearranges them to become the optimal guiding ‘ground truth’ for pre-ranking learning. Hybrid objective optimization contains the joint optimization of consistency and long-tail precision through our proposed Margin InfoNCE loss. It is specifically designed to learn from such hybrid unexposed samples, improving the overall performance and mitigating the SSB issue. The appendix describes a proof of the efficacy of the proposed loss in selecting potential positives. Extensive offline and online experiments indicate that HCCP outperforms SOTA methods by improving cross-stage coordination. It contributes up to 14.9% UCVR and 1.3% UCTR in the JD E-commerce recommendation system. Concerning code privacy, we provide a pseudocode for reference.

arxiv情報

著者 Binglei Zhao,Houying Qi,Guang Xu,Mian Ma,Xiwei Zhao,Feng Mei,Sulong Xu,Jinghe Hu
発行日 2025-02-14 16:42:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | A Hybrid Cross-Stage Coordination Pre-ranking Model for Online Recommendation Systems はコメントを受け付けていません

Programming Every Example: Lifting Pre-training Data Quality Like Experts at Scale

要約

大規模な言語モデルの事前トレーニングは、従来、人間の専門家に依存して、コーパスの品質を改善するためにヒューリスティックを作成するために依存しており、これまでに開発された多くのルールが生まれました。
ただし、これらのルールには、個々の例のユニークな特性に効果的に対処する柔軟性がありません。
一方、すべての例にカスタマイズされたルールを適用することは、人間の専門家にとっては非現実的です。
この論文では、わずか0.3bパラメーターを持つ小さな言語モデルでさえ、人間の専門家に匹敵するかなりのデータ洗練機能を示すことができることを実証します。
データの改良をプログラミングタスクとして扱う新しいフレームワークであるすべての例(Prox)を導入し、個々の例ごとの個々の例について、文字列正規化などの微粒操作を生成および実行することにより、モデルがコーパスを改良できるようにします。
実験結果は、プロックスキュレーションデータで事前に訓練されたモデルが、さまざまな下流のベンチマークで他の選択方法によってフィルタリングされた元のデータまたは他の選択方法によってフィルタリングされたデータよりも優れていることを示しています。
その有効性は、C4、Redpajama-V2、FineWeb、FineWeb-Edu、DCLMなど、さまざまなモデルサイズと事前トレーニングコーパスに及びます。
さらに、プロックスは、ドメイン固有の継続的なトレーニングで有意な可能性を示します。ドメイン固有のデザインなしでは、プロックスが人間が作成したルールベースの方法を上回るOpenWebMathで訓練されたモデルは、Mistral-7Bより7.6%、14.6%で平均精度を改善します。
Llama-2-7BおよびCodellama-7Bの20.3%の場合、すべて10Bトークン以内のLLEMMA-7Bなどのモデルに匹敵する200bトークンで訓練されています。
さらなる分析では、プロックスがトレーニングフロップを大幅に節約し、効率的なLLMプリトレーニングのための有望なパスを提供することを強調しています。
私たちは、500Bを超えるコーパス、モデルを備えたオープンソーシングプロックス、再現可能な研究と将来のイノベーションのためのすべてのトレーニングと実装の詳細を共有しています。
コード:https://github.com/gair-nlp/prox

要約(オリジナル)

Large language model pre-training has traditionally relied on human experts to craft heuristics for improving the corpora quality, resulting in numerous rules developed to date. However, these rules lack the flexibility to address the unique characteristics of individual example effectively. Meanwhile, applying tailored rules to every example is impractical for human experts. In this paper, we demonstrate that even small language models, with as few as 0.3B parameters, can exhibit substantial data refining capabilities comparable to those of human experts. We introduce Programming Every Example (ProX), a novel framework that treats data refinement as a programming task, enabling models to refine corpora by generating and executing fine-grained operations, such as string normalization, for each individual example at scale. Experimental results show that models pre-trained on ProX-curated data outperform either original data or data filtered by other selection methods by more than 2% across various downstream benchmarks. Its effectiveness spans various model sizes and pre-training corpora, including C4, RedPajama-V2, FineWeb, FineWeb-Edu, and DCLM. Furthermore, ProX exhibits significant potential in domain-specific continual pre-training: without domain specific design, models trained on OpenWebMath refined by ProX outperform human-crafted rule-based methods, improving average accuracy by 7.6% over Mistral-7B, with 14.6% for Llama-2-7B and 20.3% for CodeLlama-7B, all within 10B tokens to be comparable to models like Llemma-7B trained on 200B tokens. Further analysis highlights that ProX significantly saves training FLOPs, offering a promising path for efficient LLM pre-training. We are open-sourcing ProX with >500B corpus, models, and sharing all training and implementation details for reproducible research and future innovation. Code: https://github.com/GAIR-NLP/ProX

arxiv情報

著者 Fan Zhou,Zengzhi Wang,Qian Liu,Junlong Li,Pengfei Liu
発行日 2025-02-14 16:44:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Programming Every Example: Lifting Pre-training Data Quality Like Experts at Scale はコメントを受け付けていません

Reinforcement Learning in Strategy-Based and Atari Games: A Review of Google DeepMinds Innovations

要約

Rehnection Learning(RL)は、AIモデルの優れたトレーニンググラウンドとして機能する多くのアプリケーション、特にゲームで広く使用されています。
Google Deepmindは、この分野のイノベーションを開拓し、モデルベース、モデルフリー、ディープQネットワークアプローチを含む強化学習アルゴリズムを採用して、Alphago、Alphago Zero、Muzeroなどの高度なAIモデルを作成します。
初期モデルであるAlphagoは、監督された学習と強化学習を統合して、プロの人間のプレイヤーを上回り、GOのゲームを習得します。
Alphago Zeroは、人間のゲームプレイデータへの依存を排除​​することにより、このアプローチを改良し、代わりに学習効率を向上させるために自己プレイを利用します。
Muzeroは、ルールの明示的な知識なしにゲーム環境の基礎となるダイナミクスを学習し、複雑なAtariゲームを含むさまざまなゲームで適応性を達成することにより、これらの進歩をさらに拡張します。
このペーパーでは、Atariおよび戦略ベースのゲームでの強化学習アプリケーションの重要性をレビューし、これら3つのモデル、その主要な革新、トレーニングプロセス、遭遇した課題、および改善を分析します。
さらに、MinizeroやMulti-Agentモデルなど、ゲームの分野での進歩について説明し、Google Deepmindの将来の方向性と新興AIモデルを強調しています。

要約(オリジナル)

Reinforcement Learning (RL) has been widely used in many applications, particularly in gaming, which serves as an excellent training ground for AI models. Google DeepMind has pioneered innovations in this field, employing reinforcement learning algorithms, including model-based, model-free, and deep Q-network approaches, to create advanced AI models such as AlphaGo, AlphaGo Zero, and MuZero. AlphaGo, the initial model, integrates supervised learning and reinforcement learning to master the game of Go, surpassing professional human players. AlphaGo Zero refines this approach by eliminating reliance on human gameplay data, instead utilizing self-play for enhanced learning efficiency. MuZero further extends these advancements by learning the underlying dynamics of game environments without explicit knowledge of the rules, achieving adaptability across various games, including complex Atari games. This paper reviews the significance of reinforcement learning applications in Atari and strategy-based games, analyzing these three models, their key innovations, training processes, challenges encountered, and improvements made. Additionally, we discuss advancements in the field of gaming, including MiniZero and multi-agent models, highlighting future directions and emerging AI models from Google DeepMind.

arxiv情報

著者 Abdelrhman Shaheen,Anas Badr,Ali Abohendy,Hatem Alsaadawy,Nadine Alsayad
発行日 2025-02-14 17:06:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT | Reinforcement Learning in Strategy-Based and Atari Games: A Review of Google DeepMinds Innovations はコメントを受け付けていません