CursorCore: Assist Programming through Aligning Anything

要約

コードの完了、コード挿入、教育コード編集などのプログラミング支援タスクには、大規模な言語モデルが正常に適用されています。
ただし、これらのアプリケーションは、コーディング履歴、現在のコード、ユーザーの指示など、プログラミングプロセス中にさまざまな種類の情報を効果的に統合するために自動化されていないままであり、苦労しています。
この作業では、これらの情報源を包括的に統合し、データを収集してモデルを訓練し、そのパフォーマンスを評価する新しい会話フレームワークを提案します。
第一に、モデルがさまざまな種類の情報とその出力の品質とどの程度うまく調整されるかを徹底的に評価するために、プログラミング支援タスクにおけるモデルのパフォーマンスを包括的に評価するために、新しいベンチマークであるApeval(Assist Programming Eval)を導入します。
次に、データ収集のために、GitHubやオンラインジャッジプラットフォームなどの多様なソースからのトレーニングデータを合成するデータ生成パイプライン、プログラミングインストラクチャを開発します。
このパイプラインは、プログラミングプロセス全体でさまざまなタイプのメッセージを自動的に生成できます。
最後に、このパイプラインを使用して、219kのサンプルを生成し、複数のモデルを微調整し、カーソルコアシリーズを開発します。
Carsorcoreが同等のサイズの他のモデルよりも優れていることを示します。
このフレームワークは、インラインチャットや自動編集などのアプリケーションを統合し、コーディングアシスタントの進歩に貢献します。
コード、モデル、およびデータは、https://github.com/techxgenus/cursorcoreで無料で入手できます。

要約(オリジナル)

Large language models have been successfully applied to programming assistance tasks, such as code completion, code insertion, and instructional code editing. However, these applications remain insufficiently automated and struggle to effectively integrate various types of information during the programming process, including coding history, current code, and user instructions. In this work, we propose a new conversational framework that comprehensively integrates these information sources, collect data to train our models and evaluate their performance. Firstly, to thoroughly evaluate how well models align with different types of information and the quality of their outputs, we introduce a new benchmark, APEval (Assist Programming Eval), to comprehensively assess the performance of models in programming assistance tasks. Then, for data collection, we develop a data generation pipeline, Programming-Instruct, which synthesizes training data from diverse sources, such as GitHub and online judge platforms. This pipeline can automatically generate various types of messages throughout the programming process. Finally, using this pipeline, we generate 219K samples, fine-tune multiple models, and develop the CursorCore series. We show that CursorCore outperforms other models of comparable size. This framework unifies applications such as inline chat and automated editing, contributes to the advancement of coding assistants. Code, models and data are freely available at https://github.com/TechxGenus/CursorCore.

arxiv情報

著者 Hao Jiang,Qi Liu,Rui Li,Shengyu Ye,Shijin Wang
発行日 2025-05-13 14:13:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE | CursorCore: Assist Programming through Aligning Anything はコメントを受け付けていません

MINIMALIST: switched-capacitor circuits for efficient in-memory computation of gated recurrent units

要約

再発性ニューラルネットワーク(RNN)は、特に埋め込まれたエッジコンピューティング環境で見つけるメモリが制約しているシステムで、時間シーケンスデータの処理の長年の候補でした。
トレーニングパラダイムの最近の進歩により、今では新しい世代の効率的なRNNが影響を与えています。
最小限のゲート再生ユニット(GRU)と、モデルの効率的な混合シグナルハードウェア実装に基づいて、合理化されたハードウェア互換のアーキテクチャを紹介します。
提案された設計は、メモリ計算(IMC)だけでなく、ゲート状態の更新のためだけでなく、スイッチキャパシタ回路を活用します。
混合シグナルコアは、金属コンデンサ、トランスミッションゲート、およびクロックされたコンパレータで構成される商品回路のみに依存しているため、スケーリングと他のテクノロジーノードへの転送を大幅に促進します。
時系列データのアーキテクチャのパフォーマンスをベンチマークし、ハードウェアシステムへの直接マッピングに必要なすべての制約を導入します。
直接的な互換性は、混合シグナルシミュレーションで検証され、ソフトウェアのみのネットワークモデルから記録されたデータを再現します。

要約(オリジナル)

Recurrent neural networks (RNNs) have been a long-standing candidate for processing of temporal sequence data, especially in memory-constrained systems that one may find in embedded edge computing environments. Recent advances in training paradigms have now inspired new generations of efficient RNNs. We introduce a streamlined and hardware-compatible architecture based on minimal gated recurrent units (GRUs), and an accompanying efficient mixed-signal hardware implementation of the model. The proposed design leverages switched-capacitor circuits not only for in-memory computation (IMC), but also for the gated state updates. The mixed-signal cores rely solely on commodity circuits consisting of metal capacitors, transmission gates, and a clocked comparator, thus greatly facilitating scaling and transfer to other technology nodes. We benchmark the performance of our architecture on time series data, introducing all constraints required for a direct mapping to the hardware system. The direct compatibility is verified in mixed-signal simulations, reproducing data recorded from the software-only network model.

arxiv情報

著者 Sebastian Billaudelle,Laura Kriener,Filippo Moro,Tristan Torchet,Melika Payvand
発行日 2025-05-13 14:13:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.LG, eess.SP | MINIMALIST: switched-capacitor circuits for efficient in-memory computation of gated recurrent units はコメントを受け付けていません

SMI: An Information-Theoretic Metric for Predicting Model Knowledge Solely from Pre-Training Signals

要約

GPT-4テクニカルレポートは、詳細な方法論は存在しないものの、トレーニング前の信号のみを使用してダウンストリームタスクのモデルパフォーマンスを予測する可能性を強調しています。
このような予測機能は、リソース効率の良い事前トレーニングとタスクに沿ったデータセットの構築に不可欠です。
この論文では、モデルの内部知識を示す重要な下流タスクであるクローズドブック質問回答(QA)のパフォーマンスを予測することを目指しています。
3つの主要な課題に対処します。(1)トレーニング前のコーパスへのアクセスと理解の制限、(2)訓練を受けたモデルの現在の評価方法の制限、および(3)モデルパフォーマンスの予測における周波数ベースのメトリックの制限。
これらの課題に対応して、21の公開されている21のカスタムトレーニングを受けた大規模な言語モデルの事前トレーニングコーパラ全体で大規模な検索およびセマンティック分析を実施します。
その後、言い換えされた質問バリアントを組み込んだマルチテンプレートQA評価フレームワークを開発します。
これらの基礎に基づいて、追加のトレーニングを必要とせずに、トレーニング前のデータ特性、モデルサイズ、およびQA精度を直線的に相関させる情報理論的メトリックであるサイズ依存相互情報(SMI)を提案します。
実験結果は、SMIが共起ベースのベースラインを上回り、10億以上のパラメーターを持つモデルで$ r^2 $> 0.75を達成することを示しています。
理論分析により、モデルサイズのスケーリングとデータの最適化の限界的な利点がさらに明らかになり、特定のQAタスクの精度の上限が約80%であることが示されています。
当社のプロジェクトは、https://github.com/yuhui1038/smiで入手できます。

要約(オリジナル)

The GPT-4 technical report highlights the possibility of predicting model performance on downstream tasks using only pre-training signals, though detailed methodologies are absent. Such predictive capabilities are essential for resource-efficient pre-training and the construction of task-aligned datasets. In this paper, we aim to predict performance in closed-book question answering (QA), a vital downstream task indicative of a model’s internal knowledge. We address three primary challenges: (1) limited access to and understanding of pre-training corpora, (2) limitations of current evaluation methods for pre-trained models, and (3) limitations of frequency-based metrics in predicting model performance. In response to these challenges, we conduct large-scale retrieval and semantic analysis across the pre-training corpora of 21 publicly available and 3 custom-trained large language models. Subsequently, we develop a multi-template QA evaluation framework incorporating paraphrased question variants. Building on these foundations, we propose Size-dependent Mutual Information (SMI), an information-theoretic metric that linearly correlates pre-training data characteristics, model size, and QA accuracy, without requiring any additional training. The experimental results demonstrate that SMI outperforms co-occurrence-based baselines, achieving $R^2$ > 0.75 on models with over one billion parameters. Theoretical analysis further reveals the marginal benefits of scaling model size and optimizing data, indicating that the upper limit of specific QA task accuracy is approximately 80%. Our project is available at https://github.com/yuhui1038/SMI.

arxiv情報

著者 Changhao Jiang,Ming Zhang,Junjie Ye,Xiaoran Fan,Yifei Cao,Jiajun Sun,Zhiheng Xi,Shihan Dou,Yi Dong,Yujiong Shen,Jingqi Tong,Zhen Wang,Tao Liang,Zhihui Fei,Mingyang Wan,Guojun Ma,Qi Zhang,Tao Gui,Xuanjing Huang
発行日 2025-05-13 14:19:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | SMI: An Information-Theoretic Metric for Predicting Model Knowledge Solely from Pre-Training Signals はコメントを受け付けていません

S-EPOA: Overcoming the Indistinguishability of Segments with Skill-Driven Preference-Based Reinforcement Learning

要約

優先ベースの強化学習(PBRL)は、人間の好みを直接報酬信号として利用し、複雑な報酬エンジニアリングの必要性を排除することで際立っています。
ただし、その可能性にもかかわらず、従来のPBRLメソッドは、学習プロセスを妨げるセグメントの区別不可能性によってしばしば制約されます。
このホワイトペーパーでは、スキルを強化する優先順位の最適化アルゴリズム(S-EPOA)を紹介します。これは、スキルメカニズムを優先学習フレームワークに統合することにより、セグメントの区別可能性の問題に対処します。
具体的には、最初に監視されていない事前宣言を実施して、有用なスキルを学びます。
次に、学習したスキル空間にわたって情報のゲインと区別可能性のバランスをとるための新しいクエリ選択メカニズムを提案します。
ロボット操作や移動など、さまざまなタスクの実験結果は、S-EPOAが堅牢性と学習効率の両方の観点から従来のPBRLメソッドを大幅に上回ることを示しています。
結果は、セグメントの区別可能性によってもたらされる課題を克服する上で、スキル主導の学習の有効性を強調しています。

要約(オリジナル)

Preference-based reinforcement learning (PbRL) stands out by utilizing human preferences as a direct reward signal, eliminating the need for intricate reward engineering. However, despite its potential, traditional PbRL methods are often constrained by the indistinguishability of segments, which impedes the learning process. In this paper, we introduce Skill-Enhanced Preference Optimization Algorithm (S-EPOA), which addresses the segment indistinguishability issue by integrating skill mechanisms into the preference learning framework. Specifically, we first conduct the unsupervised pretraining to learn useful skills. Then, we propose a novel query selection mechanism to balance the information gain and distinguishability over the learned skill space. Experimental results on a range of tasks, including robotic manipulation and locomotion, demonstrate that S-EPOA significantly outperforms conventional PbRL methods in terms of both robustness and learning efficiency. The results highlight the effectiveness of skill-driven learning in overcoming the challenges posed by segment indistinguishability.

arxiv情報

著者 Ni Mu,Yao Luan,Yiqin Yang,Bo Xu,Qing-shan Jia
発行日 2025-05-13 14:30:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | S-EPOA: Overcoming the Indistinguishability of Segments with Skill-Driven Preference-Based Reinforcement Learning はコメントを受け付けていません

Resource-Efficient Language Models: Quantization for Fast and Accessible Inference

要約

大規模な言語モデルは自然言語処理を大幅に進めていますが、その重いリソースの要求は、ハードウェアのアクセシビリティとエネルギー消費に関する深刻な課題をもたらします。
この論文では、さまざまな量子化スキーム、粒状、トレードオフの詳細を含む、エンドユーザーによるLLMSの推論効率を最適化するように設計されたトレーニング後の量子化(PTQ)技術の集中的かつ高レベルのレビューを提示します。
目的は、トレーニング後の量子化の理論と応用の間のバランスの取れた概要を提供することです。

要約(オリジナル)

Large language models have significantly advanced natural language processing, yet their heavy resource demands pose severe challenges regarding hardware accessibility and energy consumption. This paper presents a focused and high-level review of post-training quantization (PTQ) techniques designed to optimize the inference efficiency of LLMs by the end-user, including details on various quantization schemes, granularities, and trade-offs. The aim is to provide a balanced overview between the theory and applications of post-training quantization.

arxiv情報

著者 Tollef Emil Jørgensen
発行日 2025-05-13 14:39:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.AI, I.2.0 | Resource-Efficient Language Models: Quantization for Fast and Accessible Inference はコメントを受け付けていません

Integrating Natural Language Processing and Exercise Monitoring for Early Diagnosis of Metabolic Syndrome: A Deep Learning Approach

要約

メタボリックシンドローム(METS)は、腹部肥満、インスリン抵抗性、高血圧、高脂血症を特徴とする薬物状態です。
2型糖尿病を含む慢性疾患の大部分のリスクを高め、世界集団の約4分の1に影響を与えます。
したがって、MetSの早期発見とタイムリーな介入が非常に重要です。
METSコンポーネントの標準診断には、医療機関内で実施される血液検査が必要です。
しかし、それはしばしば過小評価されており、メッツの人口のケアの満たされていないニーズにつながります。
この研究の目的は、日常生活で簡単に得られるエクササイズ関連の活動に関する生理学的データと無料のテキストを使用することを目的としています。
老人ホームの40人のボランティアからデータを収集し、データの増強を使用して不均衡を減らしました。
自然言語処理(NLP)と運動監視を統合するMetSを分類するための深い学習フレームワークを提案します。
結果は、最良のモデルが3倍の交差検証を通じて高い陽性結果(AuroC = 0.806およびRec = 76.3%)を報告したことを示しました。
特徴の重要性分析により、テキストと最低心拍数が毎日の分類に最も貢献していることが明らかになりました。
この研究は、METSの早期診断のために日常生活で簡単に測定できるデータの潜在的なアプリケーションを示しており、MetSのスクリーニングと管理のコストを削減することに貢献する可能性があります。

要約(オリジナル)

Metabolic syndrome (MetS) is a medication condition characterized by abdominal obesity, insulin resistance, hypertension and hyperlipidemia. It increases the risk of majority of chronic diseases, including type 2 diabetes mellitus, and affects about one quarter of the global population. Therefore, early detection and timely intervention for MetS are crucial. Standard diagnosis for MetS components requires blood tests conducted within medical institutions. However, it is frequently underestimated, leading to unmet need for care for MetS population. This study aims to use the least physiological data and free texts about exercises related activities, which are obtained easily in daily life, to diagnosis MetS. We collected the data from 40 volunteers in a nursing home and used data augmentation to reduce the imbalance. We propose a deep learning framework for classifying MetS that integrates natural language processing (NLP) and exercise monitoring. The results showed that the best model reported a high positive result (AUROC=0.806 and REC=76.3%) through 3-fold cross-validation. Feature importance analysis revealed that text and minimum heart rate on a daily basis contribute the most in the classification of MetS. This study demonstrates the potential application of data that are easily measurable in daily life for the early diagnosis of MetS, which could contribute to reducing the cost of screening and management for MetS population.

arxiv情報

著者 Yichen Zhao,Yuhua Wang,Xi Cheng,Junhao Fang,Yang Yang
発行日 2025-05-13 14:48:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | Integrating Natural Language Processing and Exercise Monitoring for Early Diagnosis of Metabolic Syndrome: A Deep Learning Approach はコメントを受け付けていません

TRAIL: Trace Reasoning and Agentic Issue Localization

要約

多様なドメイン全体でエージェントワークフローを採​​用することは、これらのシステムが生成する複雑なトレースをスケーラブルかつ体系的に評価する重要なニーズをもたらします。
現在の評価方法は、長いワークフロートレースのマニュアルのドメイン固有のヒト分析に依存します。これは、エージェント出力の複雑さと量の増加に伴い拡大しないアプローチです。
これらの設定でのエラー分析は、外部ツールの出力と言語モデルの推論の相互作用により、さらに複雑になり、従来のソフトウェアのデバッグよりも困難になります。
この作業では、(1)エージェントワークフロートレースの堅牢で動的な評価方法の必要性を明確にし、(2)エージェントシステムで遭遇するエラータイプの正式な分類法を導入し、(3)この分類剤を使用して構築され、確立されたエージェントベンチャーマークで構築された148個の大きなヒトアノテーショントレース(TRAIL)のセットを提示します。
生態学的妥当性を確保するために、ソフトウェアエンジニアリングやオープンワールド情報検索などの実際のアプリケーションに焦点を当てた、単一およびマルチエージェントシステムの両方からトレースをキュレートします。
私たちの評価は、現代の長いコンテキストLLMがトレースデバッグでパフォーマンスが低いことを明らかにしています。
当社のデータセットとコードは、エージェントワークフローのスケーラブルな評価における将来の研究をサポートおよび加速するために公開されています。

要約(オリジナル)

The increasing adoption of agentic workflows across diverse domains brings a critical need to scalably and systematically evaluate the complex traces these systems generate. Current evaluation methods depend on manual, domain-specific human analysis of lengthy workflow traces – an approach that does not scale with the growing complexity and volume of agentic outputs. Error analysis in these settings is further complicated by the interplay of external tool outputs and language model reasoning, making it more challenging than traditional software debugging. In this work, we (1) articulate the need for robust and dynamic evaluation methods for agentic workflow traces, (2) introduce a formal taxonomy of error types encountered in agentic systems, and (3) present a set of 148 large human-annotated traces (TRAIL) constructed using this taxonomy and grounded in established agentic benchmarks. To ensure ecological validity, we curate traces from both single and multi-agent systems, focusing on real-world applications such as software engineering and open-world information retrieval. Our evaluations reveal that modern long context LLMs perform poorly at trace debugging, with the best Gemini-2.5-pro model scoring a mere 11% on TRAIL. Our dataset and code are made publicly available to support and accelerate future research in scalable evaluation for agentic workflows.

arxiv情報

著者 Darshan Deshpande,Varun Gangal,Hersh Mehta,Jitin Krishnan,Anand Kannappan,Rebecca Qian
発行日 2025-05-13 14:55:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | TRAIL: Trace Reasoning and Agentic Issue Localization はコメントを受け付けていません

WixQA: A Multi-Dataset Benchmark for Enterprise Retrieval-Augmented Generation

要約

検索された生成(RAG)は、外部の知識に基づいて根拠のある回答を可能にする現代の質問応答(QA)システムの基礎です。
最近の進捗状況はオープンドメインデータセットによって推進されていますが、エンタープライズQAシステムには、ユーザーが日々のサポートシナリオで提起する具体的でドメイン固有の問題を反映するデータセットが必要です。
重要なことに、エンドツーエンドのRAGシステムを評価するには、質問だけでなく、回答が導き出された特定の知識ベース(KB)スナップショットを含むベンチマークが必要です。
このニーズに対処するために、リリースされたKBコーパスに正確に接地されたQAデータセットを特徴とするベンチマークスイートであるWixQAを紹介し、検索コンポーネントと生成コンポーネントの全体的な評価を可能にします。
WIXQAには、WIX.comのカスタマーサポートの対話から派生した3つの異なるQAデータセットが含まれ、パブリックWIXヘルプセンターKBのスナップショットに基づいています:(i)WixQA-ExpertWritten、200個の実際のユーザークエリを承認したマルチステップ回答。
(ii)ユーザーダイアログから蒸留されたWIXQAシミュレーション、200個の専門分析されたQAペア。
(iii)Wixqa-Synthetic、6,222 LLM生成QAペア。1つのペアは、知識ベースの各記事から体系的に導出されました。
MITライセンスの下でデータセットと並んでKBスナップショットをリリースし、包括的なベースライン結果を提供し、現実的なエンタープライズ環境でエンタープライズRAGシステムを評価するためのユニークなベンチマークを形成します。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) is a cornerstone of modern question answering (QA) systems, enabling grounded answers based on external knowledge. Although recent progress has been driven by open-domain datasets, enterprise QA systems need datasets that mirror the concrete, domain-specific issues users raise in day-to-day support scenarios. Critically, evaluating end-to-end RAG systems requires benchmarks comprising not only question–answer pairs but also the specific knowledge base (KB) snapshot from which answers were derived. To address this need, we introduce WixQA, a benchmark suite featuring QA datasets precisely grounded in the released KB corpus, enabling holistic evaluation of retrieval and generation components. WixQA includes three distinct QA datasets derived from Wix.com customer support interactions and grounded in a snapshot of the public Wix Help Center KB: (i) WixQA-ExpertWritten, 200 real user queries with expert-authored, multi-step answers; (ii) WixQA-Simulated, 200 expert-validated QA pairs distilled from user dialogues; and (iii) WixQA-Synthetic, 6,222 LLM-generated QA pairs, with one pair systematically derived from each article in the knowledge base. We release the KB snapshot alongside the datasets under MIT license and provide comprehensive baseline results, forming a unique benchmark for evaluating enterprise RAG systems in realistic enterprise environments.

arxiv情報

著者 Dvir Cohen,Lin Burg,Sviatoslav Pykhnivskyi,Hagit Gur,Stanislav Kovynov,Olga Atzmon,Gilad Barkan
発行日 2025-05-13 15:02:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | WixQA: A Multi-Dataset Benchmark for Enterprise Retrieval-Augmented Generation はコメントを受け付けていません

SafeMate: A Modular RAG-Based Agent for Context-Aware Emergency Guidance

要約

豊富な公共安全文書と緊急プロトコルにもかかわらず、ほとんどの個人は、危機中にそのような情報を解釈し、行動するために装備されていないままです。
従来の緊急決定支援システム(EDSS)は、専門家向けに設計されており、PDFやSOPSなどの静的なドキュメントに大きく依存しています。
制度的知識と公共のアクセシビリティの間のこのギャップは、効果的な緊急時の準備と対応に重大な障壁をもたらします。
SafeMateを紹介します。これは、準備とアクティブな緊急シナリオの両方で、一般ユーザーに正確でコンテキスト対応のガイダンスを提供する検索されたAIアシスタントです。
モデルコンテキストプロトコル(MCP)に基づいて構築されたSafeMateは、ドキュメント取得、チェックリストの生成、および構造化された要約のためのツールにユーザークエリを動的にルーティングします。
Cosineの類似性を備えたFAISSを使用して、信頼できるソースから関連するコンテンツを識別します。

要約(オリジナル)

Despite the abundance of public safety documents and emergency protocols, most individuals remain ill-equipped to interpret and act on such information during crises. Traditional emergency decision support systems (EDSS) are designed for professionals and rely heavily on static documents like PDFs or SOPs, which are difficult for non-experts to navigate under stress. This gap between institutional knowledge and public accessibility poses a critical barrier to effective emergency preparedness and response. We introduce SafeMate, a retrieval-augmented AI assistant that delivers accurate, context-aware guidance to general users in both preparedness and active emergency scenarios. Built on the Model Context Protocol (MCP), SafeMate dynamically routes user queries to tools for document retrieval, checklist generation, and structured summarization. It uses FAISS with cosine similarity to identify relevant content from trusted sources.

arxiv情報

著者 Junfeng Jiao,Jihyung Park,Yiming Xu,Kristen Sussman,Lucy Atkinson
発行日 2025-05-13 15:03:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | SafeMate: A Modular RAG-Based Agent for Context-Aware Emergency Guidance はコメントを受け付けていません

Training Ultra Long Context Language Model with Fully Pipelined Distributed Transformer

要約

長いコンテキスト機能を備えた大規模な言語モデル(LLMS)は、テキスト生成やタンパク質シーケンス分析など、自然言語処理や計算生物学の複雑なタスクに不可欠です。
ただし、非常に長いコンテキストでLLMSを直接トレーニングするには、かなりのGPUリソ​​ースとメモリの増加が必要であり、コストが高くなり、複雑さが大きくなります。
下流の微調整または適応を介して長いコンテキスト機能を導入する代替アプローチは、重要な設計制限を課します。
このホワイトペーパーでは、極端なハードウェア効率でLLMSを効率的にトレーニングするために、完全にパイプライン化された分布変圧器(FPDT)を提案します。
GPTおよびLLAMAモデルの場合、現在の最先端のソリューションと比較して同じハードウェアでトレーニングできるシーケンス長が16倍増加します。
専用のシーケンスチャンクパイプライン設計により、MFUの55%以上を維持しながら、4 GPUでわずか200万シーケンス長で8B LLMをトレーニングできるようになりました。
提案されているFPDTは、既存のトレーニング技術に不可知論されており、異なるLLMモデルで効率的に機能することが証明されています。

要約(オリジナル)

Large Language Models (LLMs) with long context capabilities are integral to complex tasks in natural language processing and computational biology, such as text generation and protein sequence analysis. However, training LLMs directly on extremely long contexts demands considerable GPU resources and increased memory, leading to higher costs and greater complexity. Alternative approaches that introduce long context capabilities via downstream finetuning or adaptations impose significant design limitations. In this paper, we propose Fully Pipelined Distributed Transformer (FPDT) for efficiently training long-context LLMs with extreme hardware efficiency. For GPT and Llama models, we achieve a 16x increase in sequence length that can be trained on the same hardware compared to current state-of-the-art solutions. With our dedicated sequence chunk pipeline design, we can now train 8B LLM with 2 million sequence length on only 4 GPUs, while also maintaining over 55% of MFU. Our proposed FPDT is agnostic to existing training techniques and is proven to work efficiently across different LLM models.

arxiv情報

著者 Jinghan Yao,Sam Ade Jacobs,Masahiro Tanaka,Olatunji Ruwase,Hari Subramoni,Dhabaleswar K. Panda
発行日 2025-05-13 15:07:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG | Training Ultra Long Context Language Model with Fully Pipelined Distributed Transformer はコメントを受け付けていません