Support Vector Boosting Machine (SVBM): Enhancing Classification Performance with AdaBoost and Residual Connections

要約

従来のブースティング アルゴリズムでは、誤って分類されたトレーニング サンプルに焦点を当てることで、学習プロセス中の難易度に基づいてその重要性が強調されます。
標準のサポート ベクター マシン (SVM) を AdaBoost フレームワークの弱学習器として使用すると、エラー サンプルに集中することでモデルのパフォーマンスを向上させることができますが、このアプローチでは重大な課題が生じます。
具体的には、安定性と堅牢性を特徴とする SVM は、ブースティング パラダイムに適合させるために不安定化を必要とする場合があり、その結果、前の反復からの重み付けされた結果に依存するため、パフォーマンスが制限される可能性があります。
これらの課題に対処するために、新しいサブサンプリング プロセスと SVM アルゴリズムおよび残留接続技術を統合するサポート ベクター ブースティング マシン (SVBM) を提案します。
このメソッドは、現在のモデルの予測と以前のラウンドからの出力の両方を考慮してサンプルの重みを更新し、効果的なスパース性制御を可能にします。
SVBM フレームワークは、複雑な決定境界を形成する機能を強化し、それによって分類パフォーマンスを向上させます。
SVBM の MATLAB ソース コードには、https://github.com/junbolian/SVBM からアクセスできます。

要約(オリジナル)

In traditional boosting algorithms, the focus on misclassified training samples emphasizes their importance based on difficulty during the learning process. While using a standard Support Vector Machine (SVM) as a weak learner in an AdaBoost framework can enhance model performance by concentrating on error samples, this approach introduces significant challenges. Specifically, SVMs, characterized by their stability and robustness, may require destabilization to fit the boosting paradigm, which in turn can constrain performance due to reliance on the weighted results from preceding iterations. To address these challenges, we propose the Support Vector Boosting Machine (SVBM), which integrates a novel subsampling process with SVM algorithms and residual connection techniques. This method updates sample weights by considering both the current model’s predictions and the outputs from prior rounds, allowing for effective sparsity control. The SVBM framework enhances the ability to form complex decision boundaries, thereby improving classification performance. The MATLAB source code for SVBM can be accessed at https://github.com/junbolian/SVBM.

arxiv情報

著者 Junbo Jacob Lian
発行日 2024-10-09 14:55:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

A Stability Principle for Learning under Non-Stationarity

要約

私たちは、非定常環境における統計学習のための多用途のフレームワークを開発します。
各期間において、私たちのアプローチは安定性原理を適用して、累積バイアスを確率的誤差に対して許容範囲内に保ちながら履歴データの利用を最大化するルックバックウィンドウを選択します。
私たちの理論と数値実験は、未知の非定常性に対するこのアプローチの適応性を示しています。
母集団の損失が強く凸である場合、またはリプシッツのみの場合に、対数因数までの最小最適値であるリグレス限界を証明します。
私たちの分析の中心には、関数間の類似性の尺度と、非定常データ シーケンスを準定常部​​分に分割するセグメンテーション技術という 2 つの新しいコンポーネントがあります。

要約(オリジナル)

We develop a versatile framework for statistical learning in non-stationary environments. In each time period, our approach applies a stability principle to select a look-back window that maximizes the utilization of historical data while keeping the cumulative bias within an acceptable range relative to the stochastic error. Our theory and numerical experiments showcase the adaptivity of this approach to unknown non-stationarity. We prove regret bounds that are minimax optimal up to logarithmic factors when the population losses are strongly convex, or Lipschitz only. At the heart of our analysis lie two novel components: a measure of similarity between functions and a segmentation technique for dividing the non-stationary data sequence into quasi-stationary pieces.

arxiv情報

著者 Chengpiao Huang,Kaizheng Wang
発行日 2024-10-09 14:55:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T05, 90C15, cs.AI, cs.LG, math.OC, stat.ML | コメントする

Self-Boosting Large Language Models with Synthetic Preference Data

要約

人間の好みに合わせることで、大規模言語モデル (LLM) は、正直で無害で役立つ応答を生成する点で大幅に進歩しました。
ただし、高品質の嗜好データの収集は、特に LLM の継続的な改善にとって、リソースを大量に消費し、創造性を必要とするプロセスです。
モデルの調整に合成選好データを活用する自己ブースティング パラダイムである SynPO を紹介します。
SynPO は反復メカニズムを採用しており、セルフ プロンプト ジェネレーターがさまざまなプロンプトを作成し、応答改善機能がモデルの応答を段階的に改良します。
このアプローチは、LLM が自身の出力に対する生成的な報酬を自律的に学習するように訓練し、プロンプトや人間の好みの大規模な注釈の必要性を排除します。
SynPO を 4 回繰り返した後、Llama3-8B と Mistral-7B は指示に従う能力が大幅に向上し、AlpacaEval 2.0 と ArenaHard で 22.1% 以上の勝率向上を達成しました。
同時に、SynPO はさまざまなタスクにおける LLM の一般的なパフォーマンスを向上させ、よく知られた Open LLM リーダーボードで平均スコアが 3.2 から 5.0 増加することで実証されています。

要約(オリジナル)

Through alignment with human preferences, Large Language Models (LLMs) have advanced significantly in generating honest, harmless, and helpful responses. However, collecting high-quality preference data is a resource-intensive and creativity-demanding process, especially for the continual improvement of LLMs. We introduce SynPO, a self-boosting paradigm that leverages synthetic preference data for model alignment. SynPO employs an iterative mechanism wherein a self-prompt generator creates diverse prompts, and a response improver refines model responses progressively. This approach trains LLMs to autonomously learn the generative rewards for their own outputs and eliminates the need for large-scale annotation of prompts and human preferences. After four SynPO iterations, Llama3-8B and Mistral-7B show significant enhancements in instruction-following abilities, achieving over 22.1% win rate improvements on AlpacaEval 2.0 and ArenaHard. Simultaneously, SynPO improves the general performance of LLMs on various tasks, validated by a 3.2 to 5.0 average score increase on the well-recognized Open LLM leaderboard.

arxiv情報

著者 Qingxiu Dong,Li Dong,Xingxing Zhang,Zhifang Sui,Furu Wei
発行日 2024-10-09 14:57:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

Uncovering Factor Level Preferences to Improve Human-Model Alignment

要約

大規模言語モデル (LLM) の調整が進歩したにもかかわらず、LLM 設定の背後にある理由を理解することは、望ましい動作と実際の動作の間のギャップを埋めるために依然として重要です。
LLM は、特定の書き方を好んだり、過度に冗長な出力を生成したりするなど、人間の好みとは異なるバイアスや傾向を示すことがよくあります。
しかし、嗜好の整合性を評価するための現在の方法は、多くの場合、説明可能性に欠けており、粗い比較に依存しています。
これに対処するために、プリファレンスを駆動する特定の要因の影響を明らかにし、定量化する新しいフレームワークである PROFILE (PRObing Factors of InfLuence for Explainability) を導入します。
PROFILE の因子レベル分析は、人間とモデルの整合性と不整合の背後にある「理由」を説明し、モデル改善の方向性についての洞察を提供します。
私たちは PROFILE を適用して、要約、役立つ応答の生成、文書ベースの質問応答という 3 つのタスクにわたって人間と LLM の好みを分析します。
私たちの因子レベル分析により、生成タスクでは人間と LLM の好みの間に大きな差異があることが明らかになりましたが、LLM は評価タスクでは人間の好みと強い一致を示しました。
私たちは、不整合な要因への対処や世代と評価のギャップの活用など、要因レベルの洞察を活用することで、人間の好みとの整合性をどのように改善できるかを実証します。
この研究は、説明可能な嗜好分析の重要性を強調し、貴重なトレーニング信号を提供する PROFILE の可能性を強調し、人間モデルの整合性をさらに向上させます。

要約(オリジナル)

Despite advancements in Large Language Model (LLM) alignment, understanding the reasons behind LLM preferences remains crucial for bridging the gap between desired and actual behavior. LLMs often exhibit biases or tendencies that diverge from human preferences, such as favoring certain writing styles or producing overly verbose outputs. However, current methods for evaluating preference alignment often lack explainability, relying on coarse-grained comparisons. To address this, we introduce PROFILE (PRObing Factors of InfLuence for Explainability), a novel framework that uncovers and quantifies the influence of specific factors driving preferences. PROFILE’s factor level analysis explains the ‘why’ behind human-model alignment and misalignment, offering insights into the direction of model improvement. We apply PROFILE to analyze human and LLM preferences across three tasks: summarization, helpful response generation, and document-based question-answering. Our factor level analysis reveals a substantial discrepancy between human and LLM preferences in generation tasks, whereas LLMs show strong alignment with human preferences in evaluation tasks. We demonstrate how leveraging factor level insights, including addressing misaligned factors or exploiting the generation-evaluation gap, can improve alignment with human preferences. This work underscores the importance of explainable preference analysis and highlights PROFILE’s potential to provide valuable training signals, driving further improvements in human-model alignment.

arxiv情報

著者 Juhyun Oh,Eunsu Kim,Jiseon Kim,Wenda Xu,Inha Cha,William Yang Wang,Alice Oh
発行日 2024-10-09 15:02:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

DLGNet: Hyperedge Classification through Directed Line Graphs for Chemical Reactions

要約

グラフとハイパーグラフは、対象となる一連のエンティティ間の相互作用をモデル化するための強力な抽象化を提供し、いくつかの分野で多くの成功したアプリケーションのおかげで、文献での関心が高まっています。
特に化学や生物学などの分野、特に創薬や分子生成の分野で急速に拡大しています。
急速な成長が見られる分野の 1 つは化学反応分野であり、化学反応はハイパーグラフの有向ハイパーエッジとして自然にエンコードできます。
この論文では、特定の有向ハイパーグラフに関連付けられた有向線グラフ (DGL) の表記法を導入することで、化学反応の分類問題に取り組みます。
その上に、有向線グラフ ネットワーク (DLGNet) を構築します。これは、DLG 変換を介してハイパーグラフ上で動作するように明示的に設計された初のスペクトルベースのグラフ ニューラル ネットワーク (GNN) です。
DLGNet の基礎は、新しいエルミート行列である有向折れ線グラフ ラプラシアンです。これは、DLG 表現のおかげで、ハイパーグラフの有向ハイパーエッジ内で発生する相互作用の方向性をコンパクトにエンコードします。
有向折れ線グラフ ラプラシアンには、固有値分解の許容や正の半定値であるなど、多くの望ましい特性があり、スペクトルベースの GNN 内での採用に適しています。
化学反応データセットに関する広範な実験を通じて、DGLNet が既存のアプローチを大幅に上回り、実世界のデータセットのコレクションで平均相対パーセンテージ差 33.01% の改善、最大 37.71% の改善を達成したことを示しました。

要約(オリジナル)

Graphs and hypergraphs provide powerful abstractions for modeling interactions among a set of entities of interest and have been attracting a growing interest in the literature thanks to many successful applications in several fields. In particular, they are rapidly expanding in domains such as chemistry and biology, especially in the areas of drug discovery and molecule generation. One of the areas witnessing the fasted growth is the chemical reactions field, where chemical reactions can be naturally encoded as directed hyperedges of a hypergraph. In this paper, we address the chemical reaction classification problem by introducing the notation of a Directed Line Graph (DGL) associated with a given directed hypergraph. On top of it, we build the Directed Line Graph Network (DLGNet), the first spectral-based Graph Neural Network (GNN) expressly designed to operate on a hypergraph via its DLG transformation. The foundation of DLGNet is a novel Hermitian matrix, the Directed Line Graph Laplacian, which compactly encodes the directionality of the interactions taking place within the directed hyperedges of the hypergraph thanks to the DLG representation. The Directed Line Graph Laplacian enjoys many desirable properties, including admitting an eigenvalue decomposition and being positive semidefinite, which make it well-suited for its adoption within a spectral-based GNN. Through extensive experiments on chemical reaction datasets, we show that DGLNet significantly outperforms the existing approaches, achieving on a collection of real-world datasets an average relative-percentage-difference improvement of 33.01%, with a maximum improvement of 37.71%.

arxiv情報

著者 Stefano Fiorini,Giulia M. Bovolenta,Stefano Coniglio,Michele Ciavotta,Pietro Morerio,Michele Parrinello,Alessio Del Bue
発行日 2024-10-09 15:07:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Personal Intelligence System UniLM: Hybrid On-Device Small Language Model and Server-Based Large Language Model for Malay Nusantara

要約

計算リソースとデータ リソースが限られている状況では、特にマレー語特有のニーズに対処する場合、高リソースの言語モデルは不適切であることが判明することがよくあります。
このペーパーでは、オンデバイス モデルとサーバー ベースのモデルの両方を効率的に統合するように設計されたパーソナル インテリジェンス システムについて紹介します。
このシステムには、低メモリと低消費電力向けに最適化されたオンデバイス処理用の SLiM-34M と、サーバーベースのタスク用の MANYAK-1.3B が組み込まれており、スケーラブルで高性能な言語処理が可能です。
このモデルは、機械翻訳、質問応答、IndoMMLU の翻訳など、さまざまなタスクにわたって重要な結果を達成します。
特に注目すべきは、SLiM-34M が、他の LLM と比較して、使用する事前トレーニング トークンの量を 2 分の 1 にしながら、精度の高い向上を達成できることです。
この研究は、効果的な言語モデルを構築するには大規模な計算リソースが必要であるという一般的な仮定に疑問を投げかけ、SLiM-34M と MANYAK-1.3B の間の独自のオーケストレーションによるマレー語のリソース効率の高いモデルの開発に貢献します。

要約(オリジナル)

In contexts with limited computational and data resources, high-resource language models often prove inadequate, particularly when addressing the specific needs of Malay languages. This paper introduces a Personal Intelligence System designed to efficiently integrate both on-device and server-based models. The system incorporates SLiM-34M for on-device processing, optimized for low memory and power usage, and MANYAK-1.3B for server-based tasks, allowing for scalable, high-performance language processing. The models achieve significant results across various tasks, such as machine translation, question-answering, and translate IndoMMLU. Particularly noteworthy is SLiM-34M’s ability to achieve a high improvement in accuracy compared to other LLMs while using 2 times fewer pre-training tokens. This work challenges the prevailing assumption that large-scale computational resources are necessary to build effective language models, contributing to the development of resource-efficient models for the Malay language with the unique orchestration between SLiM-34M and MANYAK-1.3B.

arxiv情報

著者 Azree Nazri,Olalekan Agbolade,Faisal Aziz
発行日 2024-10-09 15:11:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

Sparse Autoencoders Reveal Universal Feature Spaces Across Large Language Models

要約

私たちは、さまざまなモデルが中間層の潜在空間で概念をどのように同様に表現するかを理解することを目的とした研究分野である大規模言語モデル (LLM) における機能の普遍性を調査します。
特徴の普遍性を実証することで、潜在表現に関する発見を複数のモデルにわたって一般化することができます。
ただし、個々のニューロンが個別の特徴ではなく複数の特徴に対応することが多いため、LLM 間で特徴を比較することは困難です。
このため、さまざまなモデル間で機能を解きほぐして一致させることが困難になります。
この問題に対処するために、スパース オートエンコーダ (SAE) を使用して LLM の活性化を個々の特徴に対応するニューロンがまたがるより解釈可能な空間に変換する辞書学習として知られる方法を採用します。
活性化相関を介してモデル間で特徴ニューロンを照合した後、特異値正準相関分析などの表現空間類似性メトリクスを適用して、異なる LLM 間でこれらの SAE 特徴を分析します。
私たちの実験では、さまざまな LLM にわたる SAE 特徴空間の顕著な類似性が明らかになり、特徴の普遍性の新たな証拠が得られました。

要約(オリジナル)

We investigate feature universality in large language models (LLMs), a research field that aims to understand how different models similarly represent concepts in the latent spaces of their intermediate layers. Demonstrating feature universality allows discoveries about latent representations to generalize across several models. However, comparing features across LLMs is challenging due to polysemanticity, in which individual neurons often correspond to multiple features rather than distinct ones. This makes it difficult to disentangle and match features across different models. To address this issue, we employ a method known as dictionary learning by using sparse autoencoders (SAEs) to transform LLM activations into more interpretable spaces spanned by neurons corresponding to individual features. After matching feature neurons across models via activation correlation, we apply representational space similarity metrics like Singular Value Canonical Correlation Analysis to analyze these SAE features across different LLMs. Our experiments reveal significant similarities in SAE feature spaces across various LLMs, providing new evidence for feature universality.

arxiv情報

著者 Michael Lan,Philip Torr,Austin Meek,Ashkan Khakzar,David Krueger,Fazl Barez
発行日 2024-10-09 15:18:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

GPT-4V Cannot Generate Radiology Reports Yet

要約

GPT-4V は強力なマルチモーダル機能があるとされており、放射線科レポート作成の自動化に GPT-4V を使用することに関心が集まっていますが、完全な評価は行われていません。
この研究では、MIMIC-CXR と IU X 線という 2 つの胸部 X 線レポート データセットに関する放射線医学レポートを生成する際に、GPT-4V の体系的な評価を実行します。
私たちは、さまざまなプロンプト戦略を通じて GPT-4V を使用してレポートを直接生成しようとしましたが、語彙指標と臨床有効性指標の両方でひどく失敗することがわかりました。
パフォーマンスの低さを理解するために、タスクを 2 つのステップに分解します。1) 画像から病状ラベルを予測する医用画像推論ステップ。
2) (グラウンドトゥルース) 条件からレポートを生成するレポート合成ステップ。
画像推論における GPT-4V のパフォーマンスは、さまざまなプロンプトにわたって一貫して低いことがわかります。
実際、モデルが予測したラベルの分布は、画像上にどのようなグラウンドトゥルース条件が存在するかに関係なく一定のままであり、モデルが胸部 X 線写真を有意義に解釈していないことを示唆しています。
レポート合成でグラウンドトゥルース条件が与えられた場合でも、生成されるレポートは、微調整された LLaMA-2 よりも正確性が低く、不自然な響きになります。
まとめると、私たちの調査結果は、放射線科ワークフローにおける GPT-4V の使用の実現可能性に疑問を投げかけています。

要約(オリジナル)

GPT-4V’s purported strong multimodal abilities raise interests in using it to automate radiology report writing, but there lacks thorough evaluations. In this work, we perform a systematic evaluation of GPT-4V in generating radiology reports on two chest X-ray report datasets: MIMIC-CXR and IU X-Ray. We attempt to directly generate reports using GPT-4V through different prompting strategies and find that it fails terribly in both lexical metrics and clinical efficacy metrics. To understand the low performance, we decompose the task into two steps: 1) the medical image reasoning step of predicting medical condition labels from images; and 2) the report synthesis step of generating reports from (groundtruth) conditions. We show that GPT-4V’s performance in image reasoning is consistently low across different prompts. In fact, the distributions of model-predicted labels remain constant regardless of which groundtruth conditions are present on the image, suggesting that the model is not interpreting chest X-rays meaningfully. Even when given groundtruth conditions in report synthesis, its generated reports are less correct and less natural-sounding than a finetuned LLaMA-2. Altogether, our findings cast doubt on the viability of using GPT-4V in a radiology workflow.

arxiv情報

著者 Yuyang Jiang,Chacha Chen,Dang Nguyen,Benjamin M. Mervak,Chenhao Tan
発行日 2024-10-09 15:23:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY | コメントする

MeteoRA: Multiple-tasks Embedded LoRA for Large Language Models

要約

事前トレーニング + 微調整パラダイムは、さまざまなダウンストリーム アプリケーションにわたって大規模言語モデル (LLM) を展開するための基礎です。
このフレームワーク内で、低ランク適応 (LoRA) はパラメーター効率の高い微調整 (PEFT) で際立っており、再利用可能なタスク固有の LoRA アダプターを多数生成します。
ただし、このアプローチには明示的なタスク意図の選択が必要であり、単一の LLM に組み込まれた複数の既存の LoRA アダプターによる推論中の自律的なタスクの検出と切り替えに課題が生じます。
この作業では、フルモードの Mixture-of-Experts (MoE) アーキテクチャを介して複数のタスク固有の LoRA アダプタをベース LLM に再利用する、スケーラブルで効率的なフレームワークである MeteoRA (Multiple-tasksembedded LoRA) を導入します。
このフレームワークには、従来の MoE 実装の効率性の課題に対処するための、新しい MoE の前進加速戦略も含まれています。
MeteoRA を介して 28 個の既存の LoRA アダプターを搭載した LlaMA2-13B および LlaMA3-8B ベース モデルを使用した評価では、従来の PEFT 手法と同等のパフォーマンスが実証されました。
さらに、MeteoRA を搭載した LLM は、複合タスクの処理において優れたパフォーマンスを実現し、1 つの推論パスで 10 個の連続した問題を効果的に解決し、タイムリーなアダプター切り替えに対するフレームワークの強化された機能を実証します。

要約(オリジナル)

The pretrain+fine-tune paradigm is foundational for deploying large language models (LLMs) across various downstream applications. Within this framework, Low-Rank Adaptation (LoRA) stands out for its parameter-efficient fine-tuning (PEFT), producing numerous reusable task-specific LoRA adapters. However, this approach requires explicit task intention selection, posing challenges for autonomous task sensing and switching during inference with multiple existing LoRA adapters embedded in a single LLM. In this work, we introduce MeteoRA (Multiple-tasks embedded LoRA), a scalable and efficient framework that reuses multiple task-specific LoRA adapters into the base LLM via a full-mode Mixture-of-Experts (MoE) architecture. This framework also includes novel MoE forward acceleration strategies to address the efficiency challenges of traditional MoE implementations. Our evaluation, using the LlaMA2-13B and LlaMA3-8B base models equipped with 28 existing LoRA adapters through MeteoRA, demonstrates equivalent performance with the traditional PEFT method. Moreover, the LLM equipped with MeteoRA achieves superior performance in handling composite tasks, effectively solving ten sequential problems in a single inference pass, thereby demonstrating the framework’s enhanced capability for timely adapter switching.

arxiv情報

著者 Jingwei Xu,Junyu Lai,Yunpeng Huang
発行日 2024-10-09 15:33:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 | コメントする

CursorCore: Assist Programming through Aligning Anything

要約

大規模な言語モデルは、コード補完、コード挿入、命令コード編集などのプログラミング支援タスクにうまく適用されています。
しかし、これらのアプリケーションは依然として自動化が不十分であり、コーディング履歴、現在のコード、ユーザー指示など、プログラミング プロセス中にさまざまな種類の情報を効果的に統合するのに苦労しています。
この研究では、これらの情報ソースを包括的に統合し、データを収集してモデルをトレーニングし、そのパフォーマンスを評価する新しい会話フレームワークを提案します。
まず、モデルがさまざまな種類の情報とどの程度整合しているか、およびその出力の品質を徹底的に評価するために、プログラミング支援タスクにおけるモデルのパフォーマンスを包括的に評価するための新しいベンチマーク APEval (Assist Programming Eval) を導入します。
次に、データ収集のために、GitHub やオンライン裁判官プラットフォームなどのさまざまなソースからトレーニング データを合成するデータ生成パイプライン Programming-Instruct を開発します。
このパイプラインは、プログラミング プロセス全体を通じてさまざまなタイプのメッセージを自動的に生成できます。
最後に、このパイプラインを使用して 219K のサンプルを生成し、複数のモデルを微調整して、CursorCore シリーズを開発します。
CursorCore が同等のサイズの他のモデルよりも優れていることがわかります。
このフレームワークはインラインチャットや自動編集などのアプリケーションを統合し、コーディングアシスタントの進化に貢献します。
コード、モデル、データは https://github.com/TechxGenus/CursorCore から自由に入手できます。

要約(オリジナル)

Large language models have been successfully applied to programming assistance tasks, such as code completion, code insertion, and instructional code editing. However, these applications remain insufficiently automated and struggle to effectively integrate various types of information during the programming process, including coding history, current code, and user instructions. In this work, we propose a new conversational framework that comprehensively integrates these information sources, collect data to train our models and evaluate their performance. Firstly, to thoroughly evaluate how well models align with different types of information and the quality of their outputs, we introduce a new benchmark, APEval (Assist Programming Eval), to comprehensively assess the performance of models in programming assistance tasks. Then, for data collection, we develop a data generation pipeline, Programming-Instruct, which synthesizes training data from diverse sources, such as GitHub and online judge platforms. This pipeline can automatically generate various types of messages throughout the programming process. Finally, using this pipeline, we generate 219K samples, fine-tune multiple models, and develop the CursorCore series. We show that CursorCore outperforms other models of comparable size. This framework unifies applications such as inline chat and automated editing, contributes to the advancement of coding assistants. Code, models and data are freely available at https://github.com/TechxGenus/CursorCore.

arxiv情報

著者 Hao Jiang,Qi Liu,Rui Li,Shengyu Ye,Shijin Wang
発行日 2024-10-09 15:45:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE | コメントする