Suggesting Code Edits in Interactive Machine Learning Notebooks Using Large Language Models

要約

機械学習開発者は、データ処理やモデル トレーニング用のコードをホストするために、Jupyter ノートブックなどの対話型計算ノートブックを頻繁に使用します。
Jupyter ノートブックは、機械学習パイプラインを作成し、出力をインタラクティブに観察するための便利なツールを提供します。ただし、新しい機能の追加やバグの修正など、Jupyter ノートブックのメンテナンスは、ノートブックの長さと複雑さにより困難になる場合があります。
さらに、Jupyter ノートブックでの開発者の編集に関連する既存のベンチマークはありません。
これに対処するために、GitHub 上の 792 の機械学習リポジトリの 20,095 リビジョンから派生した 48,398 件の Jupyter ノートブック編集の最初のデータセットを提示し、LLM を使用して Jupyter ノートブックのコード編集を予測することに関する最初の調査を実行します。
当社のデータセットは、セルレベルおよびラインレベルの変更の詳細をキャプチャし、機械学習ワークフローにおける現実世界のメンテナンス パターンを理解するための基盤を提供します。
Jupyter ノートブックでの編集は高度にローカライズされており、リポジトリ内のコードの変更は平均 166 行のみであることがわかりました。
コード編集では、大規模なモデルが小規模なモデルよりも優れていますが、微調整後でもすべてのモデルのデータセットの精度が低く、現実世界の機械学習のメンテナンス タスクの複雑さを示しています。
私たちの調査結果は、モデルのパフォーマンス向上におけるコンテキスト情報の重要な役割を強調し、機械学習コードのエンジニアリングにおける大規模言語モデルの機能を向上させるための有望な道を示しています。

要約(オリジナル)

Machine learning developers frequently use interactive computational notebooks, such as Jupyter notebooks, to host code for data processing and model training. Jupyter notebooks provide a convenient tool for writing machine learning pipelines and interactively observing outputs, however, maintaining Jupyter notebooks, e.g., to add new features or fix bugs, can be challenging due to the length and complexity of the notebooks. Moreover, there is no existing benchmark related to developer edits on Jupyter notebooks. To address this, we present the first dataset of 48,398 Jupyter notebook edits derived from 20,095 revisions of 792 machine learning repositories on GitHub, and perform the first study of the using LLMs to predict code edits in Jupyter notebooks. Our dataset captures granular details of cell-level and line-level modifications, offering a foundation for understanding real-world maintenance patterns in machine learning workflows. We observed that the edits on Jupyter notebooks are highly localized, with changes averaging only 166 lines of code in repositories. While larger models outperform smaller counterparts in code editing, all models have low accuracy on our dataset even after finetuning, demonstrating the complexity of real-world machine learning maintenance tasks. Our findings emphasize the critical role of contextual information in improving model performance and point toward promising avenues for advancing large language models’ capabilities in engineering machine learning code.

arxiv情報

著者 Bihui Jin,Jiayue Wang,Pengyu Nie
発行日 2025-01-16 18:55:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SE パーマリンク