Kotlin ML Pack: Technical Report

要約

この技術レポートでは、Kotlin コードの 3 つの新しいデータセット、KStack、KStack-clean、KExercises を紹介します。
このデータに基づいて CodeLlama および DeepSeek モデルを微調整した結果についても説明します。
さらに、人間の専門家によって Kotlin に書き直された HumanEval ベンチマークのバージョン (ソリューションとテストの両方) を紹介します。
私たちの結果は、小規模で高品質のデータセット (KStack-clean および KExercises) がコード生成タスクにおけるモデルのパフォーマンスを大幅に向上させ、HumanEval ベンチマークでの合格率の最大 16 ポイントの向上を達成できることを示しています。
最後に、学習プロセスでの静的分析ツールの使用や、より複雑で現実的なベンチマークの導入など、Kotlin の言語モデリングを改善する分野での将来の可能性について説明します。

要約(オリジナル)

In this technical report, we present three novel datasets of Kotlin code: KStack, KStack-clean, and KExercises. We also describe the results of fine-tuning CodeLlama and DeepSeek models on this data. Additionally, we present a version of the HumanEval benchmark rewritten by human experts into Kotlin – both the solutions and the tests. Our results demonstrate that small, high-quality datasets (KStack-clean and KExercises) can significantly improve model performance on code generation tasks, achieving up to a 16-point increase in pass rate on the HumanEval benchmark. Lastly, we discuss potential future work in the field of improving language modeling for Kotlin, including the use of static analysis tools in the learning process and the introduction of more intricate and realistic benchmarks.

arxiv情報

著者 Sergey Titov,Mikhail Evtikhiev,Anton Shapkin,Oleg Smirnov,Sergei Boytsov,Sergei Boytsov,Dariia Karaeva,Maksim Sheptyakov,Mikhail Arkhipov,Timofey Bryksin,Egor Bogomolov
発行日 2024-05-29 16:33:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.PL, cs.SE パーマリンク