Synthetic Function Demonstrations Improve Generation in Low-Resource Programming Languages

要約

LLMをトレーニングする際の重要な考慮事項は、ウェールズと比較して英語であるか、Excelと比較してPythonであるかどうか、ターゲット言語が多かれ少なかれリソースがあるかどうかです。
プログラミング言語の典型的なトレーニングデータは、人間が作成したコメントと相まって、実際のプログラムデモンストレーションで構成されています。
ここでは、低リソースプログラミング言語のこのようなデータの作成に対する新しいアプローチを提示します。
教師モデルを使用して、Excelフォーミュラの例で一般的なライブラリ関数の完全に合成された質の高いデモンストレーションを生成します。
次に、パフォーマンスの低い学生モデルを微調整し、2つの質問回答データセットがExcelドメインにリキャストされることを示します。
標準の既製のぼろぼろのアプローチよりも微調整の利点を示します。これは、なじみのないターゲットドメインのために控えめな改善のみを提供できます。

要約(オリジナル)

A key consideration when training an LLM is whether the target language is more or less resourced, whether this is English compared to Welsh, or Python compared to Excel. Typical training data for programming languages consist of real program demonstrations coupled with human-written comments. Here we present novel approaches to the creation of such data for low resource programming languages. We generate fully-synthetic, textbook-quality demonstrations of common library functions in an example domain of Excel formulas, using a teacher model. We then finetune an underperforming student model, and show improvement on 2 question-answering datasets recast into the Excel domain. We show advantages of finetuning over standard, off-the-shelf RAG approaches, which can offer only modest improvement due to the unfamiliar target domain.

arxiv情報

著者 Nick McKenna,Xinnuo Xu,Jack Williams,Nick Wilson,Benjamin Van Durme,Christian Poelitz
発行日 2025-03-24 15:09:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク