Bridge-Coder: Unlocking LLMs’ Potential to Overcome Language Gaps in Low-Resource Code

要約

大規模言語モデル (LLM) は、Python などの高リソース プログラミング言語 (HRPL) のコード生成には優れた習熟度を示しますが、Racket や D などの低リソース プログラミング言語 (LRPL) では非常に困難です。このパフォーマンス ギャップによりデジタル デバイドが深刻化し、障害が発生します。
LRPL を使用する開発者は、LLM の進歩から平等に恩恵を受け、過小評価されているプログラミング コミュニティ内でのイノベーションにおける格差が強化されます。
LRPL 用に追加のトレーニング データを生成することは有望ですが、2 つの重要な課題に直面しています。それは、手動によるアノテーションは労働集約的でコストがかかること、もう 1 つは LLM で生成された LRPL コードの品質が標準以下であることです。
この問題の根本的な原因は、自然言語とプログラミング言語間のギャップ (NL-PL ギャップ) です。これは、整列されたデータが限られているため、LRPL では特に顕著です。
この研究では、LLM の固有機能を活用して LRPL のパフォーマンスを向上させる、Bridge-Coder と呼ばれる新しいアプローチを紹介します。
私たちの方法は 2 つの重要な段階で構成されています。
Bridge Generation では、LLM の一般知識の理解、HRPL の熟練度、およびコンテキスト内の学習能力を活用して、高品質のデータセットを作成します。
次に、NL 命令と LRPL 間のアライメントを段階的に改善するブリッジ アライメントを適用します。
複数の LRPL にわたる実験結果は、Bridge-Coder がモデルのパフォーマンスを大幅に向上させ、アプローチの有効性と一般化を実証していることを示しています。
さらに、メソッドの主要なコンポーネントの詳細な分析を提供し、LRPL に関連する課題に対処することを目的とした将来の作業に貴重な洞察を提供します。

要約(オリジナル)

Large Language Models (LLMs) demonstrate strong proficiency in generating code for high-resource programming languages (HRPLs) like Python but struggle significantly with low-resource programming languages (LRPLs) such as Racket or D. This performance gap deepens the digital divide, preventing developers using LRPLs from benefiting equally from LLM advancements and reinforcing disparities in innovation within underrepresented programming communities. While generating additional training data for LRPLs is promising, it faces two key challenges: manual annotation is labor-intensive and costly, and LLM-generated LRPL code is often of subpar quality. The underlying cause of this issue is the gap between natural language to programming language gap (NL-PL Gap), which is especially pronounced in LRPLs due to limited aligned data. In this work, we introduce a novel approach called Bridge-Coder, which leverages LLMs’ intrinsic capabilities to enhance the performance on LRPLs. Our method consists of two key stages. Bridge Generation, where we create high-quality dataset by utilizing LLMs’ general knowledge understanding, proficiency in HRPLs, and in-context learning abilities. Then, we apply the Bridged Alignment, which progressively improves the alignment between NL instructions and LRPLs. Experimental results across multiple LRPLs show that Bridge-Coder significantly enhances model performance, demonstrating the effectiveness and generalization of our approach. Furthermore, we offer a detailed analysis of the key components of our method, providing valuable insights for future work aimed at addressing the challenges associated with LRPLs.

arxiv情報

著者 Jipeng Zhang,Jianshu Zhang,Yuanzhe Li,Renjie Pi,Rui Pan,Runtao Liu,Ziqiang Zheng,Tong Zhang
発行日 2024-10-24 17:55:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク