Improving Natural Language Capability of Code Large Language Model

要約

コード大規模言語モデル (Code LLM) は、コード生成において顕著なパフォーマンスを実証しています。
それにもかかわらず、既存の研究のほとんどは、プログラミング機能の観点からコード LLM を強化することに焦点を当てており、その自然言語機能はあまり注目されていません。
したがって、このギャップを埋めるために、私たちは 2 つのモジュールで構成される新しいフレームワークを提案します。1 つはユーザーの自然言語要件からキー フレーズを抽出する役割を担う tentionExtractor、もう 1 つはこれらの抽出されたフレーズを活用して要件を解決するためのターゲット コードを生成する tentionCoder です。
このフレームワークは、コード LLM と従来の自然言語処理ツールをシームレスに統合することにより、革新的なアイデアを先駆けて提供します。
フレームワークの有効性を検証するために、5 つの自然言語をカバーする MultiNL-H と呼ばれる新しいコード生成ベンチマークを作成しました。
広範な実験結果により、私たちが提案したフレームワークの有効性が実証されています。

要約(オリジナル)

Code large language models (Code LLMs) have demonstrated remarkable performance in code generation. Nonetheless, most existing works focus on boosting code LLMs from the perspective of programming capabilities, while their natural language capabilities receive less attention. To fill this gap, we thus propose a novel framework, comprising two modules: AttentionExtractor, which is responsible for extracting key phrases from the user’s natural language requirements, and AttentionCoder, which leverages these extracted phrases to generate target code to solve the requirement. This framework pioneers an innovative idea by seamlessly integrating code LLMs with traditional natural language processing tools. To validate the effectiveness of the framework, we craft a new code generation benchmark, called MultiNL-H, covering five natural languages. Extensive experimental results demonstrate the effectiveness of our proposed framework.

arxiv情報

著者 Wei Li,Daoguang Zan,Bei Guan,Ailun Yu,Xiaolin Chen,Yongji Wang
発行日 2024-01-25 15:33:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク