ARKS: Active Retrieval in Knowledge Soup for Code Generation

要約

最近、検索拡張生成 (RAG) パラダイムは、追加のトレーニングなしで外部の知識を大規模言語モデル (LLM) に組み込める可能性があるため、大きな注目を集めています。
自然言語アプリケーションでは広く研究されていますが、コード生成での利用についてはまだ研究が進んでいません。
このペーパーでは、コードの大規模な言語モデルを一般化するための高度な戦略である Active Retrieval in Knowledge Soup (ARKS) を紹介します。
単一のソースに依存するのとは対照的に、Web 検索、ドキュメント、実行フィードバック、進化したコード スニペットを統合したナレッジ スープを構築します。
私たちは、クエリを繰り返し改良し、ナレッジ スープを更新するアクティブな検索戦略を採用しています。
ARKS のパフォーマンスを評価するために、頻繁に更新されるライブラリとロングテール プログラミング言語に関連する現実的なコーディング問題で構成される新しいベンチマークをコンパイルします。
ChatGPT と CodeLlama の実験結果は、LLM 上の ARKS の平均実行精度が大幅に向上していることを示しています。
この分析により、私たちが提案したナレッジ スープとアクティブな検索戦略の有効性が確認され、効果的な検索拡張コード生成 (RACG) パイプラインの構築に関する豊富な洞察が得られます。
私たちのモデル、コード、データは https://arks-codegen.github.io で入手できます。

要約(オリジナル)

Recently the retrieval-augmented generation (RAG) paradigm has raised much attention for its potential in incorporating external knowledge into large language models (LLMs) without further training. While widely explored in natural language applications, its utilization in code generation remains under-explored. In this paper, we introduce Active Retrieval in Knowledge Soup (ARKS), an advanced strategy for generalizing large language models for code. In contrast to relying on a single source, we construct a knowledge soup integrating web search, documentation, execution feedback, and evolved code snippets. We employ an active retrieval strategy that iteratively refines the query and updates the knowledge soup. To assess the performance of ARKS, we compile a new benchmark comprising realistic coding problems associated with frequently updated libraries and long-tail programming languages. Experimental results on ChatGPT and CodeLlama demonstrate a substantial improvement in the average execution accuracy of ARKS on LLMs. The analysis confirms the effectiveness of our proposed knowledge soup and active retrieval strategies, offering rich insights into the construction of effective retrieval-augmented code generation (RACG) pipelines. Our model, code, and data are available at https://arks-codegen.github.io.

arxiv情報

著者 Hongjin Su,Shuyang Jiang,Yuhang Lai,Haoyuan Wu,Boao Shi,Che Liu,Qian Liu,Tao Yu
発行日 2024-02-19 17:37:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク