CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval

要約

多くの NLP タスクでテキスト検索が成功しているにもかかわらず、コード検索は依然としてほとんど研究されていない領域です。
ほとんどのテキスト検索システムは自然言語クエリに合わせて調整されており、コードを取得する際の特有の課題が無視されることがよくあります。
このギャップにより、既存のモデルでは、さまざまなドメインにわたるプログラミング言語やタスクの多様性を効果的に捉えることができなくなり、コード検索においてより焦点を絞った研究の必要性が浮き彫りになっています。
これに対処するために、400M から 7B パラメーターにわたる大規模なコード埋め込みモデル ファミリである CodeXEmbed を導入します。
当社の新しいトレーニング パイプラインは、複数のプログラミング言語を統合し、さまざまなコード関連タスクを共通の検索フレームワークに変換し、モデルの汎用性と検索パフォーマンスを強化します。
当社の 7B モデルは、コード検索における新しい最先端 (SOTA) を確立し、CoIR ベンチマークで以前の主要モデルである Voyage-Code を 20% 以上上回りました。
コード検索で優れていることに加えて、当社のモデルは広く採用されている BeIR テキスト検索ベンチマークで競争力のあるパフォーマンスを示し、ドメイン全体にわたる汎用性を提供します。
実験結果は、検索パフォーマンスを向上させると、コード関連タスクのエンドツーエンドの検索拡張生成 (RAG) パフォーマンスが大幅に向上することを示しています。

要約(オリジナル)

Despite the success of text retrieval in many NLP tasks, code retrieval remains a largely underexplored area. Most text retrieval systems are tailored for natural language queries, often neglecting the specific challenges of retrieving code. This gap leaves existing models unable to effectively capture the diversity of programming languages and tasks across different domains, highlighting the need for more focused research in code retrieval. To address this, we introduce CodeXEmbed, a family of large-scale code embedding models ranging from 400M to 7B parameters. Our novel training pipeline unifies multiple programming languages and transforms various code-related tasks into a common retrieval framework, enhancing model generalizability and retrieval performance. Our 7B model sets a new state-of-the-art (SOTA) in code retrieval, outperforming the previous leading model, Voyage-Code, by over 20% on CoIR benchmark. In addition to excelling in code retrieval, our models demonstrate competitive performance on the widely adopted BeIR text retrieval benchmark, offering versatility across domains. Experimental results demonstrate that improving retrieval performance significantly enhances end-to-end Retrieval-Augmented Generation (RAG) performance for code-related tasks.

arxiv情報

著者 Ye Liu,Rui Meng,Shafiq Jot,Silvio Savarese,Caiming Xiong,Yingbo Zhou,Semih Yavuz
発行日 2024-11-19 16:54:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE パーマリンク