要約
コード埋め込みは、コードのセマンティック表現をキャプチャし、コード検索などのさまざまなコード関連の大手言語モデル(LLM)アプリケーションにとって重要です。
以前のトレーニングは、主に、ポジティブな自然言語(NL)コードペアとバッチ内のネガを比較することにより、Infonceの損失を最適化することに依存しています。
ただし、コードコンテキストのまばらな性質のため、肯定的なペアとネガティブペアの主要な違いを比較することによってのみトレーニングは、より深いセマンティックニュアンスをキャプチャできない場合があります。
この問題に対処するために、改善されたコード検索(OASIS)のための新しい注文編成戦略を提案します。
注文ベースの類似性ラベルを活用して、ネガティブペア間の類似性の微妙な違いをキャプチャするモデルをトレーニングします。
広範なベンチマーク評価は、OASISモデルが、主要な肯定的な違いのみに焦点を当てた以前の最先端モデルを大幅に上回ることを示しています。
効果的なコード埋め込みトレーニングのために、負のペア間で微妙な違いを微妙なペア間で活用することの価値を強調しています。
要約(オリジナル)
Code embeddings capture the semantic representations of code and are crucial for various code-related large language model (LLM) applications, such as code search. Previous training primarily relies on optimizing the InfoNCE loss by comparing positive natural language (NL)-code pairs with in-batch negatives. However, due to the sparse nature of code contexts, training solely by comparing the major differences between positive and negative pairs may fail to capture deeper semantic nuances. To address this issue, we propose a novel order-augmented strategy for improved code search (OASIS). It leverages order-based similarity labels to train models to capture subtle differences in similarity among negative pairs. Extensive benchmark evaluations demonstrate that our OASIS model significantly outperforms previous state-of-the-art models focusing solely on major positive-negative differences. It underscores the value of exploiting subtle differences among negative pairs with order labels for effective code embedding training.
arxiv情報
著者 | Zuchen Gao,Zizheng Zhan,Xianming Li,Erxin Yu,Haotian Zhang,Bin Chen,Yuqun Zhang,Jing Li |
発行日 | 2025-03-14 10:09:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google