要約
この論文では、コードセマンティクス、リポジトリ構造、コールグラフ依存関係を統合するコード編集タスク用に設計された密な検索モデルであるCoretを紹介します。
このモデルは、新機能の実装やバグの修正などの自然言語クエリに基づいて、コードリポジトリの関連部分を取得することに焦点を当てています。
これらの取得コードチャンクは、ユーザーまたは2番目のコード編集モデルまたはエージェントに提示できます。
コレットを訓練するために、リポジトリレベルの検索用に明示的に設計された損失関数を提案します。
SWEベンチおよびロングコードアリーナのバグローカリゼーションデータセットでは、モデルが既存のモデルより少なくとも15パーセントポイントだけ検索リコールを改善し、これらの結果を達成する上で重要性を示すために設計の選択肢を除去することを示します。
要約(オリジナル)
In this paper, we introduce CoRet, a dense retrieval model designed for code-editing tasks that integrates code semantics, repository structure, and call graph dependencies. The model focuses on retrieving relevant portions of a code repository based on natural language queries such as requests to implement new features or fix bugs. These retrieved code chunks can then be presented to a user or to a second code-editing model or agent. To train CoRet, we propose a loss function explicitly designed for repository-level retrieval. On SWE-bench and Long Code Arena’s bug localisation datasets, we show that our model substantially improves retrieval recall by at least 15 percentage points over existing models, and ablate the design choices to show their importance in achieving these results.
arxiv情報
著者 | Fabio Fehr,Prabhu Teja Sivaprasad,Luca Franceschi,Giovanni Zappella |
発行日 | 2025-05-30 15:36:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google