PENTACET data — 23 Million Contextual Code Comments and 250,000 SATD comments

要約

自己承認技術的負債 (SATD) 調査のほとんどは、SATD の検出に「TODO」や「FIXME」などの明示的な SATD 機能を利用しています。
詳しく見てみると、いくつかの SATD 研究では、コンテキスト データ (前後のソース コード コンテキスト) のない単純な SATD (‘Easy to Find’) コード コメントが使用されていることがわかります。
この研究では、PENTACET (または 5C データセット) データを通じてこのギャップに対処します。
PENTACET は、寄稿者ごとに厳選された大規模なコンテキスト コード コメントであり、最も広範な SATD データです。
私たちは、合計 4 億 3,500 万の LOC を持つ 9,096 のオープンソース ソフトウェア Java プロジェクトをマイニングしています。
その結果、2,300 万件のコード コメント、各コメントの前後のソース コード コンテキスト、および「見つけやすい」SATD と「見つけにくい」SATD の両方を含む SATD としてラベル付けされた 250,000 件を超えるコメントを含むデータセットが得られます。
私たちは、PENTACET データが人工知能技術を使用した SATD 研究を促進すると信じています。

要約(オリジナル)

Most Self-Admitted Technical Debt (SATD) research utilizes explicit SATD features such as ‘TODO’ and ‘FIXME’ for SATD detection. A closer look reveals several SATD research uses simple SATD (‘Easy to Find’) code comments without the contextual data (preceding and succeeding source code context). This work addresses this gap through PENTACET (or 5C dataset) data. PENTACET is a large Curated Contextual Code Comments per Contributor and the most extensive SATD data. We mine 9,096 Open Source Software Java projects with a total of 435 million LOC. The outcome is a dataset with 23 million code comments, preceding and succeeding source code context for each comment, and more than 250,000 comments labeled as SATD, including both ‘Easy to Find’ and ‘Hard to Find’ SATD. We believe PENTACET data will further SATD research using Artificial Intelligence techniques.

arxiv情報

著者 Murali Sridharan,Leevi Rantala,Mika Mäntylä
発行日 2023-08-11 13:40:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE パーマリンク