PENTACET data — 23 Million Contextual Code Comments and 250,000 SATD comments

要約

自己承認技術的負債 (SATD) 調査のほとんどは、SATD の検出に「TODO」や「FIXME」などの明示的な SATD 機能を利用しています。
詳しく見てみると、いくつかの SATD 研究では、コンテキストデータ (前後のソースコードコンテキスト) のない単純な SATD (‘Easy to Find’) コードコメントが使用されていることがわかります。
この研究では、PENTACET (または 5C データセット) データを通じてこのギャップに対処します。
PENTACET は、寄稿者ごとに厳選された大規模なコンテキストコードコメントであり、最も広範な SATD データです。
私たちは、合計 4 億 3,500 万の LOC を持つ 9,096 のオープンソースソフトウェア Java プロジェクトをマイニングしています。
その結果、2,300 万件のコードコメント、各コメントの前後のソースコードコンテキスト、および「見つけやすい」SATD と「見つけにくい」SATD の両方を含む SATD としてラベル付けされた 250,000 件を超えるコメントを含むデータセットが得られます。
私たちは、PENTACET データが人工知能技術を使用した SATD 研究を促進すると信じています。

要約(オリジナル)

Most Self-Admitted Technical Debt (SATD) research utilizes explicit SATD features such as ‘TODO’ and ‘FIXME’ for SATD detection. A closer look reveals several SATD research uses simple SATD (‘Easy to Find’) code comments without the contextual data (preceding and succeeding source code context). This work addresses this gap through PENTACET (or 5C dataset) data. PENTACET is a large Curated Contextual Code Comments per Contributor and the most extensive SATD data. We mine 9,096 Open Source Software Java projects with a total of 435 million LOC. The outcome is a dataset with 23 million code comments, preceding and succeeding source code context for each comment, and more than 250,000 comments labeled as SATD, including both ‘Easy to Find’ and ‘Hard to Find’ SATD. We believe PENTACET data will further SATD research using Artificial Intelligence techniques.

arxiv情報

著者	Murali Sridharan,Leevi Rantala,Mika Mäntylä
発行日	2023-08-11 13:40:46+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

PENTACET data — 23 Million Contextual Code Comments and 250,000 SATD comments

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー