PENTACET data — 23 Million Contextual Code Comments and 500,000 SATD comments

要約

Most Self-Acmitted Technical Debt (SATD) の調査では、SATD の検出に「TODO」や「FIXME」などの明示的な SATD 機能を利用しています。
よく見ると、いくつかの SATD 調査では、コンテキスト データ (前後のソース コード コンテキスト) なしで単純な SATD (「見つけやすい」) コード コメントが使用されていることがわかります。
この作業は、PENTACET (または 5C データセット) データを通じてこのギャップに対処します。
PENTACET は、コントリビューターごとのキュレートされた大規模なコンテキスト コード コメントであり、最も広範な SATD データです。
合計 4 億 3,500 万の LOC を持つ 9,096 のオープン ソース ソフトウェア Java プロジェクトをマイニングしています。
その結果、2,300 万のコード コメント、各コメントの前後のソース コード コンテキスト、および「見つけやすい」SATD と「見つけにくい」SATD の両方を含む、SATD としてラベル付けされた 500,000 を超えるコメントを含むデータセットが作成されます。
PENTACET のデータは、人工知能技術を使用した SATD 研究をさらに進めると信じています。

要約(オリジナル)

Most Self-Admitted Technical Debt (SATD) research utilizes explicit SATD features such as ‘TODO’ and ‘FIXME’ for SATD detection. A closer look reveals several SATD research uses simple SATD (‘Easy to Find’) code comments without the contextual data (preceding and succeeding source code context). This work addresses this gap through PENTACET (or 5C dataset) data. PENTACET is a large Curated Contextual Code Comments per Contributor and the most extensive SATD data. We mine 9,096 Open Source Software Java projects with a total of 435 million LOC. The outcome is a dataset with 23 million code comments, preceding and succeeding source code context for each comment, and more than 500,000 comments labeled as SATD, including both ‘Easy to Find’ and ‘Hard to Find’ SATD. We believe PENTACET data will further SATD research using Artificial Intelligence techniques.

arxiv情報

著者 Murali Sridharan,Leevi Rantala,Mika Mäntylä
発行日 2023-03-24 14:42:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE パーマリンク