PENTACET data — 23 Million Contextual Code Comments and 500,000 SATD comments

要約

Most Self-Acmitted Technical Debt (SATD) の調査では、SATD の検出に「TODO」や「FIXME」などの明示的な SATD 機能を利用しています。
よく見ると、いくつかの SATD 調査では、コンテキストデータ (前後のソースコードコンテキスト) なしで単純な SATD (「見つけやすい」) コードコメントが使用されていることがわかります。
この作業は、PENTACET (または 5C データセット) データを通じてこのギャップに対処します。
PENTACET は、コントリビューターごとのキュレートされた大規模なコンテキストコードコメントであり、最も広範な SATD データです。
合計 4 億 3,500 万の LOC を持つ 9,096 のオープンソースソフトウェア Java プロジェクトをマイニングしています。
その結果、2,300 万のコードコメント、各コメントの前後のソースコードコンテキスト、および「見つけやすい」SATD と「見つけにくい」SATD の両方を含む、SATD としてラベル付けされた 500,000 を超えるコメントを含むデータセットが作成されます。
PENTACET のデータは、人工知能技術を使用した SATD 研究をさらに進めると信じています。

要約(オリジナル)

Most Self-Admitted Technical Debt (SATD) research utilizes explicit SATD features such as ‘TODO’ and ‘FIXME’ for SATD detection. A closer look reveals several SATD research uses simple SATD (‘Easy to Find’) code comments without the contextual data (preceding and succeeding source code context). This work addresses this gap through PENTACET (or 5C dataset) data. PENTACET is a large Curated Contextual Code Comments per Contributor and the most extensive SATD data. We mine 9,096 Open Source Software Java projects with a total of 435 million LOC. The outcome is a dataset with 23 million code comments, preceding and succeeding source code context for each comment, and more than 500,000 comments labeled as SATD, including both ‘Easy to Find’ and ‘Hard to Find’ SATD. We believe PENTACET data will further SATD research using Artificial Intelligence techniques.

arxiv情報

著者	Murali Sridharan,Leevi Rantala,Mika Mäntylä
発行日	2023-03-24 14:42:42+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

PENTACET data — 23 Million Contextual Code Comments and 500,000 SATD comments

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー