Data Race Detection Using Large Language Models

要約

大規模言語モデル (LLM) は、ハイパフォーマンス コンピューティング プログラムの分析と最適化を促進し、リソースを大量に消費する手動ツール作成の必要性を回避するための代替戦略として、大きな可能性を示しています。
このペーパーでは、プロンプト エンジニアリングと微調整技術を組み合わせた、新しい LLM ベースのデータ競合検出アプローチを検討します。
DataRaceBench から派生した DRB-ML という専用のデータセットを作成します。このデータセットには、データ競合ペアの存在とそれに関連する変数、行番号、読み取り/書き込み情報を示す詳細なラベルが付いています。
その後、DRB-ML を使用して代表的な LLM を評価し、オープンソースの LLM を微調整します。
私たちの実験は、LLM がデータ競合検出に対する実行可能なアプローチであることを示しています。
ただし、データ競合の原因となる変数ペアに関する詳細な情報が必要な場合には、依然として従来のデータ競合検出ツールと競合できません。

要約(オリジナル)

Large language models (LLMs) are demonstrating significant promise as an alternate strategy to facilitate analyses and optimizations of high-performance computing programs, circumventing the need for resource-intensive manual tool creation. In this paper, we explore a novel LLM-based data race detection approach combining prompting engineering and fine-tuning techniques. We create a dedicated dataset named DRB-ML, which is derived from DataRaceBench, with fine-grain labels showing the presence of data race pairs and their associated variables, line numbers, and read/write information. DRB-ML is then used to evaluate representative LLMs and fine-tune open-source ones. Our experiment shows that LLMs can be a viable approach to data race detection. However, they still cannot compete with traditional data race detection tools when we need detailed information about variable pairs causing data races.

arxiv情報

著者 Le Chen,Xianzhong Ding,Murali Emani,Tristan Vanderbruggen,Pei-hung Lin,Chuanhua Liao
発行日 2023-08-15 00:08:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク