Data Race Detection Using Large Language Models

要約

大規模言語モデル(LLM)は、ハイパフォーマンスコンピューティングプログラムの解析と最適化を促進する代替戦略として、リソース集約的な手動ツール作成の必要性を回避し、大きな可能性を示している。本論文では、プロンプトエンジニアリングとファインチューニング技術を組み合わせた、新しいLLMベースのデータレース検出アプローチを探求する。DataRaceBenchから派生したDRB-MLという専用データセットを作成し、データレースのペアの存在と関連する変数、行番号、読み取り/書き込み情報を示す細かいラベルを付ける。DRB-MLを使用して、代表的なLLMを評価し、オープンソースのLLMを微調整します。我々の実験は、LLMがデータレース検出の有効なアプローチになり得ることを示している。しかし、データ・レースの原因となる変数ペアに関する詳細な情報が必要な場合には、従来のデータ・レース検出ツールに対抗することはできません。

要約(オリジナル)

Large language models (LLMs) are demonstrating significant promise as an alternate strategy to facilitate analyses and optimizations of high-performance computing programs, circumventing the need for resource-intensive manual tool creation. In this paper, we explore a novel LLM-based data race detection approach combining prompting engineering and fine-tuning techniques. We create a dedicated dataset named DRB-ML, which is derived from DataRaceBench, with fine-grain labels showing the presence of data race pairs and their associated variables, line numbers, and read/write information. DRB-ML is then used to evaluate representative LLMs and fine-tune open-source ones. Our experiment shows that LLMs can be a viable approach to data race detection. However, they still cannot compete with traditional data race detection tools when we need detailed information about variable pairs causing data races.

arxiv情報

著者 Le Chen,Xianzhong Ding,Murali Emani,Tristan Vanderbruggen,Pei-hung Lin,Chuanhua Liao
発行日 2023-10-03 06:09:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク