要約
大規模言語モデル(LLM)は、ハイパフォーマンスコンピューティングプログラムの解析と最適化を促進する代替戦略として、リソース集約的な手動ツール作成の必要性を回避し、大きな可能性を示している。本論文では、プロンプトエンジニアリングとファインチューニング技術を組み合わせた、新しいLLMベースのデータレース検出アプローチを探求する。DataRaceBenchから派生したDRB-MLという専用データセットを作成し、データレースのペアの存在と関連する変数、行番号、読み取り/書き込み情報を示す細かいラベルを付ける。DRB-MLを使用して、代表的なLLMを評価し、オープンソースのLLMを微調整します。我々の実験は、LLMがデータレース検出の有効なアプローチになり得ることを示している。しかし、データ・レースの原因となる変数ペアに関する詳細な情報が必要な場合には、従来のデータ・レース検出ツールに対抗することはできません。
要約(オリジナル)
Large language models (LLMs) are demonstrating significant promise as an alternate strategy to facilitate analyses and optimizations of high-performance computing programs, circumventing the need for resource-intensive manual tool creation. In this paper, we explore a novel LLM-based data race detection approach combining prompting engineering and fine-tuning techniques. We create a dedicated dataset named DRB-ML, which is derived from DataRaceBench, with fine-grain labels showing the presence of data race pairs and their associated variables, line numbers, and read/write information. DRB-ML is then used to evaluate representative LLMs and fine-tune open-source ones. Our experiment shows that LLMs can be a viable approach to data race detection. However, they still cannot compete with traditional data race detection tools when we need detailed information about variable pairs causing data races.
arxiv情報
著者 | Le Chen,Xianzhong Ding,Murali Emani,Tristan Vanderbruggen,Pei-hung Lin,Chuanhua Liao |
発行日 | 2023-10-03 06:09:18+00:00 |
arxivサイト | arxiv_id(pdf) |