要約
メインフレーム オペレーティング システムは、1940 年代に誕生したにもかかわらず、金融や政府などの重要なセクターをサポートし続けています。
ただし、これらのシステムは時代遅れとみなされ、大規模なメンテナンスと最新化が必要になることがよくあります。
この課題に対処するには、従来のコードベースを理解し、対話できる革新的なツールが必要です。
この目的を達成するために、メインフレームのレガシー システムと COBOL コードベースの知識に基づいて特別に設計された最先端の大規模言語モデル (LLM) である XMainframe を導入します。
私たちのソリューションには、高品質のトレーニング データセットを生成するための広範なデータ収集パイプラインの作成が含まれており、この特殊なドメインにおける XMainframe のパフォーマンスを向上させます。
さらに、多肢選択式の質問、質問応答、COBOL コードの要約など、メインフレームの知識を評価するための包括的なベンチマークである MainframeBench も紹介します。
私たちの経験的評価は、XMainframe がこれらのタスク全体で既存の最先端の LLM を常に上回るパフォーマンスを示していることを示しています。
具体的には、XMainframe は多肢選択問題で DeepSeek-Coder よりも 30% 高い精度を達成し、質問応答では Mixtral-Instruct 8x7B の BLEU スコアを 2 倍、COBOL 要約では GPT-3.5 の 6 倍のスコアを達成しています。
私たちの取り組みは、XMainframe がレガシー システムの管理と最新化を大幅に推進し、それによってソフトウェア開発者の生産性を向上させ、時間を節約できる可能性を浮き彫りにしています。
要約(オリジナル)
Mainframe operating systems, despite their inception in the 1940s, continue to support critical sectors like finance and government. However, these systems are often viewed as outdated, requiring extensive maintenance and modernization. Addressing this challenge necessitates innovative tools that can understand and interact with legacy codebases. To this end, we introduce XMainframe, a state-of-the-art large language model (LLM) specifically designed with knowledge of mainframe legacy systems and COBOL codebases. Our solution involves the creation of an extensive data collection pipeline to produce high-quality training datasets, enhancing XMainframe’s performance in this specialized domain. Additionally, we present MainframeBench, a comprehensive benchmark for assessing mainframe knowledge, including multiple-choice questions, question answering, and COBOL code summarization. Our empirical evaluations demonstrate that XMainframe consistently outperforms existing state-of-the-art LLMs across these tasks. Specifically, XMainframe achieves 30% higher accuracy than DeepSeek-Coder on multiple-choice questions, doubles the BLEU score of Mixtral-Instruct 8x7B on question answering, and scores six times higher than GPT-3.5 on COBOL summarization. Our work highlights the potential of XMainframe to drive significant advancements in managing and modernizing legacy systems, thereby enhancing productivity and saving time for software developers.
arxiv情報
著者 | Anh T. V. Dau,Hieu Trung Dao,Anh Tuan Nguyen,Hieu Trung Tran,Phong X. Nguyen,Nghi D. Q. Bui |
発行日 | 2024-08-12 14:12:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google