LLM assisted web application functional requirements generation: A case study of four popular LLMs over a Mess Management System

要約

他の分野と同様に、大規模な言語モデル(LLM)は、ソフトウェア開発のさまざまな段階で開発者が必要なアーティファクトを生成するのを支援することにより、ソフトウェアエンジニアリングに大きな影響を与えました。
このホワイトペーパーでは、ユーザーケース、ビジネスルール、Webアプリケーションの共同ワークフローであるMess Management Systemを含む機能仕様を生成する際に、一般的なLLMS GPT、Claude、Gemini、およびDeepSeekのパフォーマンスを比較するケーススタディを紹介します。
この研究では、ゼロショットの迅速な問題ステートメントに対する参照仕様と比較して、構文的およびセマンティックな正しさ、一貫性、曖昧さ、および完全性の観点から、LLM生成のユースケース、ビジネスルール、および共同ワークフローの品質を評価しました。
我々の結果は、4つのLLMすべてが構文的かつ意味的に正しい、ほとんどが曖昧でないアーティファクトを指定できることを示唆しました。
それでも、それらは時々一貫性がなく、生成された仕様の完全性が大きく異なる場合があります。
ClaudeとGeminiはすべての参照ユースケースを生成し、Claudeは最も完全ではあるがやや冗長なユースケースの仕様を達成しました。
ワークフローを指定するために同様の結果が得られました。
ただし、4つのLLMすべてが関連するビジネスルールの生成に苦労し、DeepSeekは最も参照ルールを生成しますが、完全性が低くなりました。
全体として、クロードはより完全な仕様アーティファクトを生成しましたが、ジェミニは生成した仕様がより正確でした。

要約(オリジナル)

Like any other discipline, Large Language Models (LLMs) have significantly impacted software engineering by helping developers generate the required artifacts across various phases of software development. This paper presents a case study comparing the performance of popular LLMs GPT, Claude, Gemini, and DeepSeek in generating functional specifications that include use cases, business rules, and collaborative workflows for a web application, the Mess Management System. The study evaluated the quality of LLM generated use cases, business rules, and collaborative workflows in terms of their syntactic and semantic correctness, consistency, non ambiguity, and completeness compared to the reference specifications against the zero-shot prompted problem statement. Our results suggested that all four LLMs can specify syntactically and semantically correct, mostly non-ambiguous artifacts. Still, they may be inconsistent at times and may differ significantly in the completeness of the generated specification. Claude and Gemini generated all the reference use cases, with Claude achieving the most complete but somewhat redundant use case specifications. Similar results were obtained for specifying workflows. However, all four LLMs struggled to generate relevant Business Rules, with DeepSeek generating the most reference rules but with less completeness. Overall, Claude generated more complete specification artifacts, while Gemini was more precise in the specifications it generated.

arxiv情報

著者 Rashmi Gupta,Aditya K Gupta,Aarav Jain,Avinash C Pandey,Atul Gupta
発行日 2025-05-23 15:25:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE パーマリンク