要約
この研究では、公式のウェブサイトから細心の注意を払って収集された学術環境で、生成AIS(GAIS)と大規模な言語モデル(LLMS)を使用するための80の学術ガイドラインを含むデータセットであるAGGAを紹介します。
データセットには188,674語が含まれており、モデル合成、抽象化の識別、ドキュメント構造評価など、要件エンジニアリングに一般的に適用される自然言語処理タスクの貴重なリソースとして機能します。
さらに、AGGAはさらに注釈を付けて、あいまいさの検出、要件分類、同等の要件の識別など、さまざまなタスクのベンチマークとして機能することができます。
私たちの方法論的に厳密なアプローチにより、6大陸のトップランクの大学を含む多様な世界の機関を代表する大学の選択により、徹底的な調査が保証されました。
データセットは、人文科学、技術、公的機関と民間機関の両方を含むさまざまな学術分野からの視点を捉えており、学界におけるGAIとLLMの統合に関する幅広い洞察を提供します。
要約(オリジナル)
This study introduces AGGA, a dataset comprising 80 academic guidelines for the use of Generative AIs (GAIs) and Large Language Models (LLMs) in academic settings, meticulously collected from official university websites. The dataset contains 188,674 words and serves as a valuable resource for natural language processing tasks commonly applied in requirements engineering, such as model synthesis, abstraction identification, and document structure assessment. Additionally, AGGA can be further annotated to function as a benchmark for various tasks, including ambiguity detection, requirements categorization, and the identification of equivalent requirements. Our methodologically rigorous approach ensured a thorough examination, with a selection of universities that represent a diverse range of global institutions, including top-ranked universities across six continents. The dataset captures perspectives from a variety of academic fields, including humanities, technology, and both public and private institutions, offering a broad spectrum of insights into the integration of GAIs and LLMs in academia.
arxiv情報
著者 | Junfeng Jiao,Saleh Afroogh,Kevin Chen,David Atkinson,Amit Dhurandhar |
発行日 | 2025-03-18 16:45:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google