TeleQnA: A Benchmark Dataset to Assess Large Language Models Telecommunications Knowledge

要約

電気通信における大規模言語モデル (LLM) の知識を評価するために設計された最初のベンチマーク データセットである TeleQnA を紹介します。
このデータセットは 10,000 の質問と回答で構成されており、規格や研究論文などのさまざまなソースから取得しています。
このペーパーでは、このデータセットの作成を担当する自動質問生成フレームワークの概要と、質問の品質を確保するためにさまざまな段階で人による入力がどのように統合されたかについて説明します。
その後、提供されたデータセットを使用して評価が実行され、GPT-3.5 や GPT-4 などの LLM の機能が評価されます。
この結果は、これらのモデルが標準に関連する複雑な質問には苦戦しているものの、一般的な通信関連の問い合わせには熟練していることを示しています。
さらに、私たちの結果は、通信知識コンテキストを組み込むことでパフォーマンスが大幅に向上することを示しており、これにより、特殊な通信基盤モデルの必要性が明らかになります。
最後に、データセットは現役の通信専門家と共有され、その後、そのパフォーマンスが LLM のパフォーマンスと比較してベンチマークされます。
この調査結果は、LLM が膨大な量の情報を処理する能力のおかげで、電気通信の知識において現役の専門家のパフォーマンスに匹敵する可能性があることを示しており、この分野における LLM の可能性を強調しています。
データセットは GitHub で公開されています。

要約(オリジナル)

We introduce TeleQnA, the first benchmark dataset designed to evaluate the knowledge of Large Language Models (LLMs) in telecommunications. Comprising 10,000 questions and answers, this dataset draws from diverse sources, including standards and research articles. This paper outlines the automated question generation framework responsible for creating this dataset, along with how human input was integrated at various stages to ensure the quality of the questions. Afterwards, using the provided dataset, an evaluation is conducted to assess the capabilities of LLMs, including GPT-3.5 and GPT-4. The results highlight that these models struggle with complex standards related questions but exhibit proficiency in addressing general telecom-related inquiries. Additionally, our results showcase how incorporating telecom knowledge context significantly enhances their performance, thus shedding light on the need for a specialized telecom foundation model. Finally, the dataset is shared with active telecom professionals, whose performance is subsequently benchmarked against that of the LLMs. The findings illustrate that LLMs can rival the performance of active professionals in telecom knowledge, thanks to their capacity to process vast amounts of information, underscoring the potential of LLMs within this domain. The dataset has been made publicly accessible on GitHub.

arxiv情報

著者 Ali Maatouk,Fadhel Ayed,Nicola Piovesan,Antonio De Domenico,Merouane Debbah,Zhi-Quan Luo
発行日 2023-10-23 15:55:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IT, cs.LG, math.IT パーマリンク