WeQA: A Benchmark for Retrieval Augmented Generation in Wind Energy Domain

要約

Wind Energy Project Assessmentは、意思決定者に重要な課題を提示します。意思決定者は、環境および科学的文書の数百ページをナビゲートおよび統合する必要があります。
これらのドキュメントは、多くの場合、異なる地域とプロジェクトスケールにまたがって、専門知識の複数のドメインをカバーしています。
このプロセスは、伝統的に、意思決定者からの計り知れない時間と専門知識を要求しています。
大規模な言語モデル(LLM)と検索拡張生成(RAG)アプローチの出現は、迅速で正確なクロスドキュメント情報の検索と合成を可能にする変革的ソリューションを提供します。
自然言語処理(NLP)とテキスト生成の状況が進化し続けるにつれて、ベンチマークが異なるRAGベースのLLMのパフォーマンスを評価および比較するために不可欠になります。
この論文では、ドメインに関連するラグベンチマークを生成するための包括的なフレームワークを紹介します。
私たちのフレームワークは、人間(ドメインの専門家)-AI(LLM)チームとの自動質問回答生成に基づいています。
ケーススタディとして、風力エネルギープロジェクトの環境面に関連する複数の科学文書/レポートで構成される風力エネルギードメインの最初のベンチマークであるWeqAを導入することにより、フレームワークを実証します。
私たちのフレームワークは、さまざまな複雑さレベルの多様なメトリックと複数の質問タイプを使用してRAGパフォーマンスを体系的に評価し、複雑な科学ドメインにおけるRAGベースのシステムの厳密な評価の基礎を提供し、研究者がドメイン固有のアプリケーションの改善の領域を特定できるようにします。

要約(オリジナル)

Wind energy project assessments present significant challenges for decision-makers, who must navigate and synthesize hundreds of pages of environmental and scientific documentation. These documents often span different regions and project scales, covering multiple domains of expertise. This process traditionally demands immense time and specialized knowledge from decision-makers. The advent of Large Language Models (LLM) and Retrieval Augmented Generation (RAG) approaches offer a transformative solution, enabling rapid, accurate cross-document information retrieval and synthesis. As the landscape of Natural Language Processing (NLP) and text generation continues to evolve, benchmarking becomes essential to evaluate and compare the performance of different RAG-based LLMs. In this paper, we present a comprehensive framework to generate a domain relevant RAG benchmark. Our framework is based on automatic question-answer generation with Human (domain experts)-AI (LLM) teaming. As a case study, we demonstrate the framework by introducing WeQA, a first-of-its-kind benchmark on the wind energy domain which comprises of multiple scientific documents/reports related to environmental aspects of wind energy projects. Our framework systematically evaluates RAG performance using diverse metrics and multiple question types with varying complexity level, providing a foundation for rigorous assessment of RAG-based systems in complex scientific domains and enabling researchers to identify areas for improvement in domain-specific applications.

arxiv情報

著者 Rounak Meyur,Hung Phan,Sridevi Wagle,Jan Strube,Mahantesh Halappanavar,Sameera Horawalavithana,Anurag Acharya,Sai Munikoti
発行日 2025-06-09 14:33:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク