要約
この作業は、国際財務報告基準(IFRS)を使用して、持続可能性報告のためのドメイン固有の知識アシスタントを開発するためのカスタムアプローチを提示します。
このドメインには、公開されている質問アンダーデータセットはありません。これにより、IFRSレポートのある企業をサポートするための高品質のチャットボットの開発が妨げられています。
したがって、このプロジェクトの2つの重要な貢献は次のとおりです。(1)IFRSの持続可能性基準に基づく高品質の合成質問(QA)データセット。
これは、持続可能性レポートにおける潜在的なユーザークエリの幅広いスペクトルに対処する1,063の多様なQAペアで構成されています。
さまざまなLLMベースの手法が採用されており、チェーンの推論や少数のショットプロンプトなど、データセットを作成します。
カスタム評価フレームワークは、忠実さ、関連性、ドメインの特異性など、複数の次元にわたって質問と回答の質を評価するために開発されています。
データセットは、これらのメトリックの10のうち8.16のスコア範囲を平均します。
(2)サステナビリティレポートドメインで質問を回避するための2つのアーキテクチャ – ラグパイプラインと完全なLLMベースのパイプライン。
アーキテクチャは、QAデータセットでの実験、微調整、トレーニングによって開発されます。
最終的なパイプラインは、ドメイン固有のデータで微調整されたLLMと、複雑なクエリの処理を改善するための業界分類コンポーネントを備えています。
RAGアーキテクチャは、単一産業で85.32%、産業を横断する多肢選択式の質問で72.15%の精度を達成し、ベースラインアプローチをそれぞれ4.67パーセントと19.21パーセントポイント上回ります。
LLMベースのパイプラインは、単一産業で93.45%、産業を横断する多肢選択式の質問で80.30%の精度を達成し、ベースラインでそれぞれ12.80および27.36パーセントポイントの改善を達成しています。
要約(オリジナル)
This work presents a custom approach to developing a domain specific knowledge assistant for sustainability reporting using the International Financial Reporting Standards (IFRS). In this domain, there is no publicly available question-answer dataset, which has impeded the development of a high-quality chatbot to support companies with IFRS reporting. The two key contributions of this project therefore are: (1) A high-quality synthetic question-answer (QA) dataset based on IFRS sustainability standards, created using a novel generation and evaluation pipeline leveraging Large Language Models (LLMs). This comprises 1,063 diverse QA pairs that address a wide spectrum of potential user queries in sustainability reporting. Various LLM-based techniques are employed to create the dataset, including chain-of-thought reasoning and few-shot prompting. A custom evaluation framework is developed to assess question and answer quality across multiple dimensions, including faithfulness, relevance, and domain specificity. The dataset averages a score range of 8.16 out of 10 on these metrics. (2) Two architectures for question-answering in the sustainability reporting domain – a RAG pipeline and a fully LLM-based pipeline. The architectures are developed by experimenting, fine-tuning, and training on the QA dataset. The final pipelines feature an LLM fine-tuned on domain specific data and an industry classification component to improve the handling of complex queries. The RAG architecture achieves an accuracy of 85.32% on single-industry and 72.15% on cross-industry multiple-choice questions, outperforming the baseline approach by 4.67 and 19.21 percentage points, respectively. The LLM-based pipeline achieves an accuracy of 93.45% on single-industry and 80.30% on cross-industry multiple-choice questions, an improvement of 12.80 and 27.36 percentage points over the baseline, respectively.
arxiv情報
著者 | Maria-Flavia Lovin |
発行日 | 2025-02-06 14:12:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google