要約
大規模言語モデル (LLM) は、テキスト分析タスクにおいて顕著な機能を実証していますが、複雑な現実世界のアプリケーションでの評価は依然として困難です。
一連のタスクであるマルチインサイト マルチドキュメント抽出 (MIMDE) タスクを定義します。これには、文書コーパスから最適な洞察セットを抽出し、これらの洞察をソース文書にマッピングし直すことが含まれます。
このタスクは、調査回答の分析から医療記録の処理に至るまで、ドキュメント全体で重要な洞察を特定して追跡することが重要である多くの実際のアプリケーションの基礎となります。
私たちは MIMDE の評価フレームワークを開発し、相補的なヒト データセットと合成データセットの新しいセットを導入して、LLM 評価における合成データの可能性を検討します。
抽出された洞察を比較するための最適な指標を確立した後、両方のデータセットで 20 個の最先端の LLM のベンチマークを実行します。
私たちの分析では、2 つのデータセットから洞察を抽出する LLM の能力の間に強い相関関係 (0.71) があることが明らかになりましたが、合成データはドキュメントレベルの分析の複雑さを捉えることができません。
これらの発見は、テキスト分析システムの評価における合成データの使用に関する重要な指針を提供し、その可能性と限界の両方を強調しています。
要約(オリジナル)
Large language models (LLMs) have demonstrated remarkable capabilities in text analysis tasks, yet their evaluation on complex, real-world applications remains challenging. We define a set of tasks, Multi-Insight Multi-Document Extraction (MIMDE) tasks, which involves extracting an optimal set of insights from a document corpus and mapping these insights back to their source documents. This task is fundamental to many practical applications, from analyzing survey responses to processing medical records, where identifying and tracing key insights across documents is crucial. We develop an evaluation framework for MIMDE and introduce a novel set of complementary human and synthetic datasets to examine the potential of synthetic data for LLM evaluation. After establishing optimal metrics for comparing extracted insights, we benchmark 20 state-of-the-art LLMs on both datasets. Our analysis reveals a strong correlation (0.71) between the ability of LLMs to extracts insights on our two datasets but synthetic data fails to capture the complexity of document-level analysis. These findings offer crucial guidance for the use of synthetic data in evaluating text analysis systems, highlighting both its potential and limitations.
arxiv情報
著者 | John Francis,Saba Esnaashari,Anton Poletaev,Sukankana Chakraborty,Youmna Hashem,Jonathan Bright |
発行日 | 2024-11-29 13:24:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google