DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems

要約

最近、大規模言語モデル (LLM) 開発者の間で、LLM ベースの文書読み取りシステムに対する関心が高まっています。これにより、ユーザーは単純な読解タスクを超えて、独自の文書をアップロードし、文書の内容に関連した質問をすることができます。
したがって、これらのシステムは、ファイルの解析、メタデータの抽出、マルチモーダルな情報の理解、長いコンテキストの読み取りなどの課題に取り組むために慎重に設計されています。
ただし、生のファイルと質問が入力として提供され、対応する応答が出力として期待されるようなシナリオでのパフォーマンスを評価するためのベンチマークは現在のところ存在しません。
このペーパーでは、LLM ベースの文書読み取りシステムを評価するために設計された新しいベンチマークである DocBench を紹介します。
私たちのベンチマークには、人間によるアノテーターの採用や合成質問の生成など、細心の注意を払って作成されたプロセスが含まれます。
これには、5 つの異なるドメインと 4 つの主要なタイプの質問にわたる、229 の実際のドキュメントと 1,102 の質問が含まれています。
Web インターフェイスまたは API 経由でアクセスできる独自の LLM ベースのシステムと、オープンソース LLM を採用した解析してから読み取るパイプラインの両方を評価します。
私たちの評価では、既存の LLM ベースの文書読み取りシステムと人間のパフォーマンスとの間に顕著なギャップがあることが明らかになり、熟練したシステムを開発する際の課題が浮き彫りになっています。
要約すると、DocBench は、現実世界のさまざまなシナリオの下で LLM ベースの文書読み取りシステムを評価するための標準化されたベンチマークを確立し、それによってこの研究分野の将来の進歩を導くことを目的としています。

要約(オリジナル)

Recently, there has been a growing interest among large language model (LLM) developers in LLM-based document reading systems, which enable users to upload their own documents and pose questions related to the document contents, going beyond simple reading comprehension tasks. Consequently, these systems have been carefully designed to tackle challenges such as file parsing, metadata extraction, multi-modal information understanding and long-context reading. However, no current benchmark exists to evaluate their performance in such scenarios, where a raw file and questions are provided as input, and a corresponding response is expected as output. In this paper, we introduce DocBench, a new benchmark designed to evaluate LLM-based document reading systems. Our benchmark involves a meticulously crafted process, including the recruitment of human annotators and the generation of synthetic questions. It includes 229 real documents and 1,102 questions, spanning across five different domains and four major types of questions. We evaluate both proprietary LLM-based systems accessible via web interfaces or APIs, and a parse-then-read pipeline employing open-source LLMs. Our evaluations reveal noticeable gaps between existing LLM-based document reading systems and human performance, underscoring the challenges of developing proficient systems. To summarize, DocBench aims to establish a standardized benchmark for evaluating LLM-based document reading systems under diverse real-world scenarios, thereby guiding future advancements in this research area.

arxiv情報

著者 Anni Zou,Wenhao Yu,Hongming Zhang,Kaixin Ma,Deng Cai,Zhuosheng Zhang,Hai Zhao,Dong Yu
発行日 2024-07-15 13:17:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク