CT-Eval: Benchmarking Chinese Text-to-Table Performance in Large Language Models

要約

Text-to-Table は、非構造化ドキュメントから重要な情報を伝える構造化テーブルを生成することを目的としています。
既存のテキストから表へのデータセットは通常英語指向であるため、英語以外の言語での研究は制限されています。
一方、大規模言語モデル (LLM) の出現は、多言語設定 (ChatGPT など) における一般的なタスク ソルバーとして大きな成功を収め、理論的には他の言語でのテキストからテーブルへの変換を可能にしました。
この論文では、このタスクに関して LLM のベンチマークを行うために、中国語のテキストから表へのデータセット CT-Eval を提案します。
英語のテキストから表へのデータセットの予備分析では、データセット構築の 2 つの重要な要素、データの多様性とデータの幻覚が浮き彫りになりました。
これにインスピレーションを得た CT-Eval データセットは、人気のある中国の学際的なオンライン百科事典をソースとして選択し、データの多様性を確保するために 28 のドメインをカバーしています。
データの幻覚を最小限に抑えるために、まず幻覚のあるタスク サンプルを判断して除外するように LLM をトレーニングし、次にヒューマン アノテーターを採用して検証セットとテスト セット内の幻覚をクリーンアップします。
このプロセスを経て、CT-Eval には 88.6K のタスク サンプルが含まれます。
CT-Eval を使用して、オープンソースおよびクローズドソース LLM のパフォーマンスを評価します。
私たちの結果は、ゼロショット LLM (GPT-4 を含む) には人間の判断と比較して依然として大きなパフォーマンスのギャップがあることが明らかになりました。
さらに、微調整後、オープンソース LLM はテキストからテーブルへの変換機能を大幅に向上させ、GPT-4 を大幅に上回るパフォーマンスを発揮できます。
つまり、CT-Eval は、研究者が既存の LLM の中国語のテキストを表に変換する能力を評価し、迅速に理解するのに役立つだけでなく、LLM のテキストを表に変換するパフォーマンスを大幅に向上させる貴重なリソースとしても機能します。

要約(オリジナル)

Text-to-Table aims to generate structured tables to convey the key information from unstructured documents. Existing text-to-table datasets are typically oriented English, limiting the research in non-English languages. Meanwhile, the emergence of large language models (LLMs) has shown great success as general task solvers in multi-lingual settings (e.g., ChatGPT), theoretically enabling text-to-table in other languages. In this paper, we propose a Chinese text-to-table dataset, CT-Eval, to benchmark LLMs on this task. Our preliminary analysis of English text-to-table datasets highlights two key factors for dataset construction: data diversity and data hallucination. Inspired by this, the CT-Eval dataset selects a popular Chinese multidisciplinary online encyclopedia as the source and covers 28 domains to ensure data diversity. To minimize data hallucination, we first train an LLM to judge and filter out the task samples with hallucination, then employ human annotators to clean the hallucinations in the validation and testing sets. After this process, CT-Eval contains 88.6K task samples. Using CT-Eval, we evaluate the performance of open-source and closed-source LLMs. Our results reveal that zero-shot LLMs (including GPT-4) still have a significant performance gap compared with human judgment. Furthermore, after fine-tuning, open-source LLMs can significantly improve their text-to-table ability, outperforming GPT-4 by a large margin. In short, CT-Eval not only helps researchers evaluate and quickly understand the Chinese text-to-table ability of existing LLMs but also serves as a valuable resource to significantly improve the text-to-table performance of LLMs.

arxiv情報

著者 Haoxiang Shi,Jiaan Wang,Jiarong Xu,Cen Wang,Tetsuya Sakai
発行日 2024-05-20 16:58:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク