Text-Tuple-Table: Towards Information Integration in Text-to-Table Generation via Global Tuple Extraction

要約

大量のテキスト情報を簡潔で構造化されたテーブルに圧縮するタスクは、大規模言語モデル (LLM) の出現と、テキストの要約やテキスト マイニングなどの下流タスクに対する潜在的な利点により、最近注目を集めています。
従来のアプローチでは、多くの場合、テキストから情報を直接複製する表が生成され、現実のシナリオでのテキストから表への生成には情報の抽出、推論、統合が必要となるため、より広範なコンテキストでの適用性が制限されていました。
ただし、このタスクに向けたデータセットと方法論の両方が不足しています。
本稿では、リアルタイムの解説テキストに基づいて競技の概要表を生成するために作成された新しいベンチマーク データセットである LiveSum を紹介します。
微調整とゼロショット設定の両方でこのタスクに関する最先端の LLM のパフォーマンスを評価し、さらにパフォーマンスを向上させるために $T^3$(Text-Tuple-Table) と呼ばれる新しいパイプラインを提案します。

広範な実験結果は、LLM が微調整後でも依然としてこのタスクに苦労していることを示していますが、私たちのアプローチは明示的なトレーニングなしで大幅なパフォーマンス向上を実現できます。
さらなる分析により、私たちの方法が他のいくつかのテキストから表へのデータセットに対する以前のアプローチを上回る強力な一般化能力を示すことが実証されました。
私たちのコードとデータは https://github.com/HKUST-KnowComp/LiveSum-TTT でご覧いただけます。

要約(オリジナル)

The task of condensing large chunks of textual information into concise and structured tables has gained attention recently due to the emergence of Large Language Models (LLMs) and their potential benefit for downstream tasks, such as text summarization and text mining. Previous approaches often generate tables that directly replicate information from the text, limiting their applicability in broader contexts, as text-to-table generation in real-life scenarios necessitates information extraction, reasoning, and integration. However, there is a lack of both datasets and methodologies towards this task. In this paper, we introduce LiveSum, a new benchmark dataset created for generating summary tables of competitions based on real-time commentary texts. We evaluate the performances of state-of-the-art LLMs on this task in both fine-tuning and zero-shot settings, and additionally propose a novel pipeline called $T^3$(Text-Tuple-Table) to improve their performances. Extensive experimental results demonstrate that LLMs still struggle with this task even after fine-tuning, while our approach can offer substantial performance gains without explicit training. Further analyses demonstrate that our method exhibits strong generalization abilities, surpassing previous approaches on several other text-to-table datasets. Our code and data can be found at https://github.com/HKUST-KnowComp/LiveSum-TTT.

arxiv情報

著者 Zheye Deng,Chunkit Chan,Weiqi Wang,Yuxi Sun,Wei Fan,Tianshi Zheng,Yauwai Yim,Yangqiu Song
発行日 2024-04-22 14:31:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク