Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol

要約

文献レビュー表は、科学論文のコレクションを要約して比較するために不可欠です。
科学論文のコレクションを考慮して、ユーザーの情報ニーズを最もよく満たすテーブルを生成するタスクを探ります。
最近の作品(Newman et al。、2024)に基づいて、LLMベースの方法と人間の注釈の組み合わせを通じて、実際の複雑さに対処するための以前のアプローチを拡張します。
当社の貢献は、実際の使用で遭遇する3つの重要な課題に焦点を当てています。
(ii)検索された候補論文には、無関係なコンテンツが頻繁に含まれています。
(iii)タスクの評価は、浅いテキストの類似性手法を超えて移動し、代わりに情報を求めるタスクの推定テーブルの有用性を評価する必要があります(例:論文の比較)。
再現可能な評価をサポートするために、このタスクのより現実的で挑戦的なベンチマークであるArxiv2tableを紹介し、現実世界のシナリオでの文献レビューテーブル生成を改善するための新しいアプローチを紹介します。
このベンチマークに関する私たちの広範な実験は、オープンウェイトと独自のLLMの両方がタスクに苦労し、その困難とさらなる進歩の必要性を強調していることを示しています。
データセットとコードは、https://github.com/jhu-clsp/arxiv2tableで入手できます。

要約(オリジナル)

Literature review tables are essential for summarizing and comparing collections of scientific papers. We explore the task of generating tables that best fulfill a user’s informational needs given a collection of scientific papers. Building on recent work (Newman et al., 2024), we extend prior approaches to address real-world complexities through a combination of LLM-based methods and human annotations. Our contributions focus on three key challenges encountered in real-world use: (i) User prompts are often under-specified; (ii) Retrieved candidate papers frequently contain irrelevant content; and (iii) Task evaluation should move beyond shallow text similarity techniques and instead assess the utility of inferred tables for information-seeking tasks (e.g., comparing papers). To support reproducible evaluation, we introduce ARXIV2TABLE, a more realistic and challenging benchmark for this task, along with a novel approach to improve literature review table generation in real-world scenarios. Our extensive experiments on this benchmark show that both open-weight and proprietary LLMs struggle with the task, highlighting its difficulty and the need for further advancements. Our dataset and code are available at https://github.com/JHU-CLSP/arXiv2Table.

arxiv情報

著者 Weiqi Wang,Jiefu Ou,Yangqiu Song,Benjamin Van Durme,Daniel Khashabi
発行日 2025-04-14 14:52:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク