要約
ドキュメントからの手順グラフの自動抽出により、ユーザーは視覚的なグラフをざっと読むことで複雑な手順を簡単に理解できる低コストの方法が作成されます。
最近の研究の進歩にも関わらず、既存の研究がこの課題をうまく解決しているかどうか (Q1)、そして新興の大規模言語モデル (LLM) がこの課題に新たな機会をもたらすことができるかどうか (Q2) については未解決のままです。
この目的を達成するために、大規模で高品質のデータセットと標準的な評価を備えた新しいベンチマーク PAGED を提案します。
5 つの最先端のベースラインを調査し、手書きのルールと限られた利用可能なデータに大きく依存しているため、最適な手続き型グラフをうまく抽出できないことが明らかになりました。
さらに 3 つの高度な LLM を PAGED に組み込み、新しい自己調整戦略でそれらを強化します。
この結果は、テキスト要素と論理構造の構築におけるそれらのギャップを識別する際の LLM の利点を指摘しています。
私たちは、PAGED が自動手続き型グラフ抽出の主要なランドマークとして機能し、PAGED での調査が非逐次要素間の論理推論の研究に洞察を提供できることを願っています。
要約(オリジナル)
Automatic extraction of procedural graphs from documents creates a low-cost way for users to easily understand a complex procedure by skimming visual graphs. Despite the progress in recent studies, it remains unanswered: whether the existing studies have well solved this task (Q1) and whether the emerging large language models (LLMs) can bring new opportunities to this task (Q2). To this end, we propose a new benchmark PAGED, equipped with a large high-quality dataset and standard evaluations. It investigates five state-of-the-art baselines, revealing that they fail to extract optimal procedural graphs well because of their heavy reliance on hand-written rules and limited available data. We further involve three advanced LLMs in PAGED and enhance them with a novel self-refine strategy. The results point out the advantages of LLMs in identifying textual elements and their gaps in building logical structures. We hope PAGED can serve as a major landmark for automatic procedural graph extraction and the investigations in PAGED can offer insights into the research on logic reasoning among non-sequential elements.
arxiv情報
著者 | Weihong Du,Wenrui Liao,Hongru Liang,Wenqiang Lei |
発行日 | 2024-08-08 01:19:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google