Ontology-Free General-Domain Knowledge Graph-to-Text Generation Dataset Synthesis using Large Language Model

要約

ナレッジ グラフからテキストへ (G2T) 生成には、構造化されたナレッジ グラフを自然言語テキストに言語化することが含まれます。
事前トレーニング済み言語モデル (PLM) の最近の進歩により、G2T パフォーマンスが向上しましたが、その有効性は、グラフとテキストが正確に配置されたデータセットに依存します。
しかし、高品質の一般ドメイン G2T 世代データセットが不足しているため、一般ドメイン G2T 世代の研究の進歩が制限されています。
この問題に対処するために、Wikipedia Ontology-Free Graph-text dataset (WikiOFGraph) を導入します。これは、Large Language Model (LLM) と Data-QuestEval を活用する新しい方法を使用して生成された新しい大規模 G2T データセットです。
585 万の一般ドメインのグラフとテキストのペアを含む新しいデータセットは、外部オントロジーに依存することなく、高いグラフとテキストの一貫性を提供します。
実験結果は、WikiOFGraph で微調整された PLM が、さまざまな評価指標にわたって他のデータセットでトレーニングされた PLM よりも優れていることを示しています。
私たちの方法は、高品質の G2T データを生成するためのスケーラブルで効果的なソリューションであることが証明され、G2T 生成の分野を大幅に進歩させます。

要約(オリジナル)

Knowledge Graph-to-Text (G2T) generation involves verbalizing structured knowledge graphs into natural language text. Recent advancements in Pretrained Language Models (PLMs) have improved G2T performance, but their effectiveness depends on datasets with precise graph-text alignment. However, the scarcity of high-quality, general-domain G2T generation datasets restricts progress in the general-domain G2T generation research. To address this issue, we introduce Wikipedia Ontology-Free Graph-text dataset (WikiOFGraph), a new large-scale G2T dataset generated using a novel method that leverages Large Language Model (LLM) and Data-QuestEval. Our new dataset, which contains 5.85M general-domain graph-text pairs, offers high graph-text consistency without relying on external ontologies. Experimental results demonstrate that PLM fine-tuned on WikiOFGraph outperforms those trained on other datasets across various evaluation metrics. Our method proves to be a scalable and effective solution for generating high-quality G2T data, significantly advancing the field of G2T generation.

arxiv情報

著者 Daehee Kim,Deokhyung Kang,Sangwon Ryu,Gary Geunbae Lee
発行日 2024-09-11 08:16:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク