Evaluating Generative Models for Graph-to-Text Generation

要約

大規模言語モデル (LLM) は、グラフからテキストへの生成タスクに広く採用されています。
ただし、LLM を微調整するプロセスには、多大なトレーニング リソースと注釈作業が必要です。
この論文では、ゼロショット設定でグラフ データから説明テキストを生成する生成モデルの機能を調査します。
具体的には、2 つのグラフからテキストへのデータセットで GPT-3 と ChatGPT を評価し、それらのパフォーマンスを T5 や BART などの微調整された LLM モデルのパフォーマンスと比較します。
私たちの結果は、生成モデルが流暢で一貫性のあるテキストを生成でき、AGENDA データセットと WebNLG データセットでそれぞれ 10.57 と 11.08 の BLEU スコアを達成できることを示しています。
しかし、私たちのエラー分析により、生成モデルは依然としてエンティティ間の意味論的な関係を理解するのに苦労しており、幻覚や無関係な情報を含むテキストを生成する傾向があることが明らかになりました。
エラー分析の一環として、BERT を利用して機械生成テキストを検出し、高いマクロ F1 スコアを達成します。
生成モデルによって生成されたテキストを公開しました。

要約(オリジナル)

Large language models (LLMs) have been widely employed for graph-to-text generation tasks. However, the process of finetuning LLMs requires significant training resources and annotation work. In this paper, we explore the capability of generative models to generate descriptive text from graph data in a zero-shot setting. Specifically, we evaluate GPT-3 and ChatGPT on two graph-to-text datasets and compare their performance with that of finetuned LLM models such as T5 and BART. Our results demonstrate that generative models are capable of generating fluent and coherent text, achieving BLEU scores of 10.57 and 11.08 for the AGENDA and WebNLG datasets, respectively. However, our error analysis reveals that generative models still struggle with understanding the semantic relations between entities, and they also tend to generate text with hallucinations or irrelevant information. As a part of error analysis, we utilize BERT to detect machine-generated text and achieve high macro-F1 scores. We have made the text generated by generative models publicly available.

arxiv情報

著者 Shuzhou Yuan,Michael Färber
発行日 2023-07-27 09:03:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク