Impact of Model Size on Fine-tuned LLM Performance in Data-to-Text Generation: A State-of-the-Art Investigation

要約

データからテキストへの (D2T) 生成は、表やグラフなどの半構造化データから人間が読めるテキストを生成することを目的としています。
D2T の最近の成功は、主に LLM の進歩によるものです。
LLM の成功にもかかわらず、D2T タスク用の微調整された LLM のパフォーマンスに対するモデル サイズの影響を示す研究は行われていません。
D2T モデルのパフォーマンスは通常、\textit{可読性} (流暢さと一貫性を示す)、\textit{情報性} (コンテンツの類似性を測定する)、および \textit{忠実度} (事実情報の一貫性を評価する) の 3 つの主要な品質に基づいて評価されます。
LLM のサイズを増やすことで、これら 3 つの品質全体にわたって D2T タスクのパフォーマンスが効果的に向上するかどうかは、現時点では不明です。
この研究の目的は、D2T タスクにおける微調整された LLM のパフォーマンスをモデル サイズの観点から調査することです。
広範な比較分析を通じて、広く使用されている 5 つの D2T データセット (E2E、ViGGo、WikiTableText、DART、WebNLG) とさまざまなサイズの 12 の最先端の LLM にわたるモデル サイズのスケーリングの利点と制限の両方を解明することを目指しています。
5 つの異なる LLM ファミリ (T5、BART、OPT、BLOOM、および Llama 2)。
D2T モデルの 3 つの必須品質をすべて包括的にカバーするために、広く認識されている 6 つの自動メトリクス、\textsc{BLEU}、\textsc{METEOR}、\textsc{BERTScore}、\textsc{MoverScore}、\textsc{Parent} を組み込んでいます。
、および \textsc{BARTScore}。
また、D2T タスクの重要な側面であるソース参照発散が存在する場合のモデル サイズに関する LLM パフォーマンスの詳細な分析も提供します。
私たちの調査では、LLM サイズを増やすと D2T タスクの \textit{可読性} と \textit{情報量} が向上しますが、(サイズの点で) LLM が大きくなると \textit{忠実さ} が犠牲になる可能性があることが明らかになりました。
さらに、ソースと基準の相違が存在する場合、小型の LLM は大型の LLM よりも高い回復力を示します。

要約(オリジナル)

Data-to-text (D2T) generation aims to generate human-readable text from semi-structured data, such as tables and graphs. The recent success of D2T is largely attributed to advancements in LLMs. Despite the success of LLMs, no research has been conducted to illustrate the impact of model size on the performance of fine-tuned LLMs for D2T tasks. D2T model performance is typically assessed based on three key qualities: \textit{readability} (indicates fluency and coherence), \textit{informativeness} (measures content similarity), and \textit{faithfulness} (assesses consistency of factual information). It is currently uncertain whether increasing the size of LLMs effectively improves performance in D2T tasks across these three qualities. The objective of this study is to investigate the performance of fine-tuned LLMs in D2T tasks in terms of model size. Through extensive comparative analysis, we aim to elucidate both the advantages and limitations of scaling model sizes across five widely used D2T datasets (E2E, ViGGo, WikiTableText, DART, and WebNLG) and twelve state-of-the-art LLMs with varying sizes from five different LLM families (T5, BART, OPT, BLOOM, and Llama 2). To comprehensively cover all the three essential qualities of D2T models, we incorporate six widely recognized automatic metrics — \textsc{BLEU}, \textsc{METEOR}, \textsc{BERTScore}, \textsc{MoverScore}, \textsc{Parent}, and \textsc{BARTScore}. We also provide an in-depth analysis of LLM performance concerning model size in the presence of source-reference divergence, a critical aspect of D2T tasks. Our investigation reveals that increasing LLM size enhances \textit{readability} and \textit{informativeness} in D2T tasks, but larger (in terms of size) LLMs may sacrifice \textit{faithfulness}. Moreover, small-sized LLMs show more resilience than larger ones when source-reference divergence is present.

arxiv情報

著者 Joy Mahapatra,Utpal Garain
発行日 2024-07-19 07:54:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク