STOAT: Structured Data to Analytical Text With Controls

要約

最近の言語モデルは、構造化データからテキストへの生成タスクにおいて大幅な進歩を遂げました。
ただし、記述を生成するために論理的推論が必要な場合、これらのモデルは依然として最適とは言えないパフォーマンスを示します。
この作業では、特に表などの構造化データからの分析テキストの生成に焦点を当てます。
(Gupta et al., 2020) で提案された分類法に基づいて、数値的推論、常識的推論、時間的推論、テーブル知識、エンティティ知識といった推論カテゴリの制御可能なテーブルからテキストへの生成に焦点を当てます。
我々は、テーブルと推論を意識した STOAT モデルを提案し、出力に指定された推論カテゴリを注入するベクトル量子化を備えています。
このモデルにより、文章分析タスクの iToTTo および Infotabs の PARENT メトリクスが 10.19%、1.13% 改善されたことがわかります。
また、人間による評価では、ベースライン モデルと比較して、私たちのモデルが 15.3% より忠実で分析的な記述を生成することもわかりました。
ToTTo (Parikh et al., 2020) と InfoTabs データセット (Gupta et al., 2020) に基づいて、注釈付きテーブルから興味深いテキスト生成データセットを 2 つ厳選し、リリースします。

要約(オリジナル)

Recent language models have made tremendous progress in the structured data to text generation task. However, these models still give sub-optimal performance where logical inference is required to generate the descriptions. In this work, we specifically focus on analytical text generation from structured data such as tables. Building on the taxonomy proposed in (Gupta et al., 2020) we focus on controllable table to text generation for the following reasoning categories: numerical reasoning, commonsense reasoning, temporal reasoning, table knowledge, and entity knowledge. We propose STOAT model, which is table and reasoning aware, with vector-quantization to infuse the given reasoning categories in the output. We observe that our model provides 10.19%, 1.13% improvement on the PARENT metric in iToTTo and Infotabs for the analytical sentence task. We also found that our model generates 15.3% more faithful and analytical descriptions as compared to the baseline models in human evaluation. We curate and release two reasoning category annotated table-to-interesting text generation datasets based on the ToTTo (Parikh et al., 2020) and InfoTabs datasets (Gupta et al.,2020).

arxiv情報

著者 Deepanway Ghosal,Preksha Nema,Aravindan Raghuveer
発行日 2023-05-19 17:03:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク