Triples-to-isiXhosa (T2X): Addressing the Challenges of Low-Resource Agglutinative Data-to-Text Generation


このペーパーでは、リソースが少なく、凝集性の高い isiXhosa のデータからテキストへの変換に取り組みます。
WebNLG のサブセットに基づく新しいデータセットである Triples-to-isiXhosa (T2X) を紹介します。これは、モデリングの要求をサブワード駆動の手法に移行する新しい言語コンテキストを提供します。
また、生成されたテキストがデータをどの程度正確に説明しているかを測定する、T2X の評価フレームワークも開発します。
これにより、T2X の将来のユーザーは、表面レベルの指標を超えて評価できるようになります。
モデリングの面では、ゼロからトレーニングされた専用のデータからテキストへのモデルと、事前トレーニングされた言語モデル (PLM) の 2 つのクラスのメソッドを検討します。
私たちは、データからテキストへの凝集を目的とした新しい専用アーキテクチャであるサブワード セグメント ポインター ジェネレーター (SSPG) を提案します。
単語のセグメント化とエンティティのコピーを共同で学習し、2 つの膠着言語 (isiXhosa とフィンランド語) の既存の専用モデルよりも優れたパフォーマンスを発揮します。
T2X の事前トレーニング済みソリューションを調査したところ、標準の PLM では不十分であることが明らかになりました。
これらの調査結果は、T2X によってもたらされる明確な課題を強調しています。確立されたデータからテキストへのアーキテクチャも、慣習的な事前トレーニング済みの方法論も、最適であるとは証明されていません。


Most data-to-text datasets are for English, so the difficulties of modelling data-to-text for low-resource languages are largely unexplored. In this paper we tackle data-to-text for isiXhosa, which is low-resource and agglutinative. We introduce Triples-to-isiXhosa (T2X), a new dataset based on a subset of WebNLG, which presents a new linguistic context that shifts modelling demands to subword-driven techniques. We also develop an evaluation framework for T2X that measures how accurately generated text describes the data. This enables future users of T2X to go beyond surface-level metrics in evaluation. On the modelling side we explore two classes of methods – dedicated data-to-text models trained from scratch and pretrained language models (PLMs). We propose a new dedicated architecture aimed at agglutinative data-to-text, the Subword Segmental Pointer Generator (SSPG). It jointly learns to segment words and copy entities, and outperforms existing dedicated models for 2 agglutinative languages (isiXhosa and Finnish). We investigate pretrained solutions for T2X, which reveals that standard PLMs come up short. Fine-tuning machine translation models emerges as the best method overall. These findings underscore the distinct challenge presented by T2X: neither well-established data-to-text architectures nor customary pretrained methodologies prove optimal. We conclude with a qualitative analysis of generation errors and an ablation study.


著者 Francois Meyer,Jan Buys
発行日 2024-03-12 11:53:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク