要約
データからテキストへのデータセットのほとんどは英語用であるため、リソースの少ない言語でのデータからテキストへのモデル化の難しさはほとんど解明されていません。
このペーパーでは、リソースが少なく、凝集性の高い isiXhosa のデータからテキストへの変換に取り組みます。
WebNLG のサブセットに基づく新しいデータセットである Triples-to-isiXhosa (T2X) を紹介します。これは、モデリングの要求をサブワード駆動の手法に移行する新しい言語コンテキストを提供します。
また、生成されたテキストがデータをどの程度正確に説明しているかを測定する、T2X の評価フレームワークも開発します。
これにより、T2X の将来のユーザーは、表面レベルの指標を超えて評価できるようになります。
モデリングの面では、ゼロからトレーニングされた専用のデータからテキストへのモデルと、事前トレーニングされた言語モデル (PLM) の 2 つのクラスのメソッドを検討します。
私たちは、データからテキストへの凝集を目的とした新しい専用アーキテクチャであるサブワード セグメント ポインター ジェネレーター (SSPG) を提案します。
単語のセグメント化とエンティティのコピーを共同で学習し、2 つの膠着言語 (isiXhosa とフィンランド語) の既存の専用モデルよりも優れたパフォーマンスを発揮します。
T2X の事前トレーニング済みソリューションを調査したところ、標準の PLM では不十分であることが明らかになりました。
機械翻訳モデルを微調整することが、全体的に最良の方法として浮上しています。
これらの調査結果は、T2X によってもたらされる明確な課題を強調しています。確立されたデータからテキストへのアーキテクチャも、慣習的な事前トレーニング済みの方法論も、最適であるとは証明されていません。
最後に、生成エラーの定性的分析とアブレーション研究を行います。
要約(オリジナル)
Most data-to-text datasets are for English, so the difficulties of modelling data-to-text for low-resource languages are largely unexplored. In this paper we tackle data-to-text for isiXhosa, which is low-resource and agglutinative. We introduce Triples-to-isiXhosa (T2X), a new dataset based on a subset of WebNLG, which presents a new linguistic context that shifts modelling demands to subword-driven techniques. We also develop an evaluation framework for T2X that measures how accurately generated text describes the data. This enables future users of T2X to go beyond surface-level metrics in evaluation. On the modelling side we explore two classes of methods – dedicated data-to-text models trained from scratch and pretrained language models (PLMs). We propose a new dedicated architecture aimed at agglutinative data-to-text, the Subword Segmental Pointer Generator (SSPG). It jointly learns to segment words and copy entities, and outperforms existing dedicated models for 2 agglutinative languages (isiXhosa and Finnish). We investigate pretrained solutions for T2X, which reveals that standard PLMs come up short. Fine-tuning machine translation models emerges as the best method overall. These findings underscore the distinct challenge presented by T2X: neither well-established data-to-text architectures nor customary pretrained methodologies prove optimal. We conclude with a qualitative analysis of generation errors and an ablation study.
arxiv情報
著者 | Francois Meyer,Jan Buys |
発行日 | 2024-03-12 11:53:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google