Predictability and Causality in Spanish and English Natural Language Generation

要約

近年、自然言語生成 (NLG) の分野は、深層学習テクノロジの進歩によって後押しされています。
それにもかかわらず、これらの新しいデータ集約型の手法では、主要なトレーニング データ セットが英語であるため、NLG に言語依存の差異が生じます。
また、ほとんどのニューラル NLG システムは、デコーダーのみ (因果関係のある) トランスフォーマー言語モデルを使用します。これは英語ではうまく機能しますが、他の言語を念頭に置いて設計されていません。
この研究では、厳密でない語順、主語の省略、または関係節の異なる接続の好みにより、ターゲット言語に生成バイアスが導入される可能性があるため、これらのターゲット言語では他の言語生成戦略がより望ましい可能性があるという仮説から逸脱します。
この論文ではまず、文法構造が異なり、それぞれ 15 億人以上の話者がいる 2 つの言語である英語とスペイン語について、因果的言語モデリングと非因果的言語モデリングを比較します。
この目的のために、情報理論的アプリオリなアプローチとして、両方の言語の文法カテゴリー分布の平均因果的および非因果的文脈条件付きエントロピーの新しい指標を定義します。
両方の言語の自然テキスト ソース (トレーニング データなど) を評価すると、スペイン語では平均的な非因果的条件付きエントロピーが低く、英語では平均的な因果的条件付きエントロピーが低いことが明らかになりました。
この実験によると、因果関係のない文脈では、スペイン語の方が英語よりも予測しやすいということです。
次に、条件付き相対エントロピー メトリックをテキスト生成実験に適用することにより、英語の因果 NLG とスペイン語の非因果 NLG でそれぞれ最高のパフォーマンスが達成されるという洞察が得られます。
これらの洞察は、双方向トランスフォーマー言語モデルを使用したスペイン語 NLG のさらなる研究をサポートします。

要約(オリジナル)

In recent years, the field of Natural Language Generation (NLG) has been boosted by the recent advances in deep learning technologies. Nonetheless, these new data-intensive methods introduce language-dependent disparities in NLG as the main training data sets are in English. Also, most neural NLG systems use decoder-only (causal) transformer language models, which work well for English, but were not designed with other languages in mind. In this work we depart from the hypothesis that they may introduce generation bias in target languages with less rigid word ordering, subject omission, or different attachment preferences for relative clauses, so that for these target languages other language generation strategies may be more desirable. This paper first compares causal and non-causal language modeling for English and Spanish, two languages with different grammatical structures and over 1.5 billion and 0.5 billion speakers, respectively. For this purpose, we define a novel metric of average causal and non-causal context-conditioned entropy of the grammatical category distribution for both languages as an information-theoretic a priori approach. The evaluation of natural text sources (such as training data) in both languages reveals lower average non-causal conditional entropy in Spanish and lower causal conditional entropy in English. According to this experiment, Spanish is more predictable than English given a non-causal context. Then, by applying a conditional relative entropy metric to text generation experiments, we obtain as insights that the best performance is respectively achieved with causal NLG in English, and with non-causal NLG in Spanish. These insights support further research in NLG in Spanish using bidirectional transformer language models.

arxiv情報

著者 Andrea Busto-Castiñeira,Francisco J. González-Castaño,Silvia García-Méndez,Francisco de Arriba-Pérez
発行日 2024-08-26 14:09:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク