Exploring Automatic Text Simplification of German Narrative Documents

要約

この論文では、トランスフォーマーベースの自然言語生成 (NLG) 技術をテキストの簡略化の問題に適用します。
現在、テキストの簡略化に利用できるドイツ語のデータセットはわずかしかなく、より大きく整列したドキュメントの場合はさらに少なく、物語的なテキストを含むデータセットは 1 つもありません。
この論文では、現代の NLG 技術がドイツ語の物語文の簡略化にどの程度適用できるかを検討します。
Longformer のアテンションと事前トレーニングされた mBART モデルを使用します。
私たちの調査結果は、ドイツ語に対する既存のアプローチではこの課題を適切に解決できないことを示しています。
この問題に対処するための将来の研究の方向性についていくつか結論を出します。

要約(オリジナル)

In this paper, we apply transformer-based Natural Language Generation (NLG) techniques to the problem of text simplification. Currently, there are only a few German datasets available for text simplification, even fewer with larger and aligned documents, and not a single one with narrative texts. In this paper, we explore to which degree modern NLG techniques can be applied to German narrative text simplifications. We use Longformer attention and a pre-trained mBART model. Our findings indicate that the existing approaches for German are not able to solve the task properly. We conclude on a few directions for future research to address this problem.

arxiv情報

著者 Thorben Schomacker,Tillmann Dönicke,Marina Tropmann-Frick
発行日 2023-12-15 16:10:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク