Automatic Lexical Simplification for Turkish


最近のテキスト簡略化の取り組みは、手動で作成された簡略化されたコーパスと、ターゲット テキストを単語レベルと文レベルの両方で分析できる包括的な NLP ツールに依存しています。
我々は、文法的に正しく、意味的に適切な単語レベルの簡略化を生成する、形態学的特徴を備えた事前トレーニング済み表現モデル BERT に基づく新しいテキスト簡略化パイプラインを提供します。


In this paper, we present the first automatic lexical simplification system for the Turkish language. Recent text simplification efforts rely on manually crafted simplified corpora and comprehensive NLP tools that can analyse the target text both in word and sentence levels. Turkish is a morphologically rich agglutinative language that requires unique considerations such as the proper handling of inflectional cases. Being a low-resource language in terms of available resources and industrial-strength tools, it makes the text simplification task harder to approach. We present a new text simplification pipeline based on pretrained representation model BERT together with morphological features to generate grammatically correct and semantically appropriate word-level simplifications.


著者 Ahmet Yavuz Uluslu
発行日 2023-07-28 13:33:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク