要約
この論文では、トルコ語の最初の自動語彙簡略化システムを紹介します。
最近のテキスト簡略化の取り組みは、手動で作成された簡略化されたコーパスと、ターゲット テキストを単語レベルと文レベルの両方で分析できる包括的な NLP ツールに依存しています。
トルコ語は形態学的に豊富な膠着言語であり、語形変化の適切な処理など、独自の考慮事項が必要です。
利用可能なリソースと強力なツールの点でリソースが少ない言語であるため、テキストの簡略化タスクに取り組むのが難しくなります。
我々は、文法的に正しく、意味的に適切な単語レベルの簡略化を生成する、形態学的特徴を備えた事前トレーニング済み表現モデル BERT に基づく新しいテキスト簡略化パイプラインを提供します。
要約(オリジナル)
In this paper, we present the first automatic lexical simplification system for the Turkish language. Recent text simplification efforts rely on manually crafted simplified corpora and comprehensive NLP tools that can analyse the target text both in word and sentence levels. Turkish is a morphologically rich agglutinative language that requires unique considerations such as the proper handling of inflectional cases. Being a low-resource language in terms of available resources and industrial-strength tools, it makes the text simplification task harder to approach. We present a new text simplification pipeline based on pretrained representation model BERT together with morphological features to generate grammatically correct and semantically appropriate word-level simplifications.
arxiv情報
著者 | Ahmet Yavuz Uluslu |
発行日 | 2023-07-28 13:33:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google