Developing an Informal-Formal Persian Corpus

要約

カジュアルな言語は、カジュアルな会話、ソーシャルメディア、ウェブログ、電子メール、テキストメッセージで頻繁に使用される話し言葉または書き言葉のスタイルです。
くだけた文章では、その言語は言語ごとに異なる語彙や構文の変更に直面します。
ペルシア語は、公式と非公式の文体に多くの違いがある言語の 1 つであるため、この言語用の非公式言語処理ツールを開発する必要があると思われます。
このようなコンバータには、言語学者が形式言語の場合と同様に、口語ペルシア語の規制された文法と正書法を抽出するのに役立つ、口語と形式の文章の整列された大規模な並列コーパスが必要です。
この論文では、単語/フレーズ レベルでアライメントを備えた 50,000 文のペアの並列コーパスを構築する方法について説明します。
文章は、非公式ペルシア語と正式なペルシア語の間のほぼすべての種類の語彙および構文の変化をカバーすることを試みたため、非公式文字のさまざまなリソースを探索して収集する方法と、変化の音韻論的および形態学的パターンを追跡する両方の方法が、できるだけ多くの事例を見つけるために適用されました。
できるだけ。
結果として得られるコーパスには、約 530,000 のアライメントと、49,397 の単語とフレーズのペアを含む辞書が含まれます。

要約(オリジナル)

Informal language is a style of spoken or written language frequently used in casual conversations, social media, weblogs, emails and text messages. In informal writing, the language faces some lexical and/or syntactic changes varying among different languages. Persian is one of the languages with many differences between its formal and informal styles of writing, thus developing informal language processing tools for this language seems necessary. Such a converter needs a large aligned parallel corpus of colloquial-formal sentences which can be useful for linguists to extract a regulated grammar and orthography for colloquial Persian as is done for the formal language. In this paper we explain our methodology in building a parallel corpus of 50,000 sentence pairs with alignments in the word/phrase level. The sentences were attempted to cover almost all kinds of lexical and syntactic changes between informal and formal Persian, therefore both methods of exploring and collecting from the different resources of informal scripts and following the phonological and morphological patterns of changes were applied to find as much instances as possible. The resulting corpus has about 530,000 alignments and a dictionary containing 49,397 word and phrase pairs.

arxiv情報

著者 Vahide Tajalli,Fateme Kalantari,Mehrnoush Shamsfard
発行日 2023-08-10 04:57:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク