Detecting Text Formality: A Study of Text Classification Approaches

要約

形式的であることは、テキスト文書の重要な特性の 1 つです。
テキストの形式レベルの自動検出は、さまざまな自然言語処理タスクにとって潜在的に有益です。
以前は、形式性アノテーションを備えた 2 つの大規模なデータセット (GYAFC と X-FORMAL) が複数言語向けに導入されました。
ただし、これらは主にスタイル転送モデルのトレーニングに使用されました。
同時に、テキストの形式性をそれ自体で検出することも有用なアプリケーションとなる可能性があります。
この研究は、統計的、ニューラルベース、およびトランスフォーマーベースの機械学習手法に基づいた、形式的検出手法の体系的な研究を私たちの知る限り初めて提案し、公共利用向けに最高のパフォーマンスを発揮するモデルを提供します。
単一言語、多言語、クロスリンガルの 3 種類の実験を実施しました。
この研究では、単言語および多言語形式分類タスクに関しては、Char BiLSTM モデルが Transformer ベースのモデルよりも優れていること、および Transformer ベースの分類器は言語を越えた知識伝達に対してより安定していることが示されています。

要約(オリジナル)

Formality is one of the important characteristics of text documents. The automatic detection of the formality level of a text is potentially beneficial for various natural language processing tasks. Before, two large-scale datasets were introduced for multiple languages featuring formality annotation — GYAFC and X-FORMAL. However, they were primarily used for the training of style transfer models. At the same time, the detection of text formality on its own may also be a useful application. This work proposes the first to our knowledge systematic study of formality detection methods based on statistical, neural-based, and Transformer-based machine learning methods and delivers the best-performing models for public usage. We conducted three types of experiments — monolingual, multilingual, and cross-lingual. The study shows the overcome of Char BiLSTM model over Transformer-based ones for the monolingual and multilingual formality classification task, while Transformer-based classifiers are more stable to cross-lingual knowledge transfer.

arxiv情報

著者 Daryna Dementieva,Nikolay Babakov,Alexander Panchenko
発行日 2023-09-08 09:11:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク