FAME-MT Dataset: Formality Awareness Made Easy for Machine Translation Purposes

要約

人々はさまざまな目的で言語を使用します。
情報の共有とは別に、個人は感情を表現したり、他の人への敬意を示すために情報を使用することがあります。
この論文では、機械生成翻訳の形式レベルに焦点を当て、FAME-MT を紹介します。FAME-MT は、15 のヨーロッパのソース言語と 8 つのヨーロッパのターゲット言語間の 1,120 万件の翻訳で構成され、ターゲット文の形式に従って公式クラスと非公式クラスに分類されます。

このデータセットを使用して機械翻訳モデルを微調整し、対象となる欧州言語ごとに所定の形式レベルを確保できます。
データセットの作成手順、FAME-MT が言語登録情報の信頼できる情報源であることを示すデータセットの品質分析について説明し、データセットを使用して形式レベルを調整する公開されている概念実証の機械翻訳モデルを紹介します。
翻訳の。
現在、これは形式的注釈の最大のデータセットであり、112 のヨーロッパ言語ペアで表現された例が含まれています。
データセットはオンラインで公開されています: https://github.com/laniqo-public/fame-mt/ 。

要約(オリジナル)

People use language for various purposes. Apart from sharing information, individuals may use it to express emotions or to show respect for another person. In this paper, we focus on the formality level of machine-generated translations and present FAME-MT — a dataset consisting of 11.2 million translations between 15 European source languages and 8 European target languages classified to formal and informal classes according to target sentence formality. This dataset can be used to fine-tune machine translation models to ensure a given formality level for each European target language considered. We describe the dataset creation procedure, the analysis of the dataset’s quality showing that FAME-MT is a reliable source of language register information, and we present a publicly available proof-of-concept machine translation model that uses the dataset to steer the formality level of the translation. Currently, it is the largest dataset of formality annotations, with examples expressed in 112 European language pairs. The dataset is published online: https://github.com/laniqo-public/fame-mt/ .

arxiv情報

著者 Dawid Wiśniewski,Zofia Rostek,Artur Nowakowski
発行日 2024-05-20 10:35:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク