Machine Translation to Control Formality Features in the Target Language

要約

言語コミュニケーション、特にヒンディー語、日本語、韓国語などのリソースの少ない言語では、形式が重要な役割を果たします。
これらの言語は、社会的文脈や人間関係に基づいてメッセージを伝えるために、公式および非公式の表現を利用します。
言語翻訳技術を使用して、形式性を持たないソース言語 (英語など) を形式性を伴うターゲット言語に翻訳する場合、形式性に関する情報が欠落しており、正確な結果を生み出す際に課題となる可能性があります。
この研究では、ヒンディー語をサンプル データとして使用し、機械学習手法を使用して英語から形式的な言語に翻訳する場合に、この問題をどのように解決すべきかを検討します。
これは、形式管理された設定で二言語モデルをトレーニングし、そのパフォーマンスを同様の設定で事前にトレーニングされた多言語モデルと比較することによって行われました。
グラウンド トゥルースを備えたトレーニング データはそれほど多くないため、データ サイズを増やすために自動アノテーション技術が採用されました。
主なモデリング アプローチには、さまざまな自然言語処理タスクで有効性が実証されているトランスフォーマー モデルの活用が含まれていました。
予測されたマスクされたトークンをグラウンドトゥルースと比較することにより、公式形式精度(ACC)を評価します。
この指標は、翻訳が目的の出力とどの程度一致しているかを定量的に測定します。
私たちの研究では、ターゲット言語の形式的なニュアンスを考慮し、多様な言語コミュニケーションのニーズとシナリオに対応する、多用途の翻訳戦略を紹介しています。

要約(オリジナル)

Formality plays a significant role in language communication, especially in low-resource languages such as Hindi, Japanese and Korean. These languages utilise formal and informal expressions to convey messages based on social contexts and relationships. When a language translation technique is used to translate from a source language that does not pertain the formality (e.g. English) to a target language that does, there is a missing information on formality that could be a challenge in producing an accurate outcome. This research explores how this issue should be resolved when machine learning methods are used to translate from English to languages with formality, using Hindi as the example data. This was done by training a bilingual model in a formality-controlled setting and comparing its performance with a pre-trained multilingual model in a similar setting. Since there are not a lot of training data with ground truth, automated annotation techniques were employed to increase the data size. The primary modeling approach involved leveraging transformer models, which have demonstrated effectiveness in various natural language processing tasks. We evaluate the official formality accuracy(ACC) by comparing the predicted masked tokens with the ground truth. This metric provides a quantitative measure of how well the translations align with the desired outputs. Our study showcases a versatile translation strategy that considers the nuances of formality in the target language, catering to diverse language communication needs and scenarios.

arxiv情報

著者 Harshita Tyagi,Prashasta Jung,Hyowon Lee
発行日 2023-11-22 15:42:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC, cs.LG パーマリンク