Enhancing Neural Machine Translation with Semantic Units

要約

従来のニューラル機械翻訳 (NMT) モデルは通常、モデルの入力と理解のための基本単位としてサブワードと単語を使用します。
ただし、いくつかのトークンで構成される完全な単語やフレーズは、多くの場合、意味論を表現するための基本単位であり、意味論単位と呼ばれます。
この問題に対処するために、私たちは、文内の意味単位の統合的な意味をモデル化し、それらを活用して文を理解するための新しい視点を提供する、機械翻訳のための意味単位 (SU4MT) という手法を提案します。
具体的には、最初に、意味単位の境界を識別するのに役立つフレーズ抽出方法であるワード ペア エンコーディング (WPE) を提案します。
次に、複数のサブワードのセマンティクスを 1 つのベクトル、つまりセマンティクス単位表現に統合するために、Attentive Semantic Fusion (ASF) レイヤーを設計します。
最後に、意味単位レベルの文表現がトークンレベルの文表現に連結され、エンコーダの入力として結合されます。
実験結果は、私たちの方法が意味単位レベルの情報を効果的にモデル化および活用し、強力なベースラインを上回るパフォーマンスを示していることを示しています。
コードは https://github.com/ictnlp/SU4MT で入手できます。

要約(オリジナル)

Conventional neural machine translation (NMT) models typically use subwords and words as the basic units for model input and comprehension. However, complete words and phrases composed of several tokens are often the fundamental units for expressing semantics, referred to as semantic units. To address this issue, we propose a method Semantic Units for Machine Translation (SU4MT) which models the integral meanings of semantic units within a sentence, and then leverages them to provide a new perspective for understanding the sentence. Specifically, we first propose Word Pair Encoding (WPE), a phrase extraction method to help identify the boundaries of semantic units. Next, we design an Attentive Semantic Fusion (ASF) layer to integrate the semantics of multiple subwords into a single vector: the semantic unit representation. Lastly, the semantic-unit-level sentence representation is concatenated to the token-level one, and they are combined as the input of encoder. Experimental results demonstrate that our method effectively models and leverages semantic-unit-level information and outperforms the strong baselines. The code is available at https://github.com/ictnlp/SU4MT.

arxiv情報

著者 Langlin Huang,Shuhao Gu,Zhuocheng Zhang,Yang Feng
発行日 2023-10-17 15:55:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク