Data Augmentation for Machine Translation via Dependency Subtree Swapping

要約

機械翻訳に適用できる、依存関係サブツリー スワッピングによるデータ拡張のための汎用フレームワークを紹介します。
ソース文とターゲット文の依存関係解析ツリーから対応するサブツリーを抽出し、これらをバイセンテンス間で交換して拡張サンプルを作成します。
依存関係ツリーのグラフベースの類似性と追加のヒューリスティックに基づいて徹底的なフィルタリングを実行し、抽出されたサブツリーが同じ意味に対応していることを確認します。
IWSLT テキスト翻訳データセットと Hunglish2 コーパスを使用して、リソースに制約のある実験を 4 つの言語ペアで双方向で実施します。
結果は、4 つの言語ペアのうち 3 つで、ベースライン モデルと比較して BLEU スコアが一貫して向上していることを示しています。
私たちのコードは GitHub で入手できます。

要約(オリジナル)

We present a generic framework for data augmentation via dependency subtree swapping that is applicable to machine translation. We extract corresponding subtrees from the dependency parse trees of the source and target sentences and swap these across bisentences to create augmented samples. We perform thorough filtering based on graphbased similarities of the dependency trees and additional heuristics to ensure that extracted subtrees correspond to the same meaning. We conduct resource-constrained experiments on 4 language pairs in both directions using the IWSLT text translation datasets and the Hunglish2 corpus. The results demonstrate consistent improvements in BLEU score over our baseline models in 3 out of 4 language pairs. Our code is available on GitHub.

arxiv情報

著者 Attila Nagy,Dorina Petra Lakatos,Botond Barta,Patrick Nanys,Judit Ács
発行日 2023-07-13 19:00:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク