An Energy-based Model for Word-level AutoCompletion in Computer-aided Translation

要約

ワードレベルのオートコンプリート (WLAC) は、コンピュータ支援翻訳におけるやりがいのある、しかしやりがいのあるタスクです。
既存の研究では、入力コンテキストの隠れベクトルを対応するラベルにマッピングする (つまり、ターゲット単語候補がラベルとして扱われる) ニューラル ネットワークに基づく分類モデルを通じてこのタスクに取り組んでいます。
コンテキスト隠れベクトル自体はラベルを考慮せず、線形分類器を通じてラベルに投影されるため、実験で検証されたように、モデルはソース文からの貴重な情報を十分に活用できず、最終的に全体的なパフォーマンスが妨げられます。
この問題を軽減するために、この研究では WLAC のエネルギーベースのモデルを提案します。これにより、コンテキストの隠れたベクトルがソース文から重要な情報をキャプチャできるようになります。
残念ながら、トレーニングと推論には効率と有効性の課題があるため、モデルを実践するために 3 つのシンプルかつ効果的な戦略を採用しています。
4 つの標準ベンチマークの実験により、再ランキング ベースのアプローチが以前の最先端モデルと比較して大幅な改善 (約 6.07%) を達成することが実証されました。
さらなる分析により、私たちのアプローチの各戦略が最終的なパフォーマンスに貢献していることがわかります。

要約(オリジナル)

Word-level AutoCompletion(WLAC) is a rewarding yet challenging task in Computer-aided Translation. Existing work addresses this task through a classification model based on a neural network that maps the hidden vector of the input context into its corresponding label (i.e., the candidate target word is treated as a label). Since the context hidden vector itself does not take the label into account and it is projected to the label through a linear classifier, the model can not sufficiently leverage valuable information from the source sentence as verified in our experiments, which eventually hinders its overall performance. To alleviate this issue, this work proposes an energy-based model for WLAC, which enables the context hidden vector to capture crucial information from the source sentence. Unfortunately, training and inference suffer from efficiency and effectiveness challenges, thereby we employ three simple yet effective strategies to put our model into practice. Experiments on four standard benchmarks demonstrate that our reranking-based approach achieves substantial improvements (about 6.07%) over the previous state-of-the-art model. Further analyses show that each strategy of our approach contributes to the final performance.

arxiv情報

著者 Cheng Yang,Guoping Huang,Mo Yu,Zhirui Zhang,Siheng Li,Mingming Yang,Shuming Shi,Yujiu Yang,Lemao Liu
発行日 2024-07-29 15:07:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク