M3T: A New Benchmark Dataset for Multi-Modal Document-Level Machine Translation

要約

ドキュメントの翻訳は、ニューラル機械翻訳 (NMT) システムにとって課題となります。
ほとんどのドキュメントレベルの NMT システムは、正確な読み取り順序とともにドキュメントからテキストを完璧に抽出することを前提として、細心の注意を払って厳選された文レベルの並列データに依存しています。
これらのシステムは、文書レイアウトなどの追加の視覚的手がかりを無関係であるとみなして無視する傾向もあります。
ただし、現実の文書には、これらの想定を無視する複雑なテキスト レイアウトが含まれることがよくあります。
光学式文字認識 (OCR) またはヒューリスティック ルールから情報を抽出するとエラーが発生する可能性があり、レイアウト (段落、ヘッダーなど) によってテキストの離れたセクション間の関係が伝えられる場合があります。
この複雑さは、情報を視覚的に表現する広く使用されている PDF ドキュメントで特に顕著です。
この論文では、半構造化文書の翻訳という包括的なタスクで NMT システムを評価するために調整された新しいベンチマーク データセットである M3T を紹介することで、このギャップに対処します。
このデータセットは、現実世界のアプリケーションにおけるリッチ テキスト レイアウトによってもたらされる課題を認識し、ドキュメント レベルの NMT システムにおける評価ギャップを埋めることを目的としています。

要約(オリジナル)

Document translation poses a challenge for Neural Machine Translation (NMT) systems. Most document-level NMT systems rely on meticulously curated sentence-level parallel data, assuming flawless extraction of text from documents along with their precise reading order. These systems also tend to disregard additional visual cues such as the document layout, deeming it irrelevant. However, real-world documents often possess intricate text layouts that defy these assumptions. Extracting information from Optical Character Recognition (OCR) or heuristic rules can result in errors, and the layout (e.g., paragraphs, headers) may convey relationships between distant sections of text. This complexity is particularly evident in widely used PDF documents, which represent information visually. This paper addresses this gap by introducing M3T, a novel benchmark dataset tailored to evaluate NMT systems on the comprehensive task of translating semi-structured documents. This dataset aims to bridge the evaluation gap in document-level NMT systems, acknowledging the challenges posed by rich text layouts in real-world applications.

arxiv情報

著者 Benjamin Hsu,Xiaoyu Liu,Huayang Li,Yoshinari Fujinuma,Maria Nadejde,Xing Niu,Yair Kittenplon,Ron Litman,Raghavendra Pappagari
発行日 2024-06-12 14:28:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク