Improving Translation Faithfulness of Large Language Models via Augmenting Instructions

要約

大規模言語モデル (LLM) は強力な汎用機能を備えていますが、現在の切実な課題は、低コストの命令チューニングを通じて機械翻訳などの特殊な機能を刺激することです。
標準の命令追従データは、命令、入力、および応答を連結したものとして順番に編成されます。
LLM の注意メカニズムには局所的な焦点への制限があるため、LLM は各位置の近くの単語または文により多く焦点を当てる傾向があります。
これは、デコード中に命令を忘れるリスクが高くなります。
上記の問題を軽減するために、SWIE (セグメント重み付け命令埋め込み) と命令追従データセット OVERMISS を提案します。
SWIE は、次の入力表現と応答表現にグローバル命令表現を追加することにより、モデル命令の理解を向上させます。
OVERMISS は、過剰翻訳および誤翻訳の結果を正しい翻訳と比較することにより、モデルの忠実性を向上させます。
私たちは、私たちの手法を 2 つの主流のオープンソース LLM、BLOOM と LLaMA に適用します。
実験結果は、BLOOMZ-3b ベースの SWIE による翻訳パフォーマンス、特にゼロショット翻訳や長文翻訳において、指示忘れのリスクが軽減されたことで大幅な改善が見られたことを示しています。
さらに、OVERMISS は翻訳パフォーマンスのベースラインを上回っており (例: BLEU スコアが 0.69 から 3.12 に増加し、LLaMA-7b のコメット スコアが平均 0.48 パーセント改善)、OVERMISS と SWIE を組み合わせたモデルで見られるさらなる強化 (例: BLUE スコアの増加)
英語からドイツ語まで、3 つの異なるバックボーン間で最大 0.56)、どちらも単語のアライメントに基づいた忠実性メトリックの向上を示しています。

要約(オリジナル)

Large Language Models (LLMs) present strong general capabilities, and a current compelling challenge is stimulating their specialized capabilities, such as machine translation, through low-cost instruction tuning. The standard instruction-following data is sequentially organized as the concatenation of an instruction, an input, and a response. As the attention mechanism of LLMs has limitations on local focus, LLMs tend to focus more on the words or sentences nearby at each position. This leads to a high risk of instruction forgetting during decoding. To alleviate the above issues, We propose SWIE (Segment-Weighted Instruction Embedding) and an instruction-following dataset OVERMISS. SWIE improves the model instruction understanding by adding a global instruction representation on the following input and response representations. OVERMISS improves model faithfulness by comparing over-translation and miss-translation results with the correct translation. We apply our methods to two main-stream open-source LLMs, BLOOM and LLaMA. The experimental results demonstrate significant improvements in translation performance with SWIE based on BLOOMZ-3b, particularly in zero-shot and long text translations due to reduced instruction forgetting risk. Additionally, OVERMISS outperforms the baseline in translation performance (e.g. an increase in BLEU scores from 0.69 to 3.12 and an average improvement of 0.48 percentage comet scores for LLaMA-7b) with further enhancements seen in models combining OVERMISS and SWIE (e.g. the BLUE scores increase up to 0.56 from English to German across three different backbones), and both exhibit improvements in the faithfulness metric based on word alignment.

arxiv情報

著者 Yijie Chen,Yijin Liu,Fandong Meng,Yufeng Chen,Jinan Xu,Jie Zhou
発行日 2023-08-24 09:32:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク