要約
大規模言語モデル (LLM) は最近 NLP 分野に革命をもたらしましたが、一部の特定の下流タスクではまだ不十分です。
この研究では、LLM を利用して機械翻訳を実行することに焦点を当てています。その結果、言語の不一致と反復という 2 つのパターンのエラーが頻繁に発生し、翻訳品質に大きな影響を与えることが観察されました。
この研究は、モデル編集手法を活用することによって、たとえば、エラーの原因となるフィードフォワード ネットワーク (FFN) ニューロンなどを特定し、推論時間中にそれらを非アクティブ化することによって、これら 2 つの問題を軽減する可能性を探ることを目的としています。
このような方法を直接適用すると、対象となるエラーに対する効果が限定的になるか、一般的な翻訳品質に重大な悪影響が生じることがわかりました。これは、レール上の LLM による機械翻訳を確実にするためには、位置特定されたコンポーネントも重要である可能性があることを示しています。
この目的を達成するために、さまざまな言語設定で位置特定結果の共通部分を取得し、対象となるエラーに無関係な前述の情報をフィルタリングして、特定されたコンポーネントを絞り込むことを提案します。
実験結果は、私たちの方法が言語の不一致と反復率を効果的に削減し、同時にほとんどの場合、一般的な翻訳品質を向上または維持できることを経験的に示しています。
要約(オリジナル)
Large Language Models (LLMs) have recently revolutionized the NLP field, while they still fall short in some specific down-stream tasks. In the work, we focus on utilizing LLMs to perform machine translation, where we observe that two patterns of errors frequently occur and drastically affect the translation quality: language mismatch and repetition. The work sets out to explore the potential for mitigating these two issues by leveraging model editing methods, e.g., by locating Feed-Forward Network (FFN) neurons or something that are responsible for the errors and deactivating them in the inference time. We find that directly applying such methods either limited effect on the targeted errors or has significant negative side-effect on the general translation quality, indicating that the located components may also be crucial for ensuring machine translation with LLMs on the rails. To this end, we propose to refine the located components by fetching the intersection of the locating results under different language settings, filtering out the aforementioned information that is irrelevant to targeted errors. The experiment results empirically demonstrate that our methods can effectively reduce the language mismatch and repetition ratios and meanwhile enhance or keep the general translation quality in most cases.
arxiv情報
著者 | Weichuan Wang,Zhaoyi Li,Defu Lian,Chen Ma,Linqi Song,Ying Wei |
発行日 | 2024-10-09 16:51:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google