Multilingual Contrastive Decoding via Language-Agnostic Layers Skipping

要約

コントラスト層によるデコード (DoLa) は、早期終了出力 (アマチュア ロジット) と最終出力 (エキスパート ロジット) の間の予測確率を対比することにより、大規模言語モデル (LLM) の生成品質を向上させるように設計されています。
ただし、このアプローチは英語以外のタスクではうまく機能しないことがわかりました。
モデルのフォワードパス中の言語遷移に関する以前の解釈可能性の作業に触発され、この問題は初期の終了出力と最終出力の間の言語の不一致から発生することがわかりました。
この研究では、英語以外のさまざまな言語に対して効果的な、改良された対照復号化アルゴリズムを提案します。
より役立つアマチュアロジットを取得するために、予備的な分析に基づいて、言語に依存しない一連の最下層をスキップする 2 つの戦略を考案しました。
多言語推論ベンチマークの実験結果は、私たちが提案した方法が以前の対照的復号ベースラインを上回り、11 言語にわたる LLM の思考連鎖推論の精度を大幅に向上させることを示しています。
プロジェクトは https://github.com/NJUNLP/SkipLayerCD から入手できます。

要約(オリジナル)

Decoding by contrasting layers (DoLa), is designed to improve the generation quality of large language models (LLMs) by contrasting the prediction probabilities between an early exit output (amateur logits) and the final output (expert logits). However, we find that this approach does not work well on non-English tasks. Inspired by previous interpretability work on language transition during the model’s forward pass, we discover that this issue arises from a language mismatch between early exit output and final output. In this work, we propose an improved contrastive decoding algorithm that is effective for diverse languages beyond English. To obtain more helpful amateur logits, we devise two strategies to skip a set of bottom, language-agnostic layers based on our preliminary analysis. Experimental results on multilingual reasoning benchmarks demonstrate that our proposed method outperforms previous contrastive decoding baselines and substantially improves LLM’s chain-of-thought reasoning accuracy across 11 languages. The project will be available at: https://github.com/NJUNLP/SkipLayerCD.

arxiv情報

著者 Wenhao Zhu,Sizhe Liu,Shujian Huang,Shuaijie She,Chris Wendler,Jiajun Chen
発行日 2024-07-15 15:14:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク