SCOI: Syntax-augmented Coverage-based In-context Example Selection for Machine Translation

要約

インコンテキスト学習 (ICL) は、さまざまな下流タスクにおける大規模言語モデル (LLM) のパフォーマンスを大幅に向上させますが、その向上はデモンストレーションの品質に大きく依存します。
この研究では、機械翻訳 (MT) に適した文脈内の例を選択するための構文知識を導入します。
我々は、従来の単語マッチングを超えた深い構文構造を活用した、新しい戦略、すなわち構文拡張された COverage ベースのインコンテキスト例選択 (SCOI) を提案します。
具体的には、簡略化されたツリーから多項式へのアルゴリズムを利用して多項式用語のカバレッジを計算し、単語の重複を使用して語彙カバレッジを計算することにより、セットレベルの構文カバレッジを測定します。
さらに、構文情報と語彙情報を利用して、両方のカバレッジ尺度を組み合わせる代替選択アプローチを考案します。
6 つの翻訳方向について 2 つの多言語 LLM を使用して実験を行います。
経験的な結果は、私たちが提案したSCOIがすべての学習不要の方法の中で最も高い平均COMETスコアを取得することを示しており、構文カバレッジと語彙カバレッジをうまく組み合わせることが、MTのコンテキスト内のより良い例を選択するのに役立つことを示しています。
私たちのコードは https://github.com/JamyDon/SCOI で入手できます。

要約(オリジナル)

In-context learning (ICL) greatly improves the performance of large language models (LLMs) on various down-stream tasks, where the improvement highly depends on the quality of demonstrations. In this work, we introduce syntactic knowledge to select better in-context examples for machine translation (MT). We propose a new strategy, namely Syntax-augmented COverage-based In-context example selection (SCOI), leveraging the deep syntactic structure beyond conventional word matching. Specifically, we measure the set-level syntactic coverage by computing the coverage of polynomial terms with the help of a simplified tree-to-polynomial algorithm, and lexical coverage using word overlap. Furthermore, we devise an alternate selection approach to combine both coverage measures, taking advantage of syntactic and lexical information. We conduct experiments with two multi-lingual LLMs on six translation directions. Empirical results show that our proposed SCOI obtains the highest average COMET score among all learning-free methods, indicating that combining syntactic and lexical coverage successfully helps to select better in-context examples for MT. Our code is available at https://github.com/JamyDon/SCOI.

arxiv情報

著者 Chenming Tang,Zhixiang Wang,Yunfang Wu
発行日 2024-09-25 10:00:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク