mEdIT: Multilingual Text Editing via Instruction Tuning

要約

CoEdIT の多言語拡張である mEdIT を紹介します。これは、執筆支援のための最新の最先端のテキスト編集モデルです。
mEdIT モデルは、命令チューニングを介して多言語の大規模な事前トレーニング済み言語モデル (LLM) を微調整することによってトレーニングされます。
これらは、Grammatik korrigieren (ドイツ語) や Parafrasee la oraci\’on (スペイン語) などの自然言語命令の形式で目的のテキストの属性を指定するユーザーからの命令を受け取るように設計されています。
私たちは、6 つの異なる言語ファミリーに属する多様な言語にわたる 3 つのテキスト編集タスク (文法的誤り訂正 (GEC)、テキストの簡略化、言い換え) のために、公開されている人間による注釈が付けられた複数のテキスト編集データセットからデータを厳選することによって mEdIT を構築します。
私たちは mEdIT モデルの設計とトレーニングについて詳しく説明し、多くの多言語テキスト編集ベンチマークで他の多言語 LLM と比較してその優れたパフォーマンスを実証します。
また、mEdIT は多言語ベースラインを超えて新しい言語に効果的に一般化していることもわかりました。
データ、コード、トレーニング済みモデルは https://github.com/vipulraheja/medit で公開しています。

要約(オリジナル)

We introduce mEdIT, a multi-lingual extension to CoEdIT — the recent state-of-the-art text editing models for writing assistance. mEdIT models are trained by fine-tuning multi-lingual large, pre-trained language models (LLMs) via instruction tuning. They are designed to take instructions from the user specifying the attributes of the desired text in the form of natural language instructions, such as Grammatik korrigieren (German) or Parafrasee la oraci\’on (Spanish). We build mEdIT by curating data from multiple publicly available human-annotated text editing datasets for three text editing tasks (Grammatical Error Correction (GEC), Text Simplification, and Paraphrasing) across diverse languages belonging to six different language families. We detail the design and training of mEdIT models and demonstrate their strong performance on many multi-lingual text editing benchmarks against other multilingual LLMs. We also find that mEdIT generalizes effectively to new languages over multilingual baselines. We publicly release our data, code, and trained models at https://github.com/vipulraheja/medit.

arxiv情報

著者 Vipul Raheja,Dimitris Alikaniotis,Vivek Kulkarni,Bashar Alhafni,Dhruv Kumar
発行日 2024-02-26 10:33:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク