要約
このペーパーでは、SmurfCat チームの PAN-2024 コンテストにおける多言語テキスト解毒タスクのソリューションを紹介します。
機械翻訳によるデータ拡張と特別なフィルタリング手順を使用して、テキストの無毒化のために追加の多言語並列データセットを収集しました。
取得したデータを使用して、テキスト解毒タスクに関して、mT0 や Aya などの複数の多言語シーケンス間モデルを微調整しました。
ORPO アライメント技術を最終モデルに適用しました。
私たちの最終モデルのパラメーターはわずか 37 億で、ウクライナ語では最先端の結果が得られ、他の言語では最先端に近い結果が得られます。
コンテストでは、私たちのチームは自動評価でスコア 0.52 で 1 位、人間による最終評価でスコア 0.74 で 2 位を獲得しました。
要約(オリジナル)
This paper presents a solution for the Multilingual Text Detoxification task in the PAN-2024 competition of the SmurfCat team. Using data augmentation through machine translation and a special filtering procedure, we collected an additional multilingual parallel dataset for text detoxification. Using the obtained data, we fine-tuned several multilingual sequence-to-sequence models, such as mT0 and Aya, on a text detoxification task. We applied the ORPO alignment technique to the final model. Our final model has only 3.7 billion parameters and achieves state-of-the-art results for the Ukrainian language and near state-of-the-art results for other languages. In the competition, our team achieved first place in the automated evaluation with a score of 0.52 and second place in the final human evaluation with a score of 0.74.
arxiv情報
著者 | Elisei Rykov,Konstantin Zaytsev,Ivan Anisimov,Alexandr Voronin |
発行日 | 2024-07-10 14:44:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google