ParaFusion: A Large-Scale LLM-Driven English Paraphrase Dataset Infused with High-Quality Lexical and Syntactic Diversity

要約

言い換えの生成は、自然言語処理 (NLP) において極めて重要なタスクです。
ドメイン内の既存のデータセットには構文的および語彙的な多様性が欠けており、その結果、ソース文によく似た言い換えが生じます。
さらに、これらのデータセットにはヘイトスピーチやノイズが含まれることが多く、意図せずに英語以外の文章が含まれる可能性があります。
この研究では、これらの課題に対処するために、Large Language Model (LLM) を使用して開発された大規模で高品質な英語言い換えデータセットである ParaFusion を紹介します。
ParaFusion は、既存のデータセットを高品質のデータで拡張し、意味上の類似性を維持しながら、語彙と構文の両方の多様性を大幅に強化します。
また、ヘイトスピーチの存在を軽減し、ノイズを低減して、よりクリーンで焦点を絞った英語データセットを保証します。
結果は、各データ ソースのいくつかの指標にわたって測定された、ParaFusion が構文と語彙の多様性の両方で少なくとも 25% の改善をもたらしていることを示しています。
この論文には、これまでで最も包括的な評価戦略の 1 つが含まれているため、言い換え評価のゴールドスタンダードを確立することも目的としています。
この結果は、NLP アプリケーションを改善するための貴重なリソースとしての ParaFusion の可能性を強調しています。

要約(オリジナル)

Paraphrase generation is a pivotal task in natural language processing (NLP). Existing datasets in the domain lack syntactic and lexical diversity, resulting in paraphrases that closely resemble the source sentences. Moreover, these datasets often contain hate speech and noise, and may unintentionally include non-English language sentences. This research introduces ParaFusion, a large-scale, high-quality English paraphrase dataset developed using Large Language Models (LLM) to address these challenges. ParaFusion augments existing datasets with high-quality data, significantly enhancing both lexical and syntactic diversity while maintaining close semantic similarity. It also mitigates the presence of hate speech and reduces noise, ensuring a cleaner and more focused English dataset. Results show that ParaFusion offers at least a 25% improvement in both syntactic and lexical diversity, measured across several metrics for each data source. The paper also aims to set a gold standard for paraphrase evaluation as it contains one of the most comprehensive evaluation strategies to date. The results underscore the potential of ParaFusion as a valuable resource for improving NLP applications.

arxiv情報

著者 Lasal Jayawardena,Prasan Yapa
発行日 2024-04-18 09:02:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク