要約
微調整データセットの自然言語テキストの品質は、特に詩や歌の叙情性などの計算的な創造性タスクの生成モデルのパフォーマンスにおいて重要な役割を果たします。
生成された詩の流ency性欠陥は、その価値を大幅に低下させます。
ただし、トレーニングテキストは、多くの場合、厳しい品質制御なしでインターネットベースのプラットフォームから供給されることが多く、データエンジニアが欠陥レベルを効果的に管理するための課題を提起します。
この問題に対処するために、自動化された言語異常検出の使用を提案して、クリエイティブモデルのトレーニングデータセットから低品質のテキストを特定して除外します。
この論文では、合成データセットとヒト標識データセットの両方を利用して、教師なしで監督されたテキストの異常検出アプローチの包括的な比較を示します。
また、横断的文法エラー検出のために設計されたロシア語の人間標識詩のコレクションであるRupor Datasetを紹介し、完全な評価コードを提供します。
私たちの仕事の目的は、創造的なドメインの生成モデルのトレーニングデータセットの品質を向上させるためのツールと洞察をコミュニティに力に与えることを目的としています。
要約(オリジナル)
The quality of natural language texts in fine-tuning datasets plays a critical role in the performance of generative models, particularly in computational creativity tasks such as poem or song lyric generation. Fluency defects in generated poems significantly reduce their value. However, training texts are often sourced from internet-based platforms without stringent quality control, posing a challenge for data engineers to manage defect levels effectively. To address this issue, we propose the use of automated linguistic anomaly detection to identify and filter out low-quality texts from training datasets for creative models. In this paper, we present a comprehensive comparison of unsupervised and supervised text anomaly detection approaches, utilizing both synthetic and human-labeled datasets. We also introduce the RUPOR dataset, a collection of Russian-language human-labeled poems designed for cross-sentence grammatical error detection, and provide the full evaluation code. Our work aims to empower the community with tools and insights to improve the quality of training datasets for generative models in creative domains.
arxiv情報
著者 | Ilya Koziev |
発行日 | 2025-05-07 15:27:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google