Synthetic Alone: Exploring the Dark Side of Synthetic Data for Grammatical Error Correction

要約

データ中心の AI アプローチは、モデルを変更せずにモデルのパフォーマンスを向上させることを目的としており、モデルのパフォーマンスにプラスの影響を与えることが示されています。
最近では、合成データに基づくデータ中心型 AI が注目されていますが、パフォーマンス向上の可能性があるため、データ中心型 AI は長い間、実世界のデータと公開されているベンチマーク データセットを使用してのみ検証されてきました。
この点、データセントリックAIは依然として実世界データへの依存度が高く、合成データを用いたモデルの検証が十分に行われていない。
上記の課題を考慮して、私たちは次のような質問をします。プラスの効果があると評価されているデータ中心の AI 手法であるデータ品質管理 (ノイズ注入とバランスの取れたデータ) は、合成データのみでトレーニングされたモデルでも同様のプラスの効果を示すのでしょうか?
この問題に対処するために、文法誤り訂正 (GEC) タスクに基づいて、合成データと現実世界のデータでトレーニングされたモデル間の比較分析を実施しました。
私たちの実験結果は、既存の研究で以前に報告されているように、データ品質管理手法が実世界のデータでトレーニングされたモデルにプラスの影響を与える一方、合成データのみでトレーニングされたモデルにはマイナスの影響が観察されることを明らかにしています。

要約(オリジナル)

Data-centric AI approach aims to enhance the model performance without modifying the model and has been shown to impact model performance positively. While recent attention has been given to data-centric AI based on synthetic data, due to its potential for performance improvement, data-centric AI has long been exclusively validated using real-world data and publicly available benchmark datasets. In respect of this, data-centric AI still highly depends on real-world data, and the verification of models using synthetic data has not yet been thoroughly carried out. Given the challenges above, we ask the question: Does data quality control (noise injection and balanced data), a data-centric AI methodology acclaimed to have a positive impact, exhibit the same positive impact in models trained solely with synthetic data? To address this question, we conducted comparative analyses between models trained on synthetic and real-world data based on grammatical error correction (GEC) task. Our experimental results reveal that the data quality control method has a positive impact on models trained with real-world data, as previously reported in existing studies, while a negative impact is observed in models trained solely on synthetic data.

arxiv情報

著者 Chanjun Park,Seonmin Koo,Seolhwa Lee,Jaehyung Seo,Sugyeong Eo,Hyeonseok Moon,Heuiseok Lim
発行日 2023-06-26 01:40:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク