Artificial Conversations, Real Results: Fostering Language Detection with Synthetic Data

要約

高品質のトレーニングデータを収集することは、大規模な言語モデル(LLMS)を微調整するために不可欠です。
ただし、このようなデータの取得は、特にイタリア語などの英語以外の言語では、費用がかかり、時間がかかることがよくあります。
最近、研究者は、実行可能な代替手段として合成データセットを生成するためにLLMの使用を調査し始めました。
この研究では、合成データを生成するためのパイプラインと、特定のタスクでの迅速な戦略、テキストの長さ、ターゲット位置などのメトリック、つまりイタリアの職務広告における包括的言語検出などのメトリックによってモデルのパフォーマンスがどのように影響するかを調べることにより、LLMSによって生成される合成データの妥当性に影響を与える要因を調査するための包括的なアプローチを提案しています。
私たちの結果は、ほとんどの場合、異なるメトリックにまたがって、合成データでトレーニングされた微調整されたモデルは、実際のテストデータセットと合成テストデータセットの両方で一貫して他のモデルよりも優れていることを示しています。
この研究では、LLMを使用した言語検出タスクに合成データを使用することの実際的な意味と制限について説明します。

要約(オリジナル)

Collecting high-quality training data is essential for fine-tuning Large Language Models (LLMs). However, acquiring such data is often costly and time-consuming, especially for non-English languages such as Italian. Recently, researchers have begun to explore the use of LLMs to generate synthetic datasets as a viable alternative. This study proposes a pipeline for generating synthetic data and a comprehensive approach for investigating the factors that influence the validity of synthetic data generated by LLMs by examining how model performance is affected by metrics such as prompt strategy, text length and target position in a specific task, i.e. inclusive language detection in Italian job advertisements. Our results show that, in most cases and across different metrics, the fine-tuned models trained on synthetic data consistently outperformed other models on both real and synthetic test datasets. The study discusses the practical implications and limitations of using synthetic data for language detection tasks with LLMs.

arxiv情報

著者 Fatemeh Mohammadi,Tommaso Romano,Samira Maghool,Paolo Ceravolo
発行日 2025-03-31 13:22:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク