Characterizing Model Collapse in Large Language Models Using Semantic Networks and Next-Token Probability

要約

合成コンテンツがますますウェブに浸透するにつれて、生成AIモデルは、自身の出力を使って微調整を行うオートファジー(自己貪食)プロセスを経験する可能性がある。このオートファジーは、世代を重ねるにつれて生成AIモデルの性能や多様性が低下する、モデル崩壊として知られる現象につながる可能性がある。最近の研究では、さまざまな生成AIモデルやデータの種類におけるモデル崩壊の出現が検討されている。しかし、現在のモデル崩壊の特徴付けは単純化される傾向にあり、包括的な評価に欠けている。本稿では、3つのテキストデータセットにおけるモデル崩壊の徹底的な調査を行い、意味ネットワークを利用してテキストの反復性と多様性を分析する。また、合成トークンの割合がモデル崩壊の深刻さにどのような影響を与えるかを調べ、データセットを横断した評価を行い、ドメイン特有の差異を特定する。モデル崩壊をより詳細に評価するための指標と戦略を提案することで、本研究は頑健な生成AIシステムの開発に新たな知見を提供する。

要約(オリジナル)

As synthetic content increasingly infiltrates the web, generative AI models may experience an autophagy process, where they are fine-tuned using their own outputs. This autophagy could lead to a phenomenon known as model collapse, which entails a degradation in the performance and diversity of generative AI models over successive generations. Recent studies have explored the emergence of model collapse across various generative AI models and types of data. However, the current characterizations of model collapse tend to be simplistic and lack comprehensive evaluation. In this article, we conduct a thorough investigation of model collapse across three text datasets, utilizing semantic networks to analyze text repetitiveness and diversity, while employing next-token probabilities to quantify the loss of diversity. We also examine how the proportions of synthetic tokens affect the severity of model collapse and perform cross-dataset evaluations to identify domain-specific variations. By proposing metrics and strategies for a more detailed assessment of model collapse, our study provides new insights for the development of robust generative AI systems.

arxiv情報

著者 Daniele Gambetta,Gizem Gezici,Fosca Giannotti,Dino Pedreschi,Alistair Knott,Luca Pappalardo
発行日 2025-02-02 22:40:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク