Generative Deduplication For Socia Media Data Selection

要約

ソーシャル メディア データは、ノイズの多い性質によって引き起こされる冗長性の問題に悩まされており、トレーニング時間の増加とモデルのバイアスにつながります。
この問題に対処するために、生成的重複排除と呼ばれる新しいアプローチを提案します。
ノイズの多いソーシャル メディア データから重複テキストを削除し、モデルのバイアスを軽減することを目的としています。
そうすることで、ソーシャル メディア言語の理解パフォーマンスが向上し、トレーニング時間を節約できます。
広範な実験により、提案された生成的重複排除により、パフォーマンスを向上させながらトレーニング サンプルを効果的に削減できることが実証されました。
この証拠は、生成的重複排除の有効性と、ソーシャル メディアの言語理解におけるその重要性を示唆しています。

要約(オリジナル)

Social media data is plagued by the redundancy problem caused by its noisy nature, leading to increased training time and model bias. To address this issue, we propose a novel approach called generative deduplication. It aims to remove duplicate text from noisy social media data and mitigate model bias. By doing so, it can improve social media language understanding performance and save training time. Extensive experiments demonstrate that the proposed generative deduplication can effectively reduce training samples while improving performance. This evidence suggests the effectiveness of generative deduplication and its importance in social media language understanding.

arxiv情報

著者 Xianming Li,Jing Li
発行日 2024-01-12 05:47:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク