Generative Deduplication For Socia Media Data Selection

要約

ソーシャルメディアデータは、ノイズの多い性質によって引き起こされる冗長性の問題に悩まされており、トレーニング時間の増加とモデルのバイアスにつながります。
この問題に対処するために、私たちは生成的複製と呼ばれる新しいアプローチを提案します。
ノイズの多いソーシャルメディアデータから重複テキストを削除し、モデルのバイアスを軽減することを目的としています。
そうすることで、ソーシャルメディア言語の理解パフォーマンスが向上し、トレーニング時間を節約できます。
広範な実験により、提案された生成的重複排除により、パフォーマンスを向上させながらトレーニングサンプルを効果的に削減できることが実証されました。
この証拠は、生成的重複排除の有効性と、ソーシャルメディアの言語理解におけるその重要性を示唆しています。

要約(オリジナル)

Social media data is plagued by the redundancy problem caused by its noisy nature, leading to increased training time and model bias. To address this issue, we propose a novel approach called generative duplication. It aims to remove duplicate text from noisy social media data and mitigate model bias. By doing so, it can improve social media language understanding performance and save training time. Extensive experiments demonstrate that the proposed generative deduplication can effectively reduce training samples while improving performance. This evidence suggests the effectiveness of generative deduplication and its importance in social media language understanding.

arxiv情報

著者	Xianming Li,Jing Li
発行日	2024-01-11 12:43:26+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Generative Deduplication For Socia Media Data Selection

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー