要約
現実世界のコンテンツ モデレーションのための堅牢で有用な自然言語分類システムを構築するための全体的なアプローチを提示します。
このようなシステムの成功は、慎重に設計および実行された一連のステップに依存します。これには、コンテンツの分類とラベル付けの指示の設計、データ品質管理、まれなイベントをキャプチャするためのアクティブ ラーニング パイプライン、およびモデルを堅牢にするためのさまざまな方法が含まれます。
オーバーフィッティングを避けるためです。
当社のモデレーション システムは、性的なコンテンツ、憎悪に満ちたコンテンツ、暴力、自傷行為、嫌がらせなど、望ましくないコンテンツの幅広いカテゴリを検出するようにトレーニングされています。
このアプローチは、幅広いコンテンツ分類法に一般化されており、市販のモデルよりも優れた高品質のコンテンツ分類子を作成するために使用できます。
要約(オリジナル)
We present a holistic approach to building a robust and useful natural language classification system for real-world content moderation. The success of such a system relies on a chain of carefully designed and executed steps, including the design of content taxonomies and labeling instructions, data quality control, an active learning pipeline to capture rare events, and a variety of methods to make the model robust and to avoid overfitting. Our moderation system is trained to detect a broad set of categories of undesired content, including sexual content, hateful content, violence, self-harm, and harassment. This approach generalizes to a wide range of different content taxonomies and can be used to create high-quality content classifiers that outperform off-the-shelf models.
arxiv情報
著者 | Todor Markov,Chong Zhang,Sandhini Agarwal,Tyna Eloundou,Teddy Lee,Steven Adler,Angela Jiang,Lilian Weng |
発行日 | 2023-02-14 19:39:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google