The Re-Label Method For Data-Centric Machine Learning

要約

業界の深層学習アプリケーションでは、手動でラベル付けされたデータに一定数のノイズの多いデータが含まれています。
この問題を解決し、開発データセットで 90 を超えるスコアを達成するために、モデル予測を人間によるラベル付けの参照として与え、ノイズのあるデータを見つけて人間がノイズのあるデータに再ラベルを付ける簡単な方法を紹介します。
このペーパーでは、分類、シーケンスのタグ付け、オブジェクト検出、シーケンスの生成、クリックスルー率の予測を含む広範な深層学習タスクのアイデアを説明します。
実験結果と人による評価結果が私たちのアイデアを裏付けています。

要約(オリジナル)

In industry deep learning application, our manually labeled data has a certain number of noisy data. To solve this problem and achieve more than 90 score in dev dataset, we present a simple method to find the noisy data and re-label the noisy data by human, given the model predictions as references in human labeling. In this paper, we illustrate our idea for a broad set of deep learning tasks, includes classification, sequence tagging, object detection, sequence generation, click-through rate prediction. The experimental results and human evaluation results verify our idea.

arxiv情報

著者 Tong Guo
発行日 2023-07-14 10:19:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク