The Re-Label Method For Data-Centric Machine Learning

要約

業界の深層学習アプリケーションでは、手動でラベル付けされたデータに一定数のノイズの多いデータが含まれています。
この問題を解決し、開発データセットで 90 を超えるスコアを達成するために、モデル予測を人間によるラベル付けの参照として与え、ノイズのあるデータを見つけて人間がノイズのあるデータに再ラベルを付ける簡単な方法を紹介します。
このペーパーでは、分類、シーケンスのタグ付け、オブジェクト検出、シーケンスの生成、クリックスルー率の予測を含む広範な深層学習タスクのアイデアを説明します。
開発データセットの評価結果と人間による評価結果は、私たちのアイデアを検証します。

要約(オリジナル)

In industry deep learning application, our manually labeled data has a certain number of noisy data. To solve this problem and achieve more than 90 score in dev dataset, we present a simple method to find the noisy data and re-label the noisy data by human, given the model predictions as references in human labeling. In this paper, we illustrate our idea for a broad set of deep learning tasks, includes classification, sequence tagging, object detection, sequence generation, click-through rate prediction. The dev dataset evaluation results and human evaluation results verify our idea.

arxiv情報

著者 Tong Guo
発行日 2023-11-02 03:46:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク