Probably Approximately Correct Labels

要約

高品質のラベル付きデータセットを取得することは、多くの場合、費用がかかるため、広範な人間の注釈または高価な実験が必要です。
このような「専門家」のラベルを、事前に訓練を受けたモデルからのAI予測を補完する方法を提案し、ラベル付きデータセットをより費用対効果に構築します。
私たちのアプローチは、おそらくほぼ正しいラベルをもたらします。確率が高いと、全体的な標識誤差が小さくなります。
このソリューションにより、最新のAIモデルを使用した厳密で効率的なデータセットキュレーションが可能になります。
大規模な言語モデルを使用したテキスト注釈、事前に訓練された視覚モデルによる画像ラベル付け、およびAlphaFoldによるタンパク質折りたたみ分析を通じて、方法論の利点を実証します。

要約(オリジナル)

Obtaining high-quality labeled datasets is often costly, requiring either extensive human annotation or expensive experiments. We propose a method that supplements such ‘expert’ labels with AI predictions from pre-trained models to construct labeled datasets more cost-effectively. Our approach results in probably approximately correct labels: with high probability, the overall labeling error is small. This solution enables rigorous yet efficient dataset curation using modern AI models. We demonstrate the benefits of the methodology through text annotation with large language models, image labeling with pre-trained vision models, and protein folding analysis with AlphaFold.

arxiv情報

著者 Emmanuel J. Candès,Andrew Ilyas,Tijana Zrnic
発行日 2025-06-12 17:16:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク