The ALCHEmist: Automated Labeling 500x CHEaper Than LLM Data Annotators

要約

事前に訓練された大規模なモデルをアノテーターとして使用することで、クラウドワーカーを置き換えたり補強したりすることができ、ジェネラリスト・モデルをより小さなスペシャリスト・モデルに絞り込むことができる。残念ながら、これにはコストがかかる。最高級のモデルを採用するには、APIコールのために数千ドルを支払う必要があることが多く、その結果得られるデータセットは静的で監査が難しい。これらの課題を解決するために、我々はシンプルな代替案を提案する。事前に訓練されたモデルからラベルを直接問い合わせるのではなく、ラベルを生成するプログラムを生成するようモデルにタスク化するのだ。これらのプログラムはローカルに保存して適用することができ、再利用や拡張が可能で、コストも桁違いに低い。我々のシステムAlchemistは、様々なタスクにおいて、大規模な言語モデルベースのアノテーションに匹敵するか、それ以上の性能を、わずかなコストで得ることができる。平均して、12.9%の改善となり、全データセットにわたるラベリングコストの合計は約500分の1に削減される。

要約(オリジナル)

Large pretrained models can be used as annotators, helping replace or augment crowdworkers and enabling distilling generalist models into smaller specialist models. Unfortunately, this comes at a cost: employing top-of-the-line models often requires paying thousands of dollars for API calls, while the resulting datasets are static and challenging to audit. To address these challenges, we propose a simple alternative: rather than directly querying labels from pretrained models, we task models to generate programs that can produce labels. These programs can be stored and applied locally, re-used and extended, and cost orders of magnitude less. Our system, Alchemist, obtains comparable to or better performance than large language model-based annotation in a range of tasks for a fraction of the cost: on average, improvements amount to a 12.9% enhancement while the total labeling costs across all datasets are reduced by a factor of approximately 500x.

arxiv情報

著者 Tzu-Heng Huang,Catherine Cao,Vaishnavi Bhargava,Frederic Sala
発行日 2025-02-03 18:17:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク