Video Annotator: A framework for efficiently building video classifiers using vision-language models and active learning

要約

高品質で一貫性のあるアノテーションは、堅牢な機械学習モデルの開発を成功させるための基礎です。
従来のデータ アノテーション方法はリソースを大量に消費し非効率であるため、多くの場合、ドメインの専門家ではないサードパーティのアノテーターに依存することになります。
通常、モデルのトレーニングに最も有益なハード サンプルは、ビジネス コンテキストなしでは正確かつ一貫してラベルを付けるのが難しい傾向があります。
これらはアノテーション プロセス中に予期せず発生する可能性があり、さまざまな回数の反復とフィードバックが必要となり、品質を保証するために予期せぬ出費と時間がかかることになります。
私たちは、人間参加型システムを使用して、ドメインの専門家がより直接的に関与することで、これらの実際的な課題の多くを解決できると考えています。
私たちは、ビデオ分類データセットに注釈を付け、管理し、反復するための Video Annotator (VA) と呼ぶ新しいフレームワークを提案します。
私たちのアプローチは、エンドユーザー中心のモデル開発プロセスに新しいパラダイムを提供し、ビデオ分類器の効率、使いやすさ、有効性を強化します。
ユニークな点として、VA は継続的なアノテーション プロセスを可能にし、データ収集とモデル トレーニングをシームレスに統合します。
私たちは、ビジョン言語基盤モデルのゼロショット機能とアクティブ ラーニング手法を組み合わせて活用し、VA によって高品質なモデルを効率的に作成できることを実証します。
VA は、幅広いタスクにわたって最も競争力のあるベースラインと比較して、平均精度で中央値 6.8 ポイントの向上を達成しました。
私たちは、VA を使用して 3 人のプロのビデオ編集者によって注釈が付けられた 56 のビデオ理解タスクにわたる 153,000 のラベルを含むデータセットをリリースします。また、実験を再現するコードも http://github.com/netflix/videoannotator でリリースします。

要約(オリジナル)

High-quality and consistent annotations are fundamental to the successful development of robust machine learning models. Traditional data annotation methods are resource-intensive and inefficient, often leading to a reliance on third-party annotators who are not the domain experts. Hard samples, which are usually the most informative for model training, tend to be difficult to label accurately and consistently without business context. These can arise unpredictably during the annotation process, requiring a variable number of iterations and rounds of feedback, leading to unforeseen expenses and time commitments to guarantee quality. We posit that more direct involvement of domain experts, using a human-in-the-loop system, can resolve many of these practical challenges. We propose a novel framework we call Video Annotator (VA) for annotating, managing, and iterating on video classification datasets. Our approach offers a new paradigm for an end-user-centered model development process, enhancing the efficiency, usability, and effectiveness of video classifiers. Uniquely, VA allows for a continuous annotation process, seamlessly integrating data collection and model training. We leverage the zero-shot capabilities of vision-language foundation models combined with active learning techniques, and demonstrate that VA enables the efficient creation of high-quality models. VA achieves a median 6.8 point improvement in Average Precision relative to the most competitive baseline across a wide-ranging assortment of tasks. We release a dataset with 153k labels across 56 video understanding tasks annotated by three professional video editors using VA, and also release code to replicate our experiments at: http://github.com/netflix/videoannotator.

arxiv情報

著者 Amir Ziai,Aneesh Vartakavi
発行日 2024-02-09 17:19:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク