要約
このペーパーでは、ビデオアクティブラーニング設定内でのアノテーションコストの影響の研究を可能にする FOCAL (Ford-OLIVES Collaboration on Active Learning) データセットを紹介します。
アノテーションコストとは、アノテーターが特定のビデオ シーケンスにラベルを付けて品質を保証するのにかかる時間を指します。
アクティブ ラーニング研究の実際的な動機は、与えられた予算制約内でパフォーマンスを最大化する有益なサンプルに選択的にラベルを付けることで、アノテーションのコストを最小限に抑えることです。
しかし、ビデオアクティブラーニングにおけるこれまでの研究には、コストの最小化を正確に評価するためのリアルタイムの注釈ラベルが欠けており、その代わりに、注釈コストが注釈を付けるデータの量に応じて線形にスケールするという仮定の下で動作します。
この仮定では、支援ラベリング ツールの効果や、遮蔽されたオブジェクト、天候、オブジェクトの動きなどのシーン内のさまざまなインタラクションなど、非線形コストに寄与するさまざまな現実世界の交絡要因が考慮されていません。
FOCAL は、さまざまな天候、照明、季節条件を伴う 69 のユニークな都市シーンにわたる 126 のビデオ シーケンスに実際のアノテーション コスト ラベルを提供することで、この不一致に対処します。
また、浮動小数点演算 (FLOPS) のオーバーヘッドを少なくとも 77.67% 削減しながら、アノテーションのコストとパフォーマンスの間のより良いトレードオフを達成するために、ビデオ データの逐次構造を利用する一連の等角アクティブ ラーニング アルゴリズムも導入します。
。
これらのアプローチが、シーケンス選択フレームワークを通じて実際にビデオへの注釈がどのように行われるかをより適切に反映する方法を示します。
さらに、2 つのパフォーマンスとコストの指標を導入することで、これらのアプローチの利点を実証し、最適なコンフォーマル アクティブ ラーニング手法が、最適な従来のアクティブ ラーニング手法よりも 113 時間安価であることを示します。
要約(オリジナル)
In this paper, we introduce the FOCAL (Ford-OLIVES Collaboration on Active Learning) dataset which enables the study of the impact of annotation-cost within a video active learning setting. Annotation-cost refers to the time it takes an annotator to label and quality-assure a given video sequence. A practical motivation for active learning research is to minimize annotation-cost by selectively labeling informative samples that will maximize performance within a given budget constraint. However, previous work in video active learning lacks real-time annotation labels for accurately assessing cost minimization and instead operates under the assumption that annotation-cost scales linearly with the amount of data to annotate. This assumption does not take into account a variety of real-world confounding factors that contribute to a nonlinear cost such as the effect of an assistive labeling tool and the variety of interactions within a scene such as occluded objects, weather, and motion of objects. FOCAL addresses this discrepancy by providing real annotation-cost labels for 126 video sequences across 69 unique city scenes with a variety of weather, lighting, and seasonal conditions. We also introduce a set of conformal active learning algorithms that take advantage of the sequential structure of video data in order to achieve a better trade-off between annotation-cost and performance while also reducing floating point operations (FLOPS) overhead by at least 77.67%. We show how these approaches better reflect how annotations on videos are done in practice through a sequence selection framework. We further demonstrate the advantage of these approaches by introducing two performance-cost metrics and show that the best conformal active learning method is cheaper than the best traditional active learning method by 113 hours.
arxiv情報
著者 | Kiran Kokilepersaud,Yash-Yee Logan,Ryan Benkert,Chen Zhou,Mohit Prabhushankar,Ghassan AlRegib,Enrique Corona,Kunjan Singh,Mostafa Parchami |
発行日 | 2023-11-17 15:46:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google