要約
ビデオデータセットに対するドメイン固有モデルの構築を支援するために設計されたシステムであるVOCALExploreを紹介する。VOCALExplore はインタラクティブなラベリングセッションをサポートし、ユーザーが提供したラベルを使用してモデルを学習する。VOCALExploreは、収集されたラベルの観測されたスキューに基づいてサンプルを選択する方法を自動的に決定することにより、モデルの品質を最大化する。また、特徴選択を上昇型バンディット問題として捉えることで、モデル学習時に使用する最適なビデオ表現を選択する。最後に、VOCALExplore は、モデルの性能を犠牲にすることなく低レイテンシーを実現するための最適化を実装している。VOCALExploreは、候補となる獲得関数と特徴抽出器があれば、可能な限り最高のモデル品質を達成し、しかも、目に見える低レイテンシ(反復あたり~1秒)と高価な前処理なしでそれを達成することを実証する。
要約(オリジナル)
We introduce VOCALExplore, a system designed to support users in building domain-specific models over video datasets. VOCALExplore supports interactive labeling sessions and trains models using user-supplied labels. VOCALExplore maximizes model quality by automatically deciding how to select samples based on observed skew in the collected labels. It also selects the optimal video representations to use when training models by casting feature selection as a rising bandit problem. Finally, VOCALExplore implements optimizations to achieve low latency without sacrificing model performance. We demonstrate that VOCALExplore achieves close to the best possible model quality given candidate acquisition functions and feature extractors, and it does so with low visible latency (~1 second per iteration) and no expensive preprocessing.
arxiv情報
著者 | Maureen Daum,Enhao Zhang,Dong He,Stephen Mussmann,Brandon Haynes,Ranjay Krishna,Magdalena Balazinska |
発行日 | 2023-03-07 17:26:04+00:00 |
arxivサイト | arxiv_id(pdf) |