要約
最近、大規模な言語イメージ生成モデルが広く注目を集めており、多くの作品がこれらのモデルから生成されたデータを利用して、知覚タスクのパフォーマンスをさらに強化しています。
ただし、生成されたすべてのデータが下流モデルにプラスの影響を与えるわけではなく、これらの方法では、生成されたデータをより適切に選択して利用する方法が徹底的に検討されていません。
一方で、生成されたデータに対するアクティブラーニングを志向した研究はまだ不足しています。
このペーパーでは、ロングテール インスタンス セグメンテーション タスクで生成されたデータに特化したアクティブ ラーニングを実行する方法を検討します。
続いて、勾配キャッシュに基づいて生成されたデータの寄与をオンラインで推定する新しいアルゴリズム BSGAL を提案します。
BSGAL は、無制限の生成データと複雑なダウンストリーム セグメンテーション タスクを効果的に処理できます。
実験によれば、BSGAL はベースラインのアプローチよりも優れており、ロングテール セグメンテーションのパフォーマンスが効果的に向上します。
私たちのコードは https://github.com/aim-uofa/DiverGen にあります。
要約(オリジナル)
Recently, large-scale language-image generative models have gained widespread attention and many works have utilized generated data from these models to further enhance the performance of perception tasks. However, not all generated data can positively impact downstream models, and these methods do not thoroughly explore how to better select and utilize generated data. On the other hand, there is still a lack of research oriented towards active learning on generated data. In this paper, we explore how to perform active learning specifically for generated data in the long-tailed instance segmentation task. Subsequently, we propose BSGAL, a new algorithm that online estimates the contribution of the generated data based on gradient cache. BSGAL can handle unlimited generated data and complex downstream segmentation tasks effectively. Experiments show that BSGAL outperforms the baseline approach and effectually improves the performance of long-tailed segmentation. Our code can be found at https://github.com/aim-uofa/DiverGen.
arxiv情報
著者 | Muzhi Zhu,Chengxiang Fan,Hao Chen,Yang Liu,Weian Mao,Xiaogang Xu,Chunhua Shen |
発行日 | 2024-06-04 15:57:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google