要約
このペーパーでは、トレーニング データのごく一部のみがラベル付けされる半教師あり群衆カウントに焦点を当てています。
単一の決定的な値ではなく、確率分布として回帰するようにピクセルごとの密度値を定式化します。
これに基づいて、半教師あり群衆計数モデルを提案します。
まず、予測とグランドトゥルースの間のピクセルごとの密度分布の差を測定するために、ピクセルごとの分布マッチング損失を設計します。
次に、密度トークンを使用してトランスフォーマー デコーダーを強化し、デコーダーの転送を特化します。
異なる密度間隔。
第三に、ラベルのないデータから効率的に学習するために、インターリーブ整合性自己教師あり学習メカニズムを設計します。
4 つのデータセットに対する広範な実験が実行され、さまざまなラベル付き比率設定の下で、私たちの方法が明らかに競合他社よりも大幅に優れていることが示されました。
コードは https://github.com/LoraLinH/Semi-supervised-Counting-via-Pixel-by-pixel-Density-Distribution-Modelling でリリースされます。
要約(オリジナル)
This paper focuses on semi-supervised crowd counting, where only a small portion of the training data are labeled. We formulate the pixel-wise density value to regress as a probability distribution, instead of a single deterministic value. On this basis, we propose a semi-supervised crowd-counting model. Firstly, we design a pixel-wise distribution matching loss to measure the differences in the pixel-wise density distributions between the prediction and the ground truth; Secondly, we enhance the transformer decoder by using density tokens to specialize the forwards of decoders w.r.t. different density intervals; Thirdly, we design the interleaving consistency self-supervised learning mechanism to learn from unlabeled data efficiently. Extensive experiments on four datasets are performed to show that our method clearly outperforms the competitors by a large margin under various labeled ratio settings. Code will be released at https://github.com/LoraLinH/Semi-supervised-Counting-via-Pixel-by-pixel-Density-Distribution-Modelling.
arxiv情報
著者 | Hui Lin,Zhiheng Ma,Rongrong Ji,Yaowei Wang,Zhou Su,Xiaopeng Hong,Deyu Meng |
発行日 | 2024-02-23 12:48:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google