PAUMER: Patch Pausing Transformer for Semantic Segmentation

要約

私たちは、画像のさまざまな部分に異なる量の計算を使用することで、セグメンテーション変換器の効率を向上させる問題を研究します。
私たちの手法である PAUMER は、最終デコーダの前にこれ以上の計算が必要ないと思われるパッチの計算を一時停止することでこれを実現します。
中間アクティベーションから計算された予測のエントロピーを一時停止基準として使用し、これが画像のセマンティクスとよく一致していることがわかりました。
私たちの方法には、提案された戦略でトレーニングされた単一のネットワークが、一時停止パラメーターを調整することによって、推論時にさまざまな実行時の要件に簡単に適応できるという独自の利点があります。
2 つの標準セグメンテーション データセット、Cityscapes と ADE20K では、この方法が約 $50\%$ 高いスループットで動作し、mIoU がそれぞれ約 $0.65\%$ と $4.6\%$ 低下することを示します。

要約(オリジナル)

We study the problem of improving the efficiency of segmentation transformers by using disparate amounts of computation for different parts of the image. Our method, PAUMER, accomplishes this by pausing computation for patches that are deemed to not need any more computation before the final decoder. We use the entropy of predictions computed from intermediate activations as the pausing criterion, and find this aligns well with semantics of the image. Our method has a unique advantage that a single network trained with the proposed strategy can be effortlessly adapted at inference to various run-time requirements by modulating its pausing parameters. On two standard segmentation datasets, Cityscapes and ADE20K, we show that our method operates with about a $50\%$ higher throughput with an mIoU drop of about $0.65\%$ and $4.6\%$ respectively.

arxiv情報

著者 Evann Courdier,Prabhu Teja Sivaprasad,François Fleuret
発行日 2023-11-01 15:32:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク