Deep is a Luxury We Don’t Have

要約

医療画像は高解像度で提供されます。
悪性組織を早期に発見するには、高解像度が不可欠です。
しかし、この解決策は、長期的な依存関係をモデル化するという点で課題を提示します。
浅い変換器はこの問題を解消しますが、2 次の複雑さに悩まされます。
このホワイト ペーパーでは、線形自己注意近似を活用して、この複雑さに取り組みます。
この近似により、High resolution Convolutional Transformer の略である HCT と呼ばれる効率的なビジョン モデルを提案します。
HCT は、変圧器のメリットを大幅に低いコストで高解像度の画像にもたらします。
高解像度マンモグラフィ データセットを使用して HCT を評価します。
HCT は、対応する CNN よりも大幅に優れています。
さらに、有効な受容野を評価することにより、HCT の医用画像への適合性を実証します。コードは https://bit.ly/3ykBhhf で入手可能

要約(オリジナル)

Medical images come in high resolutions. A high resolution is vital for finding malignant tissues at an early stage. Yet, this resolution presents a challenge in terms of modeling long range dependencies. Shallow transformers eliminate this problem, but they suffer from quadratic complexity. In this paper, we tackle this complexity by leveraging a linear self-attention approximation. Through this approximation, we propose an efficient vision model called HCT that stands for High resolution Convolutional Transformer. HCT brings transformers’ merits to high resolution images at a significantly lower cost. We evaluate HCT using a high resolution mammography dataset. HCT is significantly superior to its CNN counterpart. Furthermore, we demonstrate HCT’s fitness for medical images by evaluating its effective receptive field.Code available at https://bit.ly/3ykBhhf

arxiv情報

著者 Ahmed Taha,Yen Nhi Truong Vu,Brent Mombourquette,Thomas Paul Matthews,Jason Su,Sadanand Singh
発行日 2022-08-11 23:43:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク