METransformer: Radiology Report Generation by Transformer with Multiple Learnable Expert Tokens

要約

タイトル: Transformerによる複数学習可能エキスパートトークンを用いた放射線学レポート生成

要約:
– 複数の専門家の協力は、より細かいケースなどの診断において大きな利益をもたらす可能性がある。そこで、既存の ‘単一の専門家’ フレームワークを上位に置く ‘複数の専門家の共同診断’ メカニズムを探ることに着目した。
– これを実現するため、METransformerを提案し、Transformerベースのバックボーンで実現する方法を提案する。
– この方法のキー設計は、Transformerエンコーダーとデコーダーの両方に複数の学習可能な ‘エキスパート’ トークンを導入することである。
– エンコーダーでは、各エキスパートトークンは、画像表現のために異なる画像領域に注目するために、ビジョントークンと他のエキスパートトークンと相互作用するように学習する。
– これらのエキスパートトークンは、重複を最小限に抑える直交損失によって補完情報を取得するように促す。
– デコーダーでは、各注目されたエキスパートトークンは、入力単語と視覚トークンの間のクロスアテンションを指導し、生成されたレポートに影響を与える。
– 最終的なレポートを生成するために、基準に基づくエキスパートの投票戦略が開発されている。
– このモデルのマルチエキスパートコンセプトにより、アンサンブルアプローチのメリットを享受することができ、計算がより効率的で専門家間のより高度な相互作用をサポートすることができる。
– 実験結果は、2つの広く使用されているベンチマークでの提案モデルの有望なパフォーマンスを示している。
– さらに、フレームワークレベルのイノベーションにより、既存の ‘単一の専門家’ モデル上の進歩を組み込んでさらにパフォーマンスを向上させることができる。

要約(オリジナル)

In clinical scenarios, multi-specialist consultation could significantly benefit the diagnosis, especially for intricate cases. This inspires us to explore a ‘multi-expert joint diagnosis’ mechanism to upgrade the existing ‘single expert’ framework commonly seen in the current literature. To this end, we propose METransformer, a method to realize this idea with a transformer-based backbone. The key design of our method is the introduction of multiple learnable ‘expert’ tokens into both the transformer encoder and decoder. In the encoder, each expert token interacts with both vision tokens and other expert tokens to learn to attend different image regions for image representation. These expert tokens are encouraged to capture complementary information by an orthogonal loss that minimizes their overlap. In the decoder, each attended expert token guides the cross-attention between input words and visual tokens, thus influencing the generated report. A metrics-based expert voting strategy is further developed to generate the final report. By the multi-experts concept, our model enjoys the merits of an ensemble-based approach but through a manner that is computationally more efficient and supports more sophisticated interactions among experts. Experimental results demonstrate the promising performance of our proposed model on two widely used benchmarks. Last but not least, the framework-level innovation makes our work ready to incorporate advances on existing ‘single-expert’ models to further improve its performance.

arxiv情報

著者 Zhanyu Wang,Lingqiao Liu,Lei Wang,Luping Zhou
発行日 2023-04-05 03:54:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク