Mr. DETR: Instructive Multi-Route Training for Detection Transformers

要約

既存の方法は、補助的な1対多くの割り当てを組み込むことにより、検出トランスのトレーニングを強化します。
この作業では、モデルをマルチタスクフレームワークとして扱い、同時に1対1の予測を実行します。
これら2つのトレーニングターゲットにわたって、変圧器デコーダーの各コンポーネントの役割を調査します。
私たちの経験的結果は、デコーダー内の独立したコンポーネントは、他のコンポーネントが共有されている場合でも、両方のターゲットを同時に効果的に学習できることを示しています。
この発見は、マルチルートトレーニングメカニズムを提案することにつながり、1対1の予測のための主要なルートと、1対1の予測のための2つの補助トレーニングルートを特徴としています。
私たちは、1対多くの予測のためにオブジェクトクエリを動的かつ柔軟に導く、新しい有益な自己触たちでトレーニングメカニズムを強化します。
補助ルートは推論中に削除され、モデルアーキテクチャや推論コストに影響を与えないようにします。
さまざまなベースラインで広範な実験を行い、図1に示すように一貫した改善を達成します。プロジェクトページ:https://visual-ai.github.io/mrdetr

要約(オリジナル)

Existing methods enhance the training of detection transformers by incorporating an auxiliary one-to-many assignment. In this work, we treat the model as a multi-task framework, simultaneously performing one-to-one and one-to-many predictions. We investigate the roles of each component in the transformer decoder across these two training targets, including self-attention, cross-attention, and feed-forward network. Our empirical results demonstrate that any independent component in the decoder can effectively learn both targets simultaneously, even when other components are shared. This finding leads us to propose a multi-route training mechanism, featuring a primary route for one-to-one prediction and two auxiliary training routes for one-to-many prediction. We enhance the training mechanism with a novel instructive self-attention that dynamically and flexibly guides object queries for one-to-many prediction. The auxiliary routes are removed during inference, ensuring no impact on model architecture or inference cost. We conduct extensive experiments on various baselines, achieving consistent improvements as shown in Figure 1. Project page: https://visual-ai.github.io/mrdetr

arxiv情報

著者 Chang-Bin Zhang,Yujie Zhong,Kai Han
発行日 2025-04-02 05:38:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク