要約
効率と精度のバランスは、深層学習モデルの導入における長年の課題です。
このトレードオフは、自動運転車のようなリアルタイムの安全性が重要なシステムにとってはさらに重要です。
この論文では、検出タスクへの寄与に応じてさまざまな層でトークンを動的に停止することで、トランスフォーマーベースの 3D オブジェクト検出器を高速化するための効果的なアプローチを提案します。
トークンの停止は微分不可能な操作ですが、私たちの方法では、同等の微分可能なフォワードパスを活用することで微分可能なエンドツーエンド学習が可能になります。
さらに、私たちのフレームワークでは、単純なトークンリサイクルメカニズムを通じて、停止したトークンを再利用してモデルの予測を通知することができます。
私たちの方法は、既存のアプローチと比較して、効率と精度のパレートフロンティアを大幅に改善します。
トークンを停止し、モデルの容量を増やすことで、Waymo Open Dataset でのモデルのレイテンシを増加させることなく、ベースライン モデルのパフォーマンスを向上させることができます。
要約(オリジナル)
Balancing efficiency and accuracy is a long-standing problem for deploying deep learning models. The trade-off is even more important for real-time safety-critical systems like autonomous vehicles. In this paper, we propose an effective approach for accelerating transformer-based 3D object detectors by dynamically halting tokens at different layers depending on their contribution to the detection task. Although halting a token is a non-differentiable operation, our method allows for differentiable end-to-end learning by leveraging an equivalent differentiable forward-pass. Furthermore, our framework allows halted tokens to be reused to inform the model’s predictions through a straightforward token recycling mechanism. Our method significantly improves the Pareto frontier of efficiency versus accuracy when compared with the existing approaches. By halting tokens and increasing model capacity, we are able to improve the baseline model’s performance without increasing the model’s latency on the Waymo Open Dataset.
arxiv情報
著者 | Mao Ye,Gregory P. Meyer,Yuning Chai,Qiang Liu |
発行日 | 2023-10-11 17:46:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google