要約
オプティカルフローを学習するためのトランスベースのニューラルネットワークアーキテクチャであるFlowFormerと呼ばれるオプティカルフロートランスフォーマーを紹介します。
FlowFormerは、画像ペアから構築された4Dコストボリュームをトークン化し、コストトークンを新しい潜在空間の代替グループトランスフォーマー(AGT)レイヤーを使用してコストメモリにエンコードし、動的な位置コストクエリを使用して反復トランスフォーマーデコーダーを介してコストメモリをデコードします
。
Sintelベンチマークでは、FlowFormerはクリーンパスと最終パスで1.144と2.183の平均エンドポニットエラー(AEPE)を達成し、公開された最良の結果(1.388と2.47)から17.6%と11.6%のエラー削減を達成しました。
さらに、FlowFormerは強力な一般化パフォーマンスも実現します。
FlowFormerは、Sintelでトレーニングを受けていなくても、Sintelトレーニングセットのクリーンパスで0.95 AEPEを達成し、公開されている最高の結果(1.29)を26.9%上回っています。
要約(オリジナル)
We introduce optical Flow transFormer, dubbed as FlowFormer, a transformer-based neural network architecture for learning optical flow. FlowFormer tokenizes the 4D cost volume built from an image pair, encodes the cost tokens into a cost memory with alternate-group transformer (AGT) layers in a novel latent space, and decodes the cost memory via a recurrent transformer decoder with dynamic positional cost queries. On the Sintel benchmark, FlowFormer achieves 1.144 and 2.183 average end-ponit-error (AEPE) on the clean and final pass, a 17.6% and 11.6% error reduction from the best published result (1.388 and 2.47). Besides, FlowFormer also achieves strong generalization performance. Without being trained on Sintel, FlowFormer achieves 0.95 AEPE on the Sintel training set clean pass, outperforming the best published result (1.29) by 26.9%.
arxiv情報
著者 | Zhaoyang Huang,Xiaoyu Shi,Chao Zhang,Qiang Wang,Ka Chun Cheung,Hongwei Qin,Jifeng Dai,Hongsheng Li |
発行日 | 2022-07-21 14:12:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google