要約
キーポイントベースのシーンの理解は、自動運転アプリケーションの基礎です。
同時に、オプティカル フローは多くの視覚タスクにおいて重要な役割を果たします。
ただし、すべてのポイントに同じ注意を払うという暗黙のバイアスにより、従来のデータ駆動型オプティカル フロー推定手法では、キーポイントで満足のいくパフォーマンスが得られず、キーポイントが重要な安全関連のシナリオでの実装が制限されます。
これらの問題に対処するために、モデルがキーポイント関連の事前分布を明示的に学習することを必要とするポイントベースのモデリング手法を導入します。
モデリング手法に基づいて、我々は、1) 古典的な測光損失関数と組み合わせたミックス損失関数と、多様なポイントごとの監視のために提案した条件付きポイント制御損失 (CPCL) 関数で構成されるフレームワーク、FocusFlow を紹介します。
2)従来の特徴エンコーダを我々が提案する条件制御エンコーダ(CCE)に置き換える条件付き制御モデル。
CCE には、フレームから特徴を抽出するフレーム特徴エンコーダー (FFE)、キーポイントの情報を含む入力マスクから FFE の特徴抽出動作を制御する方法を学習する条件特徴エンコーダー (CFE)、および制御情報をフレーム間で転送する融合モジュールが組み込まれています。
FFEとCFE。
当社の FocusFlow フレームワークは、ORB、SIFT、さらには学習ベースの SiLK などのさまざまな重要なポイントで最大 +44.5% の精度向上という卓越したパフォーマンスを示し、PWC-Net、RAFT などのほとんどの既存のデータ駆動型オプティカル フロー メソッドに対して優れたスケーラビリティを備えています。
、フローフォーマー。
特に、FocusFlow は、フレーム全体でオリジナルのモデルに匹敵する、または優れたパフォーマンスをもたらします。
ソースコードは https://github.com/ZhonghuaYi/FocusFlow_official で入手できます。
要約(オリジナル)
Key-point-based scene understanding is fundamental for autonomous driving applications. At the same time, optical flow plays an important role in many vision tasks. However, due to the implicit bias of equal attention on all points, classic data-driven optical flow estimation methods yield less satisfactory performance on key points, limiting their implementations in key-point-critical safety-relevant scenarios. To address these issues, we introduce a points-based modeling method that requires the model to learn key-point-related priors explicitly. Based on the modeling method, we present FocusFlow, a framework consisting of 1) a mix loss function combined with a classic photometric loss function and our proposed Conditional Point Control Loss (CPCL) function for diverse point-wise supervision; 2) a conditioned controlling model which substitutes the conventional feature encoder by our proposed Condition Control Encoder (CCE). CCE incorporates a Frame Feature Encoder (FFE) that extracts features from frames, a Condition Feature Encoder (CFE) that learns to control the feature extraction behavior of FFE from input masks containing information of key points, and fusion modules that transfer the controlling information between FFE and CFE. Our FocusFlow framework shows outstanding performance with up to +44.5% precision improvement on various key points such as ORB, SIFT, and even learning-based SiLK, along with exceptional scalability for most existing data-driven optical flow methods like PWC-Net, RAFT, and FlowFormer. Notably, FocusFlow yields competitive or superior performances rivaling the original models on the whole frame. The source code will be available at https://github.com/ZhonghuaYi/FocusFlow_official.
arxiv情報
著者 | Zhonghua Yi,Hao Shi,Kailun Yang,Qi Jiang,Yaozu Ye,Ze Wang,Kaiwei Wang |
発行日 | 2023-08-14 12:35:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google