Unveiling The Mask of Position-Information Pattern Through the Mist of Image Features

要約

最近の研究によると、畳み込みニューラルネットワークのパディングは、特定のタスクのモデルパフォーマンスに悪影響を与える可能性のある絶対位置情報をエンコードします。
ただし、位置情報の強度を定量化するための既存のメトリックは信頼性が低く、誤った結果につながることがよくあります。
この問題に対処するために、エンコードされた位置情報を測定(および視覚化)するための新しいメトリックを提案します。
エンコードされた情報を正式にPPP(パディングからの位置情報パターン)として定義し、一連の実験を行って、その特性と形成を研究します。
提案されたメトリクスは、PosENetおよびF-Convでのテストに基づく既存のメトリクスよりも、位置情報の存在をより確実に測定します。
また、既存の(および提案されている)パディングスキームの場合、PPPは主に学習成果物であり、基礎となるパディングスキームの特性にあまり依存しないことも示しています。

要約(オリジナル)

Recent studies show that paddings in convolutional neural networks encode absolute position information which can negatively affect the model performance for certain tasks. However, existing metrics for quantifying the strength of positional information remain unreliable and frequently lead to erroneous results. To address this issue, we propose novel metrics for measuring (and visualizing) the encoded positional information. We formally define the encoded information as PPP (Position-information Pattern from Padding) and conduct a series of experiments to study its properties as well as its formation. The proposed metrics measure the presence of positional information more reliably than the existing metrics based on PosENet and a test in F-Conv. We also demonstrate that for any extant (and proposed) padding schemes, PPP is primarily a learning artifact and is less dependent on the characteristics of the underlying padding schemes.

arxiv情報

著者 Chieh Hubert Lin,Hsin-Ying Lee,Hung-Yu Tseng,Maneesh Singh,Ming-Hsuan Yang
発行日 2022-06-02 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク