要約
タイトル:混沌から秩序がやってくる:オブジェクト検出のためのイベント表現の順序付け
要約:
– 深層ニューラルネットワークは、イベントを処理する前に、それらを密なグリッド状の入力表現に変換することが一般的である。
– しかし、それぞれのタスクに最適な表現を選択するには、伝統的には各表現のニューラルネットワークをトレーニングし、検証スコアに基づいて最適な表現を選択する必要があり、非常に時間がかかる。
– この論文では、Gromov-Wasserstein Discrepancy(GWD)に基づいて、イベントとその表現の間の最適な表現を選択することで、このボトルネックを排除する。
– GWDは、ニューラルネットワークのトレーニングを計算するよりも約200倍高速であり、複数の表現、ネットワークバックボーン、およびデータセットにわたるタスクパフォーマンスランキングを維持することができる。
– この洞察力を利用して、大きなイベント表現ファミリーにおいてハイパーパラメーター探索を行い、新しくて強力な表現を見つけ、既存の表現を上回っていることを実証した。
– オブジェクト検出において、最適化された表現は、1 Mpxデータセットで既存の表現より1.9%mAP、Gen1データセットで8.6%mAP、Gen1で最先端の1.8%mAPを上回り、1 Mpxデータセットで最先端のフィードフォワードメソッドより6.0%mAP高い性能を発揮する。
– この研究は、イベントベースの学習方法に対する明示的な表現最適化の未開拓の分野を開拓するものである。
要約(オリジナル)
Today, state-of-the-art deep neural networks that process events first convert them into dense, grid-like input representations before using an off-the-shelf network. However, selecting the appropriate representation for the task traditionally requires training a neural network for each representation and selecting the best one based on the validation score, which is very time-consuming. In this work, we eliminate this bottleneck by selecting the best representation based on the Gromov-Wasserstein Discrepancy (GWD) between the raw events and their representation. It is approximately 200 times faster to compute than training a neural network and preserves the task performance ranking of event representations across multiple representations, network backbones, and datasets. This means that finding a representation with a high task score is equivalent to finding a representation with a low GWD. We use this insight to, for the first time, perform a hyperparameter search on a large family of event representations, revealing new and powerful representations that exceed the state-of-the-art. On object detection, our optimized representation outperforms existing representations by 1.9% mAP on the 1 Mpx dataset and 8.6% mAP on the Gen1 dataset and even outperforms the state-of-the-art by 1.8% mAP on Gen1 and state-of-the-art feed-forward methods by 6.0% mAP on the 1 Mpx dataset. This work opens a new unexplored field of explicit representation optimization for event-based learning methods.
arxiv情報
著者 | Nikola Zubić,Daniel Gehrig,Mathias Gehrig,Davide Scaramuzza |
発行日 | 2023-04-27 09:37:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI