要約
正確かつ堅牢な姿勢推定は、多くのロボット システムにおいて重要な役割を果たします。
姿勢推定のための一般的なアルゴリズムは、通常、さまざまなセンサーからの高忠実度の高周波数信号に依存しています。
これらのセンサーを組み込むと、システムの価格が下がり、さらに複雑になります。
この研究では、1 台のカメラのみを必要とし、重要な点として、1 秒あたり約 1 フレームの非常に低周波の信号でも信頼性の高い推定値を生成できる、ロボット オドメトリの新しいアプローチを紹介します。
このアプローチは、深い特徴マッチング モデルを使用して、ビデオ ストリームの連続するフレーム間の画像特徴をマッチングすることに基づいています。
結果として得られる粗い推定値は、畳み込みニューラル ネットワークによって調整されます。畳み込みニューラル ネットワークは、遷移の規模を推定する役割も果たします。そうでない場合は、特徴一致情報のみを使用して取得することはできません。
私たちは、AISG-SLA Visual Localization Challenge でこのアプローチのパフォーマンスを評価しました。その結果、私たちの方法は、計算効率が高く、実装が容易でありながら、方位推定誤差が約 $3^{\circ}$ で、推定誤差が $2m$ しかなく、競合する結果を示していることがわかりました。
翻訳推定エラーがこのチャレンジで 3 位になりました。
要約(オリジナル)
Accurate and robust pose estimation plays a crucial role in many robotic systems. Popular algorithms for pose estimation typically rely on high-fidelity and high-frequency signals from various sensors. Inclusion of these sensors makes the system less affordable and much more complicated. In this work we introduce a novel approach for the robotic odometry which only requires a single camera and, importantly, can produce reliable estimates given even extremely low-frequency signal of around one frame per second. The approach is based on matching image features between the consecutive frames of the video stream using deep feature matching models. The resulting coarse estimate is then adjusted by a convolutional neural network, which is also responsible for estimating the scale of the transition, otherwise irretrievable using only the feature matching information. We evaluate the performance of the approach in the AISG-SLA Visual Localisation Challenge and find that while being computationally efficient and easy to implement our method shows competitive results with only around $3^{\circ}$ of orientation estimation error and $2m$ of translation estimation error taking the third place in the challenge.
arxiv情報
著者 | Stepan Konev,Yuriy Biktairov |
発行日 | 2023-11-16 17:32:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google