Visual-Inertial SLAM as Simple as A, B, VINS

要約

私たちは、異なる種類の視覚慣性 SLAM システムである AB-VINS を紹介します。
手作りの技術のみを使用するほとんどの VINS システムとは異なり、AB-VINS は 3 つの異なるディープ ネットワークを利用します。
AB-VINS は、まばらな特徴位置を推定する代わりに、単眼深度マップのスケールおよびバイアス パラメータ (a および b) だけを推定し、圧縮された特徴状態をもたらすマルチビュー情報を使用して深度を補正するための他の項も推定します。
AB-VINS のメイン VIO スレッドは、最適化ベースのシステムであるにもかかわらず、最先端のフィルターベースの方法の効率を上回り、同時に高密度の深さを提供します。
最先端のループクロージング SLAM システムは、キーフレームの数に線形的に多数の変数を再線形化する必要がありますが、AB-VINS は一定数の変数にのみ影響を与えながらループクロージャを実行できます。
これは、メモリ ツリーと呼ばれる新しいデータ構造によるものです。メモリ ツリーでは、キーフレーム ポーズがすべて 1 つのグローバル フレーム内で定義されるのではなく、相互に相対的に定義され、少数の状態を除いてすべての状態を固定できるようになります。
AB-VINS は最先端の VINS システムほど正確ではありませんが、慎重な実験によりより堅牢であることが示されています。

要約(オリジナル)

We present AB-VINS, a different kind of visual-inertial SLAM system. Unlike most VINS systems which only use hand-crafted techniques, AB-VINS makes use of three different deep networks. Instead of estimating sparse feature positions, AB-VINS only estimates the scale and bias parameters (a and b) of monocular depth maps, as well as other terms to correct the depth using multi-view information which results in a compressed feature state. Despite being an optimization-based system, the main VIO thread of AB-VINS surpasses the efficiency of a state-of-the-art filter-based method while also providing dense depth. While state-of-the-art loop-closing SLAM systems have to relinearize a number of variables linear the number of keyframes, AB-VINS can perform loop closures while only affecting a constant number of variables. This is due to a novel data structure called the memory tree, in which the keyframe poses are defined relative to each other rather than all in one global frame, allowing for all but a few states to be fixed. AB-VINS is not as accurate as state-of-the-art VINS systems, but it is shown through careful experimentation to be more robust.

arxiv情報

著者 Nathaniel Merrill,Guoquan Huang
発行日 2024-06-10 02:06:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク