Joint Sensing and Semantic Communications with Multi-Task Deep Learning

要約

この論文では、セマンティック通信への拡張を伴う、共同センシングと通信のための深層学習技術の統合について検討します。
統合システムは、ノイズやフェージングの影響を受ける無線チャネル上で動作する送信機と受信機で構成されます。
送信機は、ソース コーディング、チャネル コーディング、および変調の共同操作にディープ ニューラル ネットワーク (DNN)、つまりエンコーダを使用します。一方、受信機は、復調、チャネル デコーディング、およびソースの共同操作に別の DNN、つまりデコーダを利用します。
デコードしてデータサンプルを再構築します。
送信された信号は、受信機との通信をサポートし、センシングを可能にするという 2 つの目的を果たします。
ターゲットが存在する場合、反射信号が受信され、別の DNN デコーダがセンシングに利用されます。
このデコーダは、ターゲットの存在を検出し、その範囲を決定する役割を果たします。
1 つのエンコーダーと 2 つのデコーダーを含むこれらすべての DNN は、データとチャネルの特性を考慮したマルチタスク学習を通じて共同トレーニングを受けます。
この論文は、タスク分類器として動作する受信側の別のデコーダである追加の DNN を導入することにより、セマンティック通信を組み込むように拡張されています。
このデコーダは、受信信号のラベル分類の忠実度を評価し、通信プロセス内でのセマンティクスの統合を強化します。
この研究では、入力データとして CIFAR-10 を使用し、加法性白色ガウス ノイズ (AWGN) やレイリー フェージングなどのチャネル効果を考慮した結果を示しています。
この結果は、高忠実度の共同センシングとセマンティック通信の実現におけるマルチタスク深層学習の有効性を強調しています。

要約(オリジナル)

This paper explores the integration of deep learning techniques for joint sensing and communications, with an extension to semantic communications. The integrated system comprises a transmitter and receiver operating over a wireless channel, subject to noise and fading. The transmitter employs a deep neural network (DNN), namely an encoder, for joint operations of source coding, channel coding, and modulation, while the receiver utilizes another DNN, namely a decoder, for joint operations of demodulation, channel decoding, and source decoding to reconstruct the data samples. The transmitted signal serves a dual purpose, supporting communication with the receiver and enabling sensing. When a target is present, the reflected signal is received, and another DNN decoder is utilized for sensing. This decoder is responsible for detecting the target’s presence and determining its range. All these DNNs, including one encoder and two decoders, undergo joint training through multi-task learning, considering data and channel characteristics. This paper extends to incorporate semantic communications by introducing an additional DNN, another decoder at the receiver, operating as a task classifier. This decoder evaluates the fidelity of label classification for received signals, enhancing the integration of semantics within the communication process. The study presents results based on using the CIFAR-10 as the input data and accounting for channel effects like Additive White Gaussian Noise (AWGN) and Rayleigh fading. The results underscore the effectiveness of multi-task deep learning in achieving high-fidelity joint sensing and semantic communications.

arxiv情報

著者 Yalin E. Sagduyu,Tugba Erpek,Aylin Yener,Sennur Ulukus
発行日 2024-10-21 16:30:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IT, cs.LG, cs.NI, eess.SP, math.IT | Joint Sensing and Semantic Communications with Multi-Task Deep Learning はコメントを受け付けていません

Toxicity Detection is NOT all you Need: Measuring the Gaps to Supporting Volunteer Content Moderators

要約

コンテンツモデレーションの自動化アプローチにおける広範な取り組みは、モデレーターの負担を軽減することを目的として、有害、攻撃的、憎悪に満ちたコンテンツを特定するモデルの開発に焦点を当ててきました。
しかし、これらのタスクの改善によって、モデレーターが仕事を遂行する際のニーズに本当に応えられたかどうかは依然として不透明です。
この論文では、さまざまなモデレーション ルールの違反の特定に関して、コンテンツ モデレーションの側面を自動化することを目的とした過去の研究活動とボランティアのコンテンツ モデレーターのニーズとの間のギャップを明らかにします。
そのために、私たちは Hugging Face のモデル レビューを実施し、3 つの模範フォーラムからのさまざまなモデレーション ルールとガイドラインをカバーするモデルの利用可能性を明らかにします。
さらに、最先端の LLM をテストし、特定のフォーラムからのプラットフォーム ルール違反のフラグを立てる際にこれらのモデルがどの程度うまく機能するかを評価しました。
最後に、ボランティアのモデレーターとユーザー調査を実施し、有用なモデレーター モデルに関する彼らの見解を洞察します。
全体として、不足している開発モデルと LLM がルールの重要な部分で中程度から低いパフォーマンスを示しているため、重大なギャップが観察されます。
モデレーターのレポートは、モデレーター アシスタント モデルの開発に関する将来の作業のためのガイドを提供します。

要約(オリジナル)

Extensive efforts in automated approaches for content moderation have been focused on developing models to identify toxic, offensive, and hateful content with the aim of lightening the load for moderators. Yet, it remains uncertain whether improvements on those tasks have truly addressed moderators’ needs in accomplishing their work. In this paper, we surface gaps between past research efforts that have aimed to provide automation for aspects of content moderation and the needs of volunteer content moderators, regarding identifying violations of various moderation rules. To do so, we conduct a model review on Hugging Face to reveal the availability of models to cover various moderation rules and guidelines from three exemplar forums. We further put state-of-the-art LLMs to the test, evaluating how well these models perform in flagging violations of platform rules from one particular forum. Finally, we conduct a user survey study with volunteer moderators to gain insight into their perspectives on useful moderation models. Overall, we observe a non-trivial gap, as missing developed models and LLMs exhibit moderate to low performance on a significant portion of the rules. Moderators’ reports provide guides for future work on developing moderation assistant models.

arxiv情報

著者 Yang Trista Cao,Lovely-Frances Domingo,Sarah Ann Gilbert,Michelle Mazurek,Katie Shilton,Hal Daumé III
発行日 2024-10-21 16:48:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Toxicity Detection is NOT all you Need: Measuring the Gaps to Supporting Volunteer Content Moderators はコメントを受け付けていません

Reinforced Imitative Trajectory Planning for Urban Automated Driving

要約

強化学習 (RL) は、RL の収束性の低さと報酬関数の設計の難しさにより、都市自動運転の軌道計画において課題に直面しています。
収束の問題は、RL と教師あり学習を組み合わせることで軽減されます。
しかし、既存のアプローチのほとんどは 1 ステップ先を推論するだけで、将来の複数のステップを計画する機能がありません。
さらに、逆強化学習は報酬関数の設計問題を解決する可能性を秘めていますが、既存の自動運転手法は報酬関数に線形構造の仮定を課しているため、都市部の自動運転に適用するのは困難です。
これらの課題を考慮して、この論文では、RL と模倣学習を統合してマルチステップ計画を可能にする、新しい RL ベースの軌道計画方法を提案します。
さらに、トランスフォーマーベースのベイジアン報酬関数が開発され、都市シナリオにおける RL に効果的な報酬信号を提供します。
さらに、安全性と解釈可能性を高めるために、ハイブリッド駆動の軌道計画フレームワークが提案されています。
提案された手法は、大規模な現実世界の都市自動運転 nuPlan データセットで検証されました。
結果は、閉ループメトリクスの点で、提案された方法がベースラインよりも大幅に優れていることを実証しました。
コードは https://github.com/Zigned/nuplan_zigned で入手できます。

要約(オリジナル)

Reinforcement learning (RL) faces challenges in trajectory planning for urban automated driving due to the poor convergence of RL and the difficulty in designing reward functions. The convergence problem is alleviated by combining RL with supervised learning. However, most existing approaches only reason one step ahead and lack the capability to plan for multiple future steps. Besides, although inverse reinforcement learning holds promise for solving the reward function design issue, existing methods for automated driving impose a linear structure assumption on reward functions, making them difficult to apply to urban automated driving. In light of these challenges, this paper proposes a novel RL-based trajectory planning method that integrates RL with imitation learning to enable multi-step planning. Furthermore, a transformer-based Bayesian reward function is developed, providing effective reward signals for RL in urban scenarios. Moreover, a hybrid-driven trajectory planning framework is proposed to enhance safety and interpretability. The proposed methods were validated on the large-scale real-world urban automated driving nuPlan dataset. The results demonstrated the significant superiority of the proposed methods over the baselines in terms of the closed-loop metrics. The code is available at https://github.com/Zigned/nuplan_zigned.

arxiv情報

著者 Di Zeng,Ling Zheng,Xiantong Yang,Yinong Li
発行日 2024-10-21 03:04:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Reinforced Imitative Trajectory Planning for Urban Automated Driving はコメントを受け付けていません

MAL: Motion-Aware Loss with Temporal and Distillation Hints for Self-Supervised Depth Estimation

要約

奥行き認識は、幅広いロボット アプリケーションにとって重要です。
マルチフレームの自己教師あり深度推定手法は、大規模でラベルのない実世界のデータを活用できるため、研究の関心を集めています。
ただし、自己教師あり手法は静的なシーンの仮定に依存することが多く、動的な環境ではパフォーマンスが低下する傾向があります。
この問題に対処するために、我々は、連続入力フレーム間の時間的関係と、マルチフレームの自己教師あり深度推定方法における教師と生徒のネットワーク間の新しい蒸留スキームを活用するモーションアウェアロスを提案します。
具体的には、移動オブジェクトの空間的位置を入力フレームの時間的順序と関連付けて、オブジェクトの動きによって引き起こされるエラーを排除します。
一方で、教師ネットワークからの知識をより有効に活用するために、マルチフレーム手法で元の蒸留スキームを強化します。
MAL は、マルチフレームの自己監視型単眼深度推定方法にシームレスに統合できるように設計された、新しいプラグ アンド プレイ モジュールです。
以前の最先端の手法に MAL を追加すると、KITTI ベンチマークと CityScapes ベンチマークで深度推定誤差がそれぞれ最大 4.2% と 10.8% 減少します。

要約(オリジナル)

Depth perception is crucial for a wide range of robotic applications. Multi-frame self-supervised depth estimation methods have gained research interest due to their ability to leverage large-scale, unlabeled real-world data. However, the self-supervised methods often rely on the assumption of a static scene and their performance tends to degrade in dynamic environments. To address this issue, we present Motion-Aware Loss, which leverages the temporal relation among consecutive input frames and a novel distillation scheme between the teacher and student networks in the multi-frame self-supervised depth estimation methods. Specifically, we associate the spatial locations of moving objects with the temporal order of input frames to eliminate errors induced by object motion. Meanwhile, we enhance the original distillation scheme in multi-frame methods to better exploit the knowledge from a teacher network. MAL is a novel, plug-and-play module designed for seamless integration into multi-frame self-supervised monocular depth estimation methods. Adding MAL into previous state-of-the-art methods leads to a reduction in depth estimation errors by up to 4.2% and 10.8% on KITTI and CityScapes benchmarks, respectively.

arxiv情報

著者 Yue-Jiang Dong,Fang-Lue Zhang,Song-Hai Zhang
発行日 2024-10-21 03:13:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | MAL: Motion-Aware Loss with Temporal and Distillation Hints for Self-Supervised Depth Estimation はコメントを受け付けていません

Uncovering the Secrets of Human-Like Movement: A Fresh Perspective on Motion Planning

要約

この記事では、動作計画に関する新たな視点から人間に似た動作を探求します。
人体の協調的・柔軟な運動メカニズムをバイオメカニクスの観点から解析します。
これらのメカニズムに基づいて、準拠した制御ダイナミクスを統合し、応答時間マトリックスを通じてロボット アームの動作を最適化する最適な制御フレームワークを提案します。
このマトリックスは関節の動きのタイミング パラメーターを設定し、システムを時間パラメーター化された最適な制御問題に変換します。
このモデルは、外乱下での能動関節と受動関節間の相互作用に焦点を当て、適応性とコンプライアンスを向上させます。
この方法により、最適な軌道の生成が実現され、精度とコンプライアンスのバランスが保たれます。
マニピュレーターと人型ロボットの両方での実験結果により、このアプローチが検証されました。

要約(オリジナル)

This article explores human-like movement from a fresh perspective on motion planning. We analyze the coordinated and compliant movement mechanisms of the human body from the perspective of biomechanics. Based on these mechanisms, we propose an optimal control framework that integrates compliant control dynamics, optimizing robotic arm motion through a response time matrix. This matrix sets the timing parameters for joint movements, turning the system into a time-parameterized optimal control problem. The model focuses on the interaction between active and passive joints under external disturbances, improving adaptability and compliance. This method achieves optimal trajectory generation and balances precision and compliance. Experimental results on both a manipulator and a humanoid robot validate the approach.

arxiv情報

著者 Lei Shi,Qichao Liu,Cheng Zhou,Wentao Gao,Haotian Wu,Yu Zheng,Xiong Li
発行日 2024-10-21 04:06:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Uncovering the Secrets of Human-Like Movement: A Fresh Perspective on Motion Planning はコメントを受け付けていません

Data-Driven Dynamics Modeling of Miniature Robotic Blimps Using Neural ODEs With Parameter Auto-Tuning

要約

空気より軽い航空機の一種である小型ロボット飛行船は、クアッドローターと比較して安全性が向上し、耐久性が向上し、動作が静かであるため、科学および工学界でますます注目を集めています。
これらのロボット飛行船のダイナミクスを正確にモデル化することは、その大きな揚力体から生じる複雑な空気力学のため、大きな課題となります。
従来の第一原理モデルでは、正確な空気力学パラメータを取得することが難しく、高次の非線形性を見落とすことが多いため、小型ロボット飛行船の運動力学をモデル化するのは限界に達しています。
この課題に取り組むために、このレターでは、第一原理とニューラル ネットワーク モデリングを統合したデータ駆動型アプローチである自動チューニング飛行船指向ニューラル常微分方程式法 (ABNODE) を提案します。
ロボット飛行船の螺旋運動実験が行われ、ABNODE を第一原理およびその他のデータ駆動型ベンチマーク モデルと比較し、その結果は提案された方法の有効性を実証します。

要約(オリジナル)

Miniature robotic blimps, as one type of lighter-than-air aerial vehicles, have attracted increasing attention in the science and engineering community for their enhanced safety, extended endurance, and quieter operation compared to quadrotors. Accurately modeling the dynamics of these robotic blimps poses a significant challenge due to the complex aerodynamics stemming from their large lifting bodies. Traditional first-principle models have difficulty obtaining accurate aerodynamic parameters and often overlook high-order nonlinearities, thus coming to its limit in modeling the motion dynamics of miniature robotic blimps. To tackle this challenge, this letter proposes the Auto-tuning Blimp-oriented Neural Ordinary Differential Equation method (ABNODE), a data-driven approach that integrates first-principle and neural network modeling. Spiraling motion experiments of robotic blimps are conducted, comparing the ABNODE with first-principle and other data-driven benchmark models, the results of which demonstrate the effectiveness of the proposed method.

arxiv情報

著者 Yongjian Zhu,Hao Cheng,Feitian Zhang
発行日 2024-10-21 06:25:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Data-Driven Dynamics Modeling of Miniature Robotic Blimps Using Neural ODEs With Parameter Auto-Tuning はコメントを受け付けていません

Cardiac Copilot: Automatic Probe Guidance for Echocardiography with World Model

要約

心エコー検査は心臓をリアルタイムで画像化できる唯一の技術であり、大部分の心臓病の診断に不可欠です。
しかし、心臓の複雑な構造と操作上の重大な課題により、経験豊富な心臓超音波検査技師が深刻に不足しています。
この状況を軽減するために、経験の浅い超音波検査技師がフリーハンドで心エコー検査を行うのを支援するために、リアルタイムのプローブ移動ガイダンスを提供できる Cardiac Copilot システムを紹介します。
このシステムにより、特に初等科や医療が十分に受けられていない分野の専門家以外でも心臓超音波検査を実施できるようになり、世界的な医療提供が改善される可能性があります。
中心となる革新は、心臓の空間構造を表現するための Cardiac Dreamer と呼ばれるデータ駆動型の世界モデルを提案することにあります。
この世界モデルは、潜在空間内の現在のプローブ位置の周囲の心臓面の構造特徴を提供でき、自律面位置特定のための正確なナビゲーション マップとして機能します。
私たちは、3 人の認定超音波検査技師による 151,000 個のサンプル ペアを含む 110 回の定期的な臨床スキャンから得られた実際の超音波データと対応するプローブの動きを使用してモデルをトレーニングします。
37,000 サンプル ペアを使用した 3 つの標準飛行機での評価では、ワールド モデルがナビゲーション エラーを最大 33\% 削減でき、より安定したパフォーマンスを発揮できることが実証されました。

要約(オリジナル)

Echocardiography is the only technique capable of real-time imaging of the heart and is vital for diagnosing the majority of cardiac diseases. However, there is a severe shortage of experienced cardiac sonographers, due to the heart’s complex structure and significant operational challenges. To mitigate this situation, we present a Cardiac Copilot system capable of providing real-time probe movement guidance to assist less experienced sonographers in conducting freehand echocardiography. This system can enable non-experts, especially in primary departments and medically underserved areas, to perform cardiac ultrasound examinations, potentially improving global healthcare delivery. The core innovation lies in proposing a data-driven world model, named Cardiac Dreamer, for representing cardiac spatial structures. This world model can provide structure features of any cardiac planes around the current probe position in the latent space, serving as an precise navigation map for autonomous plane localization. We train our model with real-world ultrasound data and corresponding probe motion from 110 routine clinical scans with 151K sample pairs by three certified sonographers. Evaluations on three standard planes with 37K sample pairs demonstrate that the world model can reduce navigation errors by up to 33\% and exhibit more stable performance.

arxiv情報

著者 Haojun Jiang,Zhenguo Sun,Ning Jia,Meng Li,Yu Sun,Shaqi Luo,Shiji Song,Gao Huang
発行日 2024-10-21 06:25:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO, eess.IV | Cardiac Copilot: Automatic Probe Guidance for Echocardiography with World Model はコメントを受け付けていません

LiteVLoc: Map-Lite Visual Localization for Image Goal Navigation

要約

この論文では、軽量の地形図を使用して環境を表現する階層型ビジュアル ローカリゼーション フレームワークである LiteVLoc について説明します。
この方法は、粗い方法から細かい方法までカメラのポーズを推定する 3 つの連続したモジュールで構成されます。
詳細な 3D 表現に依存する主流のアプローチとは異なり、LiteVLoc は、学習ベースの特徴マッチングとメトリック ポーズ推定のための幾何学ソルバーを活用することで、ストレージのオーバーヘッドを削減します。
マップフリーの再位置推定タスク用の新しいデータセットも紹介されています。
シミュレートされたシナリオと現実世界のシナリオの両方での位置特定とナビゲーションを含む広範な実験により、システムのパフォーマンスが検証され、大規模な展開における精度と効率が実証されました。
コードとデータは一般に公開されます。

要約(オリジナル)

This paper presents LiteVLoc, a hierarchical visual localization framework that uses a lightweight topo-metric map to represent the environment. The method consists of three sequential modules that estimate camera poses in a coarse-to-fine manner. Unlike mainstream approaches relying on detailed 3D representations, LiteVLoc reduces storage overhead by leveraging learning-based feature matching and geometric solvers for metric pose estimation. A novel dataset for the map-free relocalization task is also introduced. Extensive experiments including localization and navigation in both simulated and real-world scenarios have validate the system’s performance and demonstrated its precision and efficiency for large-scale deployment. Code and data will be made publicly available.

arxiv情報

著者 Jianhao Jiao,Jinhao He,Changkun Liu,Sebastian Aegidius,Xiangcheng Hu,Tristan Braud,Dimitrios Kanoulas
発行日 2024-10-21 06:35:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | LiteVLoc: Map-Lite Visual Localization for Image Goal Navigation はコメントを受け付けていません

A New Framework for Nonlinear Kalman Filters

要約

カルマン フィルター (KF) は、システムの知識と測定を最適に組み合わせて、推定された状態の平均二乗誤差を最小限に抑える状態推定アルゴリズムです。
KF は当初線形システム用に設計されましたが、拡張カルマン フィルター (EKF)、アンセンテッド カルマン フィルター (UKF)、立方体カルマン フィルター (CKF) などの多数の拡張が非線形システム用に提案されています。
非線形 KF のタイプが異なれば長所と短所も異なりますが、これらはすべて線形 KF の同じフレームワークを使用します。この論文でわかったことによると、測定関数が非線形の場合、過信して精度の低い状態推定を行う傾向があります。
したがって、この研究では、非線形 KF の新しいフレームワークを設計し、新しいフレームワークが古いフレームワークよりも状態と共分散行列をより正確に推定できることを理論的および経験的に示しました。
新しいフレームワークは 4 つの異なる非線形 KF と 5 つの異なるタスクでテストされ、計算時間の増加はわずか約 10 ~ 90% でありながら、低測定ノイズ条件で推定誤差を数桁削減できることが実証されました。
あらゆる種類の非線形 KF は新しいフレームワークから恩恵を受けることができ、将来的にセンサーの精度が高まるにつれてその恩恵はさらに大きくなるでしょう。
一例として、最も単純な非線形 KF である EKF は、以前は強い非線形システムではうまく機能しないと考えられていましたが、新しいフレームワークの助けを借りて、高速かつかなり正確な状態推定を提供できるようになりました。
コードは https://github.com/Shida-Jiang/A-new-framework-for-nonlinear-Kalman-filters で入手できます。

要約(オリジナル)

The Kalman filter (KF) is a state estimation algorithm that optimally combines system knowledge and measurements to minimize the mean squared error of the estimated states. While KF was initially designed for linear systems, numerous extensions of it, such as extended Kalman filter (EKF), unscented Kalman filter (UKF), cubature Kalman filter (CKF), etc., have been proposed for nonlinear systems. Although different types of nonlinear KFs have different pros and cons, they all use the same framework of linear KF, which, according to what we found in this paper, tends to give overconfident and less accurate state estimations when the measurement functions are nonlinear. Therefore, in this study, we designed a new framework for nonlinear KFs and showed theoretically and empirically that the new framework estimates the states and covariance matrix more accurately than the old one. The new framework was tested on four different nonlinear KFs and five different tasks, showcasing its ability to reduce the estimation errors by several orders of magnitude in low-measurement-noise conditions, with only about a 10 to 90% increase in computational time. All types of nonlinear KFs can benefit from the new framework, and the benefit will increase as the sensors become more and more accurate in the future. As an example, EKF, the simplest nonlinear KF that was previously believed to work poorly for strongly nonlinear systems, can now provide fast and fairly accurate state estimations with the help of the new framework. The codes are available at https://github.com/Shida-Jiang/A-new-framework-for-nonlinear-Kalman-filters.

arxiv情報

著者 Shida Jiang,Junzhe Shi,Scott Moura
発行日 2024-10-21 06:40:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SP, eess.SY | A New Framework for Nonlinear Kalman Filters はコメントを受け付けていません

RANSAC Back to SOTA: A Two-stage Consensus Filtering for Real-time 3D Registration

要約

対応ベースの点群登録 (PCR) は、ロボット工学とコンピューター ビジョンで重要な役割を果たします。
ただし、センサーのノイズ、オブジェクトのオクルージョン、記述子の制限などの課題により、必然的に多数の外れ値が発生します。
RANSAC ファミリは、最も人気のある異常値除去ソリューションです。
ただし、必要な反復は外れ値の比率とともに指数関数的に増加するため、精度や速度の点で既存の方法 (SC2PCR [1]、MAC [2] など) よりもはるかに劣ります。
そこで、RANSAC を最先端 (SOTA) の速度と精度に高める 2 段階のコンセンサス フィルタリング (TCF) を提案します。
まず、ワンポイント RANSAC は長さの一貫性に基づいてコンセンサス セットを取得します。
続いて、2 点 RANSAC が角度の一貫性を介してセットを改良します。
次に、3 点 RANSAC が粗い姿勢を計算し、変換された対応関係の距離に基づいて外れ値を除去します。
1 点および 2 点 RANSAC の最適化を利用することで、3 点 RANSAC は数回の反復のみを必要とします。
最終的に、反復再重み付け最小二乗法 (IRLS) が適用されて、最適なポーズが得られます。
大規模な KITTI および ETH データセットでの実験により、私たちの方法が登録精度と再現率を維持しながら、MAC と比較して最大 3 桁の高速化を達成できることが実証されました。
私たちのコードは https://github.com/ShiPC-AI/TCF で入手できます。

要約(オリジナル)

Correspondence-based point cloud registration (PCR) plays a key role in robotics and computer vision. However, challenges like sensor noises, object occlusions, and descriptor limitations inevitably result in numerous outliers. RANSAC family is the most popular outlier removal solution. However, the requisite iterations escalate exponentially with the outlier ratio, rendering it far inferior to existing methods (SC2PCR [1], MAC [2], etc.) in terms of accuracy or speed. Thus, we propose a two-stage consensus filtering (TCF) that elevates RANSAC to state-of-the-art (SOTA) speed and accuracy. Firstly, one-point RANSAC obtains a consensus set based on length consistency. Subsequently, two-point RANSAC refines the set via angle consistency. Then, three-point RANSAC computes a coarse pose and removes outliers based on transformed correspondence’s distances. Drawing on optimizations from one-point and two-point RANSAC, three-point RANSAC requires only a few iterations. Eventually, an iterative reweighted least squares (IRLS) is applied to yield the optimal pose. Experiments on the large-scale KITTI and ETH datasets demonstrate our method achieves up to three-orders-of-magnitude speedup compared to MAC while maintaining registration accuracy and recall. Our code is available at https://github.com/ShiPC-AI/TCF.

arxiv情報

著者 Pengcheng Shi,Shaocheng Yan,Yilin Xiao,Xinyi Liu,Yongjun Zhang,Jiayuan Li
発行日 2024-10-21 06:46:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | RANSAC Back to SOTA: A Two-stage Consensus Filtering for Real-time 3D Registration はコメントを受け付けていません