ELITE: Enhanced Language-Image Toxicity Evaluation for Safety

要約

現在のビジョン言語モデル(VLM)は、有害な出力を誘導する悪意のあるプロンプトに対して脆弱なままです。
VLMの既存の安全ベンチマークは主に自動化された評価方法に依存していますが、これらの方法は暗黙の有害なコンテンツを検出したり、不正確な評価を生成するのに苦労しています。
したがって、既存のベンチマークには、有害レベルが低く、あいまいなデータ、および画像テキストペアの組み合わせにおける多様性が限られていることがわかりました。
これらの問題に対処するために、VLMSの高品質の安全評価ベンチマークであるElite Benchmarkを提案します。
エリート評価者は、マルチモーダルのコンテキストでの有害性を正確に評価するために毒性スコアを明示的に組み込みます。ここでは、VLMは多くの場合、特定の説得力のある、しかし無駄のない画像の説明を提供します。
エリート評価者を使用して、既存のベンチマークから曖昧で低品質の画像テキストペアを除外し、安全で安全でない画像テキストペアの多様な組み合わせを生成します。
私たちの実験は、エリート評価者が以前の自動化された方法と比較して人間の評価と優れた整合性を達成することを示しており、エリートベンチマークはベンチマークの品質と多様性の向上を提供することを示しています。
エリートを紹介することで、より安全で堅牢なVLMSへの道を開き、実際のアプリケーションで安全リスクを評価および緩和するための重要なツールを提供します。

要約(オリジナル)

Current Vision Language Models (VLMs) remain vulnerable to malicious prompts that induce harmful outputs. Existing safety benchmarks for VLMs primarily rely on automated evaluation methods, but these methods struggle to detect implicit harmful content or produce inaccurate evaluations. Therefore, we found that existing benchmarks have low levels of harmfulness, ambiguous data, and limited diversity in image-text pair combinations. To address these issues, we propose the ELITE benchmark, a high-quality safety evaluation benchmark for VLMs, underpinned by our enhanced evaluation method, the ELITE evaluator. The ELITE evaluator explicitly incorporates a toxicity score to accurately assess harmfulness in multimodal contexts, where VLMs often provide specific, convincing, but unharmful descriptions of images. We filter out ambiguous and low-quality image-text pairs from existing benchmarks using the ELITE evaluator and generate diverse combinations of safe and unsafe image-text pairs. Our experiments demonstrate that the ELITE evaluator achieves superior alignment with human evaluations compared to prior automated methods, and the ELITE benchmark offers enhanced benchmark quality and diversity. By introducing ELITE, we pave the way for safer, more robust VLMs, contributing essential tools for evaluating and mitigating safety risks in real-world applications.

arxiv情報

著者 Wonjun Lee,Doehyeon Lee,Eugene Choi,Sangyoon Yu,Ashkan Yousefpour,Haon Park,Bumsub Ham,Suhyun Kim
発行日 2025-02-10 04:39:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | ELITE: Enhanced Language-Image Toxicity Evaluation for Safety はコメントを受け付けていません

LemmaHead: RAG Assisted Proof Generation Using Large Language Models

要約

数学的な問題を解決したり数学的証拠を書いたりするために必要なロジックを開発することは、大規模な言語モデル(LLM)にとってより困難な目的の1つです。
現在、文献で最も人気のある方法は、モデルが数学的執筆のスタイルをエミュレートすることを学ぶことができるように、アカデミック出版物や教科書などの書面による数学的コンテンツのモデルを微調整することで構成されています。
このプロジェクトでは、LLMSの数学的推論のギャップに対処するために検索拡張生成(RAG)を使用することの有効性を調査します。
公開された教科書のコンテキストに特に焦点を当てて、関連する数学的コンテキストでモデルに質問を補足するぼろきれの知識ベースであるLemmaheadを開発します。
数学的推論におけるモデルのパフォーマンスを測定するために、テストパラダイムは、無駄のない正式な言語での特定の数学的主張への証明を生成することで証明する自動定理のタスクに焦点を当てています。

要約(オリジナル)

Developing the logic necessary to solve mathematical problems or write mathematical proofs is one of the more difficult objectives for large language models (LLMS). Currently, the most popular methods in literature consists of fine-tuning the model on written mathematical content such as academic publications and textbooks, so that the model can learn to emulate the style of mathematical writing. In this project, we explore the effectiveness of using retrieval augmented generation (RAG) to address gaps in the mathematical reasoning of LLMs. We develop LemmaHead, a RAG knowledge base that supplements queries to the model with relevant mathematical context, with particular focus on context from published textbooks. To measure our model’s performance in mathematical reasoning, our testing paradigm focuses on the task of automated theorem proving via generating proofs to a given mathematical claim in the Lean formal language.

arxiv情報

著者 Tianbo Yang,Mingqi Yan,Hongyi Zhao,Tianshuo Yang
発行日 2025-02-10 05:31:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG | LemmaHead: RAG Assisted Proof Generation Using Large Language Models はコメントを受け付けていません

Kronecker Mask and Interpretive Prompts are Language-Action Video Learners

要約

対照的な言語イメージの事前削除(CLIP)には、画像ベースのビジョン学習が大幅に進歩しています。
その後、プレストピックが発生します。クリップをビデオドメインに効果的に適応させるにはどうすればよいですか?
最近の研究では、アクション認識のためにクリップのテキストまたは視覚的ブランチのいずれかを調整することに焦点を当てています。
ただし、両方のブランチの適応が非常に重要であると主張しています。
この論文では、\ textbf {claver}:a \ textbf {c} ontrastive \ textbf {l} anguage- \ textbf {a} ction \ textbfを提案します。
静的視覚オブジェクトとコンクリート名詞のアライメントから、動的アクション動作と抽象動詞のアライメントまで。
具体的には、時間モデリングのために新しいKroneckerマスクの注意を紹介します。
私たちのテーラードクロネッカーマスクは3つの利点を提供します1)各トークンの時間的受容フィールドを拡張します。
モデル。
テキストブランチに関しては、大規模な言語モデルを活用して、多様な文レベルで意味的に豊富なアクションプロンプトを生成し、モデルの焦点を動詞理解にシフトします。
さまざまなベンチマークや学習シナリオでの広範な実験は、アプローチの優位性と一般性を示しています。

要約(オリジナル)

Contrastive language-image pretraining (CLIP) has significantly advanced image-based vision learning. A pressing topic subsequently arises: how can we effectively adapt CLIP to the video domain? Recent studies have focused on adjusting either the textual or visual branch of CLIP for action recognition. However, we argue that adaptations of both branches are crucial. In this paper, we propose \textbf{CLAVER}: a \textbf{C}ontrastive \textbf{L}anguage-\textbf{A}ction \textbf{V}ideo Learn\textbf{er}, designed to shift CLIP’s focus from the alignment of static visual objects and concrete nouns to the alignment of dynamic action behaviors and abstract verbs. Specifically, we introduce a novel Kronecker mask attention for temporal modeling. Our tailored Kronecker mask offers three benefits 1) it expands the temporal receptive field for each token, 2) it serves as an effective spatiotemporal heterogeneity inductive bias, mitigating the issue of spatiotemporal homogenization, and 3) it can be seamlessly plugged into transformer-based models. Regarding the textual branch, we leverage large language models to generate diverse, sentence-level and semantically rich interpretive prompts of actions, which shift the model’s focus towards the verb comprehension. Extensive experiments on various benchmarks and learning scenarios demonstrate the superiority and generality of our approach.

arxiv情報

著者 Jingyi Yang,Zitong Yu,Xiuming Ni,Jia He,Hui Li
発行日 2025-02-10 03:28:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Kronecker Mask and Interpretive Prompts are Language-Action Video Learners はコメントを受け付けていません

Multi-Robot Scan-n-Print for Wire Arc Additive Manufacturing

要約

ロボットワイヤーアーク添加剤造形(WAAM)は金属添加剤の製造技術であり、高品質のネットシェイプファイナルパーツを確保しながら、柔軟な3Dプリントを提供します。
ただし、WAAMは、特にアルミニウム合金などの低融点金属の場合、幾何学的な不正確さもあります。
この論文では、WAAMプロセスの監視と制御のためのマルチロボットフレームワークを紹介します。
3ロボットのセットアップを検討します。6-DOF溶接ロボット、2ドーフトラニオンプラットフォーム、および印刷された部品の高さプロファイルを測定する手首に取り付けられたレーザーラインスキャナーを備えた6ドフセンシングロボットです。
ワイヤフィードレートを含む溶接パラメーターは、使用される材料に基づいて一定に保持されるため、制御入力はロボットパス速度です。
測定された出力は、部品高さプロファイルです。
計画フェーズは、ターゲット形状を均一な高さのスライスに分解します。
ランタイム中、センシングロボットは各印刷レイヤーをスキャンし、次のレイヤーのロボットパス速度は、目的のプロファイルからの偏差に基づいて調整されます。
調整は、パス速度を高さの変化に相関させる識別されたモデルに基づいています。
コントロールアーキテクチャは、すべてのロボットとセンサー間の同期モーションとデータ収集を調整します。
3ロボットWAAMテストベッドを使用して、平らな壁とより複雑なタービンブレード形状の両方で、現在のオープンループ結果にわたって閉ループスキャン-N-Printアプローチの大幅な改善を示します。

要約(オリジナル)

Robotic Wire Arc Additive Manufacturing (WAAM) is a metal additive manufacturing technology, offering flexible 3D printing while ensuring high quality near-net-shape final parts. However, WAAM also suffers from geometric imprecision, especially for low-melting-point metal such as aluminum alloys. In this paper, we present a multi-robot framework for WAAM process monitoring and control. We consider a three-robot setup: a 6-dof welding robot, a 2-dof trunnion platform, and a 6-dof sensing robot with a wrist-mounted laser line scanner measuring the printed part height profile. The welding parameters, including the wire feed rate, are held constant based on the materials used, so the control input is the robot path speed. The measured output is the part height profile. The planning phase decomposes the target shape into slices of uniform height. During runtime, the sensing robot scans each printed layer, and the robot path speed for the next layer is adjusted based on the deviation from the desired profile. The adjustment is based on an identified model correlating the path speed to change in height. The control architecture coordinates the synchronous motion and data acquisition between all robots and sensors. Using a three-robot WAAM testbed, we demonstrate significant improvements of the closed loop scan-n-print approach over the current open loop result on both a flat wall and a more complex turbine blade shape.

arxiv情報

著者 Chen-Lung Lu,Honglu He,Jinhan Ren,Joni Dhar,Glenn Saunders,Agung Julius,Johnson Samuel,John T. Wen
発行日 2025-02-06 19:00:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Multi-Robot Scan-n-Print for Wire Arc Additive Manufacturing はコメントを受け付けていません

Efficient variable-length hanging tether parameterization for marsupial robot planning in 3D environments

要約

この論文では、有袋類の構成でUAVに結び付けられたUGVの軌跡計画のためのぶら下げテザーの状態を効率的にパラメーター化および推定するための新しいアプローチを提示します。
最先端のほとんどの実装は、緊張したテザーを想定しているか、カテナリー曲線を使用して吊り下げテザーの形状をモデル化します。
カテナリーモデルは計算するのが複雑であり、計画プロセス中に何千回もインスタンス化する必要があり、時間のかかるタスクになり、緊張したテザーの仮定は問題を簡素化しますが、プラットフォームの動きを過度に制限する可能性があります。
計画プロセスを加速するために、このホワイトペーパーでは、吊り下げテザー状態を効率的に計算するための分析モデルを定義することと、衝突のないテザー状態のパラメーター化を取得する方法を提案します。
テザー状態の分析的表現を導き出すために、カテナリーと放物線の曲線の既存の類似性を活用します。

要約(オリジナル)

This paper presents a novel approach to efficiently parameterize and estimate the state of a hanging tether for path and trajectory planning of a UGV tied to a UAV in a marsupial configuration. Most implementations in the state of the art assume a taut tether or make use of the catenary curve to model the shape of the hanging tether. The catenary model is complex to compute and must be instantiated thousands of times during the planning process, becoming a time-consuming task, while the taut tether assumption simplifies the problem, but might overly restrict the movement of the platforms. In order to accelerate the planning process, this paper proposes defining an analytical model to efficiently compute the hanging tether state, and a method to get a tether state parameterization free of collisions. We exploit the existing similarity between the catenary and parabola curves to derive analytical expressions of the tether state.

arxiv情報

著者 S. Martínez-Rozas,D. Alejo,F. Caballero,L. Merino,M. A. Pérez-Cutiño,F. Rodriguez,V. Sánchez-Canales,I. Ventura,J. M. Díaz-Bañez
発行日 2025-02-06 19:37:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Efficient variable-length hanging tether parameterization for marsupial robot planning in 3D environments はコメントを受け付けていません

AnyPlace: Learning Generalized Object Placement for Robot Manipulation

要約

ロボットタスクのオブジェクト配置は、オブジェクトの形状と配置構成の多様性のために、本質的に困難です。
これに対処するために、私たちは、実際のタスクのための幅広い実行可能な配置ポーズを予測できる合成データで完全に訓練された2段階の方法である任意の場所を提案します。
私たちの重要な洞察は、ビジョン言語モデル(VLM)を活用して大まかな配置場所を特定することにより、ローカル配置の関連領域のみに焦点を当て、低レベルの配置ポーズ予測モデルをトレーニングして多様なものをキャプチャできることです。
効率的に配置。
トレーニングのために、さまざまな配置構成(挿入、スタッキング、ハンギング)でランダムに生成されたオブジェクトの完全な合成データセットを生成し、ローカル配置予測モデルをトレーニングします。
私たちは、シミュレーションで広範な評価を実施し、私たちの方法が成功率、可能な配置モードのカバレッジ、および精度の観点からベースラインよりも優れていることを示しています。
現実世界の実験では、私たちのアプローチが純粋に合成データで訓練されたモデルを現実世界に直接転送する方法を示します。他のモデルが苦労しているシナリオの配置を成功裏に実行します。
細かい配置のための高精度。
詳細:https://any-place.github.io。

要約(オリジナル)

Object placement in robotic tasks is inherently challenging due to the diversity of object geometries and placement configurations. To address this, we propose AnyPlace, a two-stage method trained entirely on synthetic data, capable of predicting a wide range of feasible placement poses for real-world tasks. Our key insight is that by leveraging a Vision-Language Model (VLM) to identify rough placement locations, we focus only on the relevant regions for local placement, which enables us to train the low-level placement-pose-prediction model to capture diverse placements efficiently. For training, we generate a fully synthetic dataset of randomly generated objects in different placement configurations (insertion, stacking, hanging) and train local placement-prediction models. We conduct extensive evaluations in simulation, demonstrating that our method outperforms baselines in terms of success rate, coverage of possible placement modes, and precision. In real-world experiments, we show how our approach directly transfers models trained purely on synthetic data to the real world, where it successfully performs placements in scenarios where other models struggle — such as with varying object geometries, diverse placement modes, and achieving high precision for fine placement. More at: https://any-place.github.io.

arxiv情報

著者 Yuchi Zhao,Miroslav Bogdanovic,Chengyuan Luo,Steven Tohme,Kourosh Darvish,Alán Aspuru-Guzik,Florian Shkurti,Animesh Garg
発行日 2025-02-06 22:04:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | AnyPlace: Learning Generalized Object Placement for Robot Manipulation はコメントを受け付けていません

Reinforcement Learning Based Prediction of PID Controller Gains for Quadrotor UAVs

要約

PIDコントローラーのゲインのオンライン微調整のために、強化学習(RL)ベースの方法論が提案および実装されているため、四肢装置が効果的で正確な軌道追跡を改善します。
RLエージェントは、最初に四肢装置PID姿勢コントローラーでオフラインでトレーニングされ、その後、シミュレーションと実験飛行を通じて検証されます。
RLは、ポリックオフクリティックな方法である深い決定論的ポリシーグラデーション(DDPG)アルゴリズムを活用しています。
トレーニングとシミュレーションの研究は、MATLAB/SIMULINKとPX4オートパイロットのUAVツールボックスサポートパッケージを使用して実行されます。
パフォーマンス評価と比較研究は、ハンドチューニングとRLベースのチューニングアプローチの間で実行されます。
結果は、RLに基づくコントローラーパラメーターがフライト中に調整され、最小の姿勢エラーを達成するため、手でチューニングされたアプローチと比較して姿勢追跡パフォーマンスを大幅に改善することを示しています。

要約(オリジナル)

A reinforcement learning (RL) based methodology is proposed and implemented for online fine-tuning of PID controller gains, thus, improving quadrotor effective and accurate trajectory tracking. The RL agent is first trained offline on a quadrotor PID attitude controller and then validated through simulations and experimental flights. RL exploits a Deep Deterministic Policy Gradient (DDPG) algorithm, which is an off-policy actor-critic method. Training and simulation studies are performed using Matlab/Simulink and the UAV Toolbox Support Package for PX4 Autopilots. Performance evaluation and comparison studies are performed between the hand-tuned and RL-based tuned approaches. The results show that the controller parameters based on RL are adjusted during flights, achieving the smallest attitude errors, thus significantly improving attitude tracking performance compared to the hand-tuned approach.

arxiv情報

著者 Serhat Sönmez,Luca Montecchio,Simone Martini,Matthew J. Rutherford,Alessandro Rizzo,Margareta Stefanovic,Kimon P. Valavanis
発行日 2025-02-06 23:01:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Reinforcement Learning Based Prediction of PID Controller Gains for Quadrotor UAVs はコメントを受け付けていません

Sensorimotor Control Strategies for Tactile Robotics

要約

ロボットはどのように周囲とやり取りするのですか?
最近の進歩により、ロボットは触覚センシングを使用して世界を知覚し、関与する方法を形作りました。
触覚センシングはゲームチェンジャーであり、ロボットが感覚運動制御戦略を埋め込み、複雑な環境と相互作用し、異質なオブジェクトを巧みに処理できるようにします。
このような制御フレームワークは、突然の変化に対応し続けながら、接触駆動型の動きを計画しています。
触覚ロボット工学の知覚および制御システムを構築するための最新の方法をレビューしながら、設計と実装のための実用的なガイドラインを提供します。
また、インテリジェントロボットの未来を形作るための重要な課題にも対処しています。

要約(オリジナル)

How are robots becoming smarter at interacting with their surroundings? Recent advances have reshaped how robots use tactile sensing to perceive and engage with the world. Tactile sensing is a game-changer, allowing robots to embed sensorimotor control strategies to interact with complex environments and skillfully handle heterogeneous objects. Such control frameworks plan contact-driven motions while staying responsive to sudden changes. We review the latest methods for building perception and control systems in tactile robotics while offering practical guidelines for their design and implementation. We also address key challenges to shape the future of intelligent robots.

arxiv情報

著者 Enrico Donato,Matteo Lo Preti,Lucia Beccai,Egidio Falotico
発行日 2025-02-06 23:07:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Sensorimotor Control Strategies for Tactile Robotics はコメントを受け付けていません

Probing a Vision-Language-Action Model for Symbolic States and Integration into a Cognitive Architecture

要約

Vision-Language-active(VLA)モデルは、視覚的および言語的入力をロボットアクションに変換することにより、ジェネラリストのロボティクスソリューションとして有望ですが、ブラックボックスの性質と環境変化に対する感受性のために信頼性がありません。
対照的に、認知アーキテクチャ(CA)は象徴的な推論と状態監視に優れていますが、剛性の事前定義された実行によって制約されます。
この作業は、オブジェクトの特性、関係、およびアクション状態の象徴的な表現を明らかにするためにOpenVLAの隠れた層を調査することにより、これらのアプローチを橋渡しし、CAとの統合を解釈性と堅牢性を高めるために可能にします。
Libero-Spatial Pick-and-Placeタスクに関する実験を通じて、OpenVLAのLlamaバックボーンのさまざまな層にわたるシンボリック状態のエンコードを分析します。
私たちの調査結果は、ほとんどのレイヤーでオブジェクトとアクションの両方の状態で一貫して高い精度(> 0.90)を示していますが、私たちの仮説に反して、アクション状態よりも早くエンコードされているオブジェクト状態の予想されるパターンは観察しませんでした。
リアルタイムの状態監視のためにこれらの象徴的な表現を活用する統合されたDIARC-OpenVLAシステムを実証し、より解釈可能で信頼性の高いロボット操作の基礎を築きます。

要約(オリジナル)

Vision-language-action (VLA) models hold promise as generalist robotics solutions by translating visual and linguistic inputs into robot actions, yet they lack reliability due to their black-box nature and sensitivity to environmental changes. In contrast, cognitive architectures (CA) excel in symbolic reasoning and state monitoring but are constrained by rigid predefined execution. This work bridges these approaches by probing OpenVLA’s hidden layers to uncover symbolic representations of object properties, relations, and action states, enabling integration with a CA for enhanced interpretability and robustness. Through experiments on LIBERO-spatial pick-and-place tasks, we analyze the encoding of symbolic states across different layers of OpenVLA’s Llama backbone. Our probing results show consistently high accuracies (> 0.90) for both object and action states across most layers, though contrary to our hypotheses, we did not observe the expected pattern of object states being encoded earlier than action states. We demonstrate an integrated DIARC-OpenVLA system that leverages these symbolic representations for real-time state monitoring, laying the foundation for more interpretable and reliable robotic manipulation.

arxiv情報

著者 Hong Lu,Hengxu Li,Prithviraj Singh Shahani,Stephanie Herbers,Matthias Scheutz
発行日 2025-02-06 23:11:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Probing a Vision-Language-Action Model for Symbolic States and Integration into a Cognitive Architecture はコメントを受け付けていません

HeLiOS: Heterogeneous LiDAR Place Recognition via Overlap-based Learning and Local Spherical Transformer

要約

Lidar Place認識は、現在の場所と以前に観察された環境と一致するローカリゼーションにおける重要なモジュールです。
Lidar Place認識のほとんどの既存のアプローチは、スピニングタイプのLidarに支配的に焦点を当て、マッチングのために大きなFOVを活用しています。
しかし、最近のさまざまなLidarタイプの出現により、さまざまなLidarタイプにわたってデータを一致させることの重要性は大幅に増加しました。これは長年にわたって見過ごされてきた課題です。
これらの課題に対処するために、球形の変圧器と堅牢なグローバル記述子のための最適な輸送ベースのクラスター割り当てを備えた小さなローカルウィンドウを利用する不均一なLidar Place認識に合わせた深いネットワークであるHeliosを紹介します。
オーバーラップベースのデータマイニングとガイド付きトリプレット損失は、従来の距離ベースのマイニングと個別のクラスの制約の制限を克服します。
ヘリオスはパブリックデータセットで検証されており、長期的な認識の評価を含め、不均一なLidar場所認識のパフォーマンスを実証し、目に見えないLIDARタイプを処理する能力を示しています。
heliosコードをhttps://github.com/minwoo0611/heliosでロボットコミュニティのオープンソースとしてリリースします。

要約(オリジナル)

LiDAR place recognition is a crucial module in localization that matches the current location with previously observed environments. Most existing approaches in LiDAR place recognition dominantly focus on the spinning type LiDAR to exploit its large FOV for matching. However, with the recent emergence of various LiDAR types, the importance of matching data across different LiDAR types has grown significantly-a challenge that has been largely overlooked for many years. To address these challenges, we introduce HeLiOS, a deep network tailored for heterogeneous LiDAR place recognition, which utilizes small local windows with spherical transformers and optimal transport-based cluster assignment for robust global descriptors. Our overlap-based data mining and guided-triplet loss overcome the limitations of traditional distance-based mining and discrete class constraints. HeLiOS is validated on public datasets, demonstrating performance in heterogeneous LiDAR place recognition while including an evaluation for long-term recognition, showcasing its ability to handle unseen LiDAR types. We release the HeLiOS code as an open source for the robotics community at https://github.com/minwoo0611/HeLiOS.

arxiv情報

著者 Minwoo Jung,Sangwoo Jung,Hyeonjae Gil,Ayoung Kim
発行日 2025-02-07 00:36:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | HeLiOS: Heterogeneous LiDAR Place Recognition via Overlap-based Learning and Local Spherical Transformer はコメントを受け付けていません