Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction

要約

ドキュメント解析は、契約、学術論文、請求書などの非構造化および半構造化されたドキュメントを構造化された機械可読データに変換するために不可欠です。
非構造化された入力から信頼できる構造化データを解析し、多数のアプリケーションに大きな利便性を提供します。
特に、大規模な言語モデルでの最近の成果により、ドキュメント解析は、知識ベースの構築とトレーニングデータ生成の両方に不可欠な役割を果たします。
この調査では、モジュラーパイプラインシステムから大規模なビジョン言語モデルによって駆動されるエンドツーエンドモデルまで、主要な方法論をカバーする文書解析の現在の状態の包括的なレビューを提示します。
レイアウト検出、コンテンツ抽出(テキスト、テーブル、数学式を含む)、マルチモーダルデータ統合などのコアコンポーネントを詳細に調べます。
さらに、このペーパーでは、複雑なレイアウトの処理、複数のモジュールの統合、高密度テキストの認識におけるモジュラードキュメント解析システムとビジョン言語モデルが直面する課題について説明します。
将来の研究の方向性の概要を説明し、より大きく、より多様なデータセットを開発することの重要性を強調しています。

要約(オリジナル)

Document parsing is essential for converting unstructured and semi-structured documents such as contracts, academic papers, and invoices into structured, machine-readable data. Document parsing reliable structured data from unstructured inputs, providing huge convenience for numerous applications. Especially with recent achievements in Large Language Models, document parsing plays an indispensable role in both knowledge base construction and training data generation. This survey presents a comprehensive review of the current state of document parsing, covering key methodologies, from modular pipeline systems to end-to-end models driven by large vision-language models. Core components such as layout detection, content extraction (including text, tables, and mathematical expressions), and multi-modal data integration are examined in detail. Additionally, this paper discusses the challenges faced by modular document parsing systems and vision-language models in handling complex layouts, integrating multiple modules, and recognizing high-density text. It outlines future research directions and emphasizes the importance of developing larger and more diverse datasets.

arxiv情報

著者 Qintong Zhang,Bin Wang,Victor Shea-Jay Huang,Junyuan Zhang,Zhengren Wang,Hao Liang,Conghui He,Wentao Zhang
発行日 2025-04-16 15:01:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction はコメントを受け付けていません

FocusedAD: Character-centric Movie Audio Description

要約

映画オーディオの説明(AD)は、対話のないセグメント中に視覚的なコンテンツをナレーションすることを目的としています。
一般的なビデオキャプションと比較して、ADは明示的な文字名の参照を備えたプロットに関連するナレーションを要求し、映画の理解に独特の課題を提起します。アクティブなメインキャラクターを特定し、ストーリーに関連する地域に焦点を当てるために、キャラクター中心の映画のオーディオ記述を提供する新しいフレームワークであるFocusedadを提案します。
(i)文字領域を追跡し、名前にリンクするための文字知覚モジュール(CPM)。
(ii)学習可能なソフトプロンプトを介して以前の広告および字幕からコンテキストキューを注入する動的な事前モジュール(DPM)。
(iii)プロット関連の詳細と名前付き文字で豊富なナレーションを生成する焦点を絞ったキャプションモジュール(FCM)。
文字識別の制限を克服するために、文字クエリバンクを構築するための自動パイプラインも導入します。
Focusedadは、MAD-EvalNamedの強力なゼロショット結果や、新しく提案されているシネピルADデータセットの強力なゼロショット結果を含む、複数のベンチマークで最先端のパフォーマンスを実現しています。
コードとデータはhttps://github.com/thorin215/focusedadでリリースされます。

要約(オリジナル)

Movie Audio Description (AD) aims to narrate visual content during dialogue-free segments, particularly benefiting blind and visually impaired (BVI) audiences. Compared with general video captioning, AD demands plot-relevant narration with explicit character name references, posing unique challenges in movie understanding.To identify active main characters and focus on storyline-relevant regions, we propose FocusedAD, a novel framework that delivers character-centric movie audio descriptions. It includes: (i) a Character Perception Module(CPM) for tracking character regions and linking them to names; (ii) a Dynamic Prior Module(DPM) that injects contextual cues from prior ADs and subtitles via learnable soft prompts; and (iii) a Focused Caption Module(FCM) that generates narrations enriched with plot-relevant details and named characters. To overcome limitations in character identification, we also introduce an automated pipeline for building character query banks. FocusedAD achieves state-of-the-art performance on multiple benchmarks, including strong zero-shot results on MAD-eval-Named and our newly proposed Cinepile-AD dataset. Code and data will be released at https://github.com/Thorin215/FocusedAD .

arxiv情報

著者 Xiaojun Ye,Chun Wang,Yiren Song,Sheng Zhou,Liangcheng Li,Jiajun Bu
発行日 2025-04-16 15:04:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.2.10 | FocusedAD: Character-centric Movie Audio Description はコメントを受け付けていません

StructRe: Rewriting for Structured Shape Modeling

要約

人工の3D形状は、部品と階層で自然に編成されています。
このような構造は、形状の再構築と生成の重要な制約を提供します。
形状構造のモデリングは困難です。なぜなら、特定の形状に複数の階層があり、あいまいさを引き起こす可能性があり、異なるカテゴリで形状構造はセマンティクスと相関して一般化を制限するためです。
構造の形状モデリングへの新しいアプローチとして、構造書き換えシステムであるStructreを提示します。
ポイントとコンポーネントで表される3Dオブジェクトを考えると、Structreはより簡潔な構造に上向きに書き換えたり、より詳細な構造にしたりすることができます。
書き換えプロセスを反復することにより、階層が取得されます。
このようなローカライズされた書き換えプロセスにより、曖昧な構造の確率的モデリングと、オブジェクトカテゴリ全体で堅牢な一般化が可能になります。
パートネットデータでStructreをトレーニングし、その一般化をクロスカテゴリおよび複数のオブジェクト階層に示し、拡張をShapenetにテストします。
また、形状の再構築、生成、編集タスクのための確率的で一般化可能な構造モデリングの利点を示します。

要約(オリジナル)

Man-made 3D shapes are naturally organized in parts and hierarchies; such structures provide important constraints for shape reconstruction and generation. Modeling shape structures is difficult, because there can be multiple hierarchies for a given shape, causing ambiguity, and across different categories the shape structures are correlated with semantics, limiting generalization. We present StructRe, a structure rewriting system, as a novel approach to structured shape modeling. Given a 3D object represented by points and components, StructRe can rewrite it upward into more concise structures, or downward into more detailed structures; by iterating the rewriting process, hierarchies are obtained. Such a localized rewriting process enables probabilistic modeling of ambiguous structures and robust generalization across object categories. We train StructRe on PartNet data and show its generalization to cross-category and multiple object hierarchies, and test its extension to ShapeNet. We also demonstrate the benefits of probabilistic and generalizable structure modeling for shape reconstruction, generation and editing tasks.

arxiv情報

著者 Jiepeng Wang,Hao Pan,Yang Liu,Xin Tong,Taku Komura,Wenping Wang
発行日 2025-04-16 15:04:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | StructRe: Rewriting for Structured Shape Modeling はコメントを受け付けていません

Cross-Modal Mapping: Mitigating the Modality Gap for Few-Shot Image Classification

要約

少ないショット画像分類は、コンピュータービジョンの分野、特にデータスカース環境での重要な課題です。
既存の方法は通常、クリップなどの事前に訓練された視覚言語モデルに依存しています。
ただし、モダリティのギャップにより、これは共同埋め込みスペースに画像とテキスト機能の一貫性のない分布であり、クラスのプロトタイプとしてこれらの機能を直接使用すると、しばしば最適ではないパフォーマンスにつながります。
この問題に対処するために、新しいクロスモーダルマッピング(CMM)メソッドを提案します。
この方法は、グローバルに画像機能をテキスト機能空間に線形変換を介して揃え、トリプレットの損失を使用してローカル空間関係を最適化し、それによってクロスモーダルの一貫性を大幅に向上させます。
実験結果は、他の方法と比較して、CMMがトレーニングプロセスを簡素化し、より高い効率を示していることを示しています。
さらに、CMMは、バックボーンを部分的に微調整する方法と比較して、11のベンチマークデータセットで平均上位1の精度を1.06%改善し、4つの分布シフトデータセットで優れたパフォーマンスを発揮します。
特に、CMMは事前に訓練されたモデルのモダリティギャップを効果的に軽減し、テキスト機能が画像機能の効果的なクラスプロトタイプとして機能するようにするため、少数の学習に効率的で非常に一般化可能なソリューションを提供します。

要約(オリジナル)

Few-shot image classification remains a critical challenge in the field of computer vision, particularly in data-scarce environments. Existing methods typically rely on pre-trained visual-language models, such as CLIP. However, due to the modality gap, which is the inconsistent distribution of image and text features in the joint embedding space, directly using these features as class prototypes often leads to suboptimal performance. To address this issue, we propose a novel Cross-Modal Mapping (CMM) method. This method globally aligns image features with the text feature space through linear transformation and optimizes their local spatial relationships using triplet loss, thereby significantly enhancing cross-modal consistency. Experimental results show that compared to other methods, CMM simplifies the training process and demonstrates higher efficiency. Furthermore, CMM improves the average Top-1 accuracy by 1.06% on 11 benchmark datasets compared to methods that partially fine-tune the backbone, and it performs excellently on 4 distribution shift datasets. Notably, CMM effectively mitigates the modality gap in pre-trained models, enabling text features to serve as effective class prototypes for image features, thus providing an efficient and highly generalizable solution for few-shot learning.

arxiv情報

著者 Xi Yang,Pai Peng,Wulin Xie,Xiaohuan Lu,Jie Wen
発行日 2025-04-16 15:07:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Cross-Modal Mapping: Mitigating the Modality Gap for Few-Shot Image Classification はコメントを受け付けていません

Exploring Self-supervised Skeleton-based Action Recognition in Occluded Environments

要約

アクション認識を自律的なロボットシステムに統合するには、人の閉塞などの課題に対処することが不可欠です。既存の自己監視スケルトンベースのアクション認識方法で見落とされがちなシナリオをよく見落としています。
この作業では、閉塞を処理するために設計されたシンプルで効果的な自己監視学習フレームワークであるIOSPSTLを提案します。
IOSPSTLは、クラスターに存在するKNNインプターと、閉塞された部分空間的学習(OPSTL)戦略を組み合わせています。
まず、閉塞されたスケルトンシーケンス上のモデルを事前にトレーニングします。
次に、シーケンス埋め込み上のk-meansクラスタリングを使用してセマンティックグループを実行するクラスターと存在のKNN INPUTERを導入​​します。
潜在空間にK-nearest Neighborを適用し、近くのサンプル表現を活用して閉塞したジョイントを復元することにより、欠落している骨格データに異動します。
この代入は、より完全なスケルトンシーケンスを生成し、下流の自己監視モデルに大きな利益をもたらします。
学習をさらに強化するために、OPSTLモジュールには、トレーニング中に無傷で高品質のスケルトンシーケンスをよりよく利用するために、適応型空間マスキング(ASM)が組み込まれています。
私たちの方法は、NTU-60およびNTU-120データセットの閉塞されたバージョンで最先端のパフォーマンスを達成し、困難な条件下でその堅牢性と有効性を示しています。
コードはhttps://github.com/cyfml/opstlで入手できます。

要約(オリジナル)

To integrate action recognition into autonomous robotic systems, it is essential to address challenges such as person occlusions-a common yet often overlooked scenario in existing self-supervised skeleton-based action recognition methods. In this work, we propose IosPSTL, a simple and effective self-supervised learning framework designed to handle occlusions. IosPSTL combines a cluster-agnostic KNN imputer with an Occluded Partial Spatio-Temporal Learning (OPSTL) strategy. First, we pre-train the model on occluded skeleton sequences. Then, we introduce a cluster-agnostic KNN imputer that performs semantic grouping using k-means clustering on sequence embeddings. It imputes missing skeleton data by applying K-Nearest Neighbors in the latent space, leveraging nearby sample representations to restore occluded joints. This imputation generates more complete skeleton sequences, which significantly benefits downstream self-supervised models. To further enhance learning, the OPSTL module incorporates Adaptive Spatial Masking (ASM) to make better use of intact, high-quality skeleton sequences during training. Our method achieves state-of-the-art performance on the occluded versions of the NTU-60 and NTU-120 datasets, demonstrating its robustness and effectiveness under challenging conditions. Code is available at https://github.com/cyfml/OPSTL.

arxiv情報

著者 Yifei Chen,Kunyu Peng,Alina Roitberg,David Schneider,Jiaming Zhang,Junwei Zheng,Yufan Chen,Ruiping Liu,Kailun Yang,Rainer Stiefelhagen
発行日 2025-04-16 15:12:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.RO, eess.IV | Exploring Self-supervised Skeleton-based Action Recognition in Occluded Environments はコメントを受け付けていません

OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning

要約

ビジョン言語モデル(VLM)の進歩により、強力な推論能力を活用するための自律運転への関心が高まっています。
ただし、これらの機能を2Dから完全な3D理解に拡張することは、実際のアプリケーションでは重要です。
この課題に対処するために、オムニドライブを提案します。これは、エージェントモデルを反事実的推論を通じて3D駆動タスクに合わせる全体的なビジョン言語データセットです。
このアプローチは、代替行動を検討している人間のドライバーと同様に、潜在的なシナリオとその結果を評価することにより、意思決定を強化します。
当社の反事実ベースの合成データアノテーションプロセスは、大規模で高品質のデータセットを生成し、ブリッジ計画の軌跡と言語ベースの推論を橋渡しする監督信号を提供します。
Futherでは、2つの高度なOmnidrive-Agent Framework、すなわちOmni-LとOmni-Qを調査して、視覚言語のアライメントと3D知覚の重要性を評価し、効果的なLLMエージェントの設計に関する重要な洞察を明らかにします。
Drivelm Q \&A BenchmarkとNuscenesのオープンループ計画の大幅な改善は、データセットとメソッドの有効性を示しています。

要約(オリジナル)

The advances in vision-language models (VLMs) have led to a growing interest in autonomous driving to leverage their strong reasoning capabilities. However, extending these capabilities from 2D to full 3D understanding is crucial for real-world applications. To address this challenge, we propose OmniDrive, a holistic vision-language dataset that aligns agent models with 3D driving tasks through counterfactual reasoning. This approach enhances decision-making by evaluating potential scenarios and their outcomes, similar to human drivers considering alternative actions. Our counterfactual-based synthetic data annotation process generates large-scale, high-quality datasets, providing denser supervision signals that bridge planning trajectories and language-based reasoning. Futher, we explore two advanced OmniDrive-Agent frameworks, namely Omni-L and Omni-Q, to assess the importance of vision-language alignment versus 3D perception, revealing critical insights into designing effective LLM-agents. Significant improvements on the DriveLM Q\&A benchmark and nuScenes open-loop planning demonstrate the effectiveness of our dataset and methods.

arxiv情報

著者 Shihao Wang,Zhiding Yu,Xiaohui Jiang,Shiyi Lan,Min Shi,Nadine Chang,Jan Kautz,Ying Li,Jose M. Alvarez
発行日 2025-04-16 15:12:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning はコメントを受け付けていません

Strategic Client Selection to Address Non-IIDness in HAPS-enabled FL Networks

要約

高高度プラットフォームステーション(HAPS)によってサポートされている非地球ネットワーク(NTN)におけるフェデレートラーニング(FL)の展開は、多くの利点を提供します。
フットプリントが大きいため、多数の見通し(LOS)グラウンドクライアントとの相互作用が促進され、それぞれが異なるコミュニケーション機能と計算機能とともに多様なデータセットを所有しています。
多くのクライアントの存在は、FLモデルの精度を高め、収束をスピードアップします。
ただし、これらのクライアント間のさまざまなデータセットは、広範な非独立と同一に分布した(非IID)データにつながるため、重要な課題をもたらします。
データの非容量により、トレーニングの精度が著​​しく低下し、収束率が遅くなります。
この問題に対処するために、履歴トラフィックパターン、瞬時チャネル条件、計算機能、以前の学習パフォーマンスなど、複数のユーザー固有の属性を活用する新しい加重属性ベースのクライアント選択戦略を提案します。
これらの属性をすべてのFLラウンドで各ユーザーの複合スコアに組み合わせ、FLクライアントとしてより高いスコアを持つユーザーを選択することにより、フレームワークはより均一で代表的なデータ分布を保証し、非IIDデータの悪影響を効果的に軽減します。
シミュレーション結果は、大規模なFLシステムの実装におけるデータの非具体性の重要な課題に効果的に対処することにより、FLモデルの精度と収束率を高めるだけでなく、トレーニングの損失を減らすための提案されたクライアント選択戦略の有効性を裏付けています。

要約(オリジナル)

The deployment of federated learning (FL) in non-terrestrial networks (NTN) that are supported by high-altitude platform stations (HAPS) offers numerous advantages. Due to its large footprint, it facilitates interaction with a large number of line-of-sight (LoS) ground clients, each possessing diverse datasets along with distinct communication and computational capabilities. The presence of many clients enhances the accuracy of the FL model and speeds up convergence. However, the variety of datasets among these clients poses a significant challenge, as it leads to pervasive non-independent and identically distributed (non-IID) data. The data non-IIDness results in markedly reduced training accuracy and slower convergence rates. To address this issue, we propose a novel weighted attribute-based client selection strategy that leverages multiple user-specific attributes, including historical traffic patterns, instantaneous channel conditions, computational capabilities, and previous-round learning performance. By combining these attributes into a composite score for each user at every FL round and selecting users with higher scores as FL clients, the framework ensures more uniform and representative data distributions, effectively mitigating the adverse effects of non-IID data. Simulation results corroborate the effectiveness of the proposed client selection strategy in enhancing FL model accuracy and convergence rate, as well as reducing training loss, by effectively addressing the critical challenge of data non-IIDness in large-scale FL system implementations.

arxiv情報

著者 Amin Farajzadeh,Animesh Yadav,Halim Yanikomeroglu
発行日 2025-04-16 15:14:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.NI | Strategic Client Selection to Address Non-IIDness in HAPS-enabled FL Networks はコメントを受け付けていません

Deep Anatomical Federated Network (Dafne): An open client-server framework for the continuous, collaborative improvement of deep learning-based medical image segmentation

要約

目的:Dafne(深い解剖学的フェデレーションネットワーク)を提示して評価するために、フェデレーションの増分学習を通じて放射線画像のセマンティックセグメンテーションのための自由に利用可能な分散型の共同ディープラーニングシステムです。
材料と方法:Dafneは、クライアントサーバーアーキテクチャを備えたフリーソフトウェアです。
クライアント側は、サーバーに保存されているディープラーニングモデルをユーザーのデータに適用し、ユーザーが予測をチェックして改良できるようにする高度なユーザーインターフェイスです。
その後、増分学習はクライアントの側で実行され、サーバーに送り返され、そこでルートモデルに統合されます。
Dafneは、下肢の38 MRIデータセットのモデル世代間のパフォーマンスゲインを評価し、実際の使用法統計(n = 639ユースケース)の分析を通じて、ローカルで評価されました。
結果:Dafneは、時間の経過に伴うセマンティックセグメンテーションの精度の統計的に改善されたことを実証しました(ローカル検証セットでは、サイコロの類似性係数が0.007ポイント/生成される平均増加、p <0.001)。 定性的に、このモデルは、最初のトレーニングセットに存在しないものを含む、さまざまな放射線画像タイプのパフォーマンスの向上を示し、優れたモデルの一般化可能性を示しています。 結論:Dafneは、時間の経過とともにセグメンテーションの品質の改善を示し、学習と一般化の可能性を示しています。

要約(オリジナル)

Purpose: To present and evaluate Dafne (deep anatomical federated network), a freely available decentralized, collaborative deep learning system for the semantic segmentation of radiological images through federated incremental learning. Materials and Methods: Dafne is free software with a client-server architecture. The client side is an advanced user interface that applies the deep learning models stored on the server to the user’s data and allows the user to check and refine the prediction. Incremental learning is then performed at the client’s side and sent back to the server, where it is integrated into the root model. Dafne was evaluated locally, by assessing the performance gain across model generations on 38 MRI datasets of the lower legs, and through the analysis of real-world usage statistics (n = 639 use-cases). Results: Dafne demonstrated a statistically improvement in the accuracy of semantic segmentation over time (average increase of the Dice Similarity Coefficient by 0.007 points/generation on the local validation set, p < 0.001). Qualitatively, the models showed enhanced performance on various radiologic image types, including those not present in the initial training sets, indicating good model generalizability. Conclusion: Dafne showed improvement in segmentation quality over time, demonstrating potential for learning and generalization.

arxiv情報

著者 Francesco Santini,Jakob Wasserthal,Abramo Agosti,Xeni Deligianni,Kevin R. Keene,Hermien E. Kan,Stefan Sommer,Fengdan Wang,Claudia Weidensteiner,Giulia Manco,Matteo Paoletti,Valentina Mazzoli,Arjun Desai,Anna Pichiecchio
発行日 2025-04-16 15:17:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | Deep Anatomical Federated Network (Dafne): An open client-server framework for the continuous, collaborative improvement of deep learning-based medical image segmentation はコメントを受け付けていません

CodingHomo: Bootstrapping Deep Homography With Video Coding

要約

ホモグラフィーの推定は、多様な分野でのアプリケーションを備えたコンピュータービジョンの基本的なタスクです。
深い学習の最近の進歩により、特に監視されていない学習アプローチにより、ホモグラフィーの推定が改善され、堅牢性と一般化が向上します。
ただし、特に複雑な動きでホモグラフィーを正確に予測することは、依然として課題です。
これに応じて、この作業では、ビデオに存在する固有のモーションベクトル(MV)を活用することにより、ビデオコーディングを活用する新しい方法を導入します。
ホモグラフィーの推定のための監視されていないフレームワークであるCodinghomoを提示します。
私たちのフレームワークは、MVS間で有益な機能を識別および利用するマスク誘導融合(MGF)モジュールを備えているため、ホモグラフィー予測の精度を高めます。
さらに、粗から金色のホモグラフィーの改良プロセスで望ましくない機能を排除するために、マスク誘導ホモグラフィー推定(MGHE)モジュールが提示されています。
Codinghomoは、既存の最先端の監視なしの方法を上回り、優れた堅牢性と一般化可能性を提供します。
コードとデータセットは、\ href {github} {https://github.com/liuyike422/codinghomoで利用できます

要約(オリジナル)

Homography estimation is a fundamental task in computer vision with applications in diverse fields. Recent advances in deep learning have improved homography estimation, particularly with unsupervised learning approaches, offering increased robustness and generalizability. However, accurately predicting homography, especially in complex motions, remains a challenge. In response, this work introduces a novel method leveraging video coding, particularly by harnessing inherent motion vectors (MVs) present in videos. We present CodingHomo, an unsupervised framework for homography estimation. Our framework features a Mask-Guided Fusion (MGF) module that identifies and utilizes beneficial features among the MVs, thereby enhancing the accuracy of homography prediction. Additionally, the Mask-Guided Homography Estimation (MGHE) module is presented for eliminating undesired features in the coarse-to-fine homography refinement process. CodingHomo outperforms existing state-of-the-art unsupervised methods, delivering good robustness and generalizability. The code and dataset are available at: \href{github}{https://github.com/liuyike422/CodingHomo

arxiv情報

著者 Yike Liu,Haipeng Li,Shuaicheng Liu,Bing Zeng
発行日 2025-04-16 15:18:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CodingHomo: Bootstrapping Deep Homography With Video Coding はコメントを受け付けていません

RADLER: Radar Object Detection Leveraging Semantic 3D City Models and Self-Supervised Radar-Image Learning

要約

セマンティック3Dシティモデルは、世界的に簡単にアクセス可能で、正確でオブジェクト指向の、セマンティックリッチリッチな3Dプライアーを提供します。
現在までに、レーダーオブジェクトの検出に対するノイズの影響を軽減する可能性は、未調査のままです。
このホワイトペーパーでは、54K同期レーダーイメージペアとセマンティックな3D都市モデルで構成される一意のデータセット、レーダルシティを紹介します。
さらに、私たちは、歩行者、サイクリスト、車のレーダーオブジェクトの検出を強化するために、対照的な自己監視学習(SSL)およびセマンティック3D都市モデルの有効性を活用する新しいニューラルネットワークであるRadlerを提案します。
具体的には、まず、レーダーイメージの口論タスクでSSLネットワークを介して堅牢なレーダー機能を取得します。
次に、シンプルでありながら効果的な機能融合戦略を使用して、セマンティック3D Cityモデルのセマンティック詳細機能を組み込みます。
ガイダンスとして以前の3D情報を持っているRadlerは、レーダーオブジェクトの検出を強化するために、より微調整された詳細を取得します。
収集されたレーダルシティデータセットでRadlerを広範囲に評価し、平均avarage精度(MAP)で5.46%の平均改善と、以前のレーダーオブジェクト検出方法における平均アバレージリコール(MAR)で3.51%の平均改善を示します。
この作業は、セマンティックガイドおよびマップサポートされたレーダーオブジェクトの検出に関するさらなる研究を促進すると考えています。
プロジェクトページは、公開されています。

要約(オリジナル)

Semantic 3D city models are worldwide easy-accessible, providing accurate, object-oriented, and semantic-rich 3D priors. To date, their potential to mitigate the noise impact on radar object detection remains under-explored. In this paper, we first introduce a unique dataset, RadarCity, comprising 54K synchronized radar-image pairs and semantic 3D city models. Moreover, we propose a novel neural network, RADLER, leveraging the effectiveness of contrastive self-supervised learning (SSL) and semantic 3D city models to enhance radar object detection of pedestrians, cyclists, and cars. Specifically, we first obtain the robust radar features via a SSL network in the radar-image pretext task. We then use a simple yet effective feature fusion strategy to incorporate semantic-depth features from semantic 3D city models. Having prior 3D information as guidance, RADLER obtains more fine-grained details to enhance radar object detection. We extensively evaluate RADLER on the collected RadarCity dataset and demonstrate average improvements of 5.46% in mean avarage precision (mAP) and 3.51% in mean avarage recall (mAR) over previous radar object detection methods. We believe this work will foster further research on semantic-guided and map-supported radar object detection. Our project page is publicly available athttps://gpp-communication.github.io/RADLER .

arxiv情報

著者 Yuan Luo,Rudolf Hoffmann,Yan Xia,Olaf Wysocki,Benedikt Schwab,Thomas H. Kolbe,Daniel Cremers
発行日 2025-04-16 15:18:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | RADLER: Radar Object Detection Leveraging Semantic 3D City Models and Self-Supervised Radar-Image Learning はコメントを受け付けていません