The GUS Framework: Benchmarking Social Bias Classification with Discriminative (Encoder-Only) and Generative (Decoder-Only) Language Models

要約

テキストでの社会的バイアスの検出は、特にバイナリ分類方法の制限のために、重大な課題です。
これらの方法は、多くの場合、微妙なバイアスを過度に単純化し、コンテンツが「バイアス」または「公正」のいずれかと誤分類されると感情的な影響が高くなります。
これらの欠点に対処するために、ソーシャルバイアスの根底にある3つの重要な言語コンポーネント、一般化、不公平、ステレオタイプ(GUSフレームワーク)に焦点を当てたより微妙なフレームワークを提案します。
GUSフレームワークは、半自動化されたアプローチを採用して包括的な合成データセットを作成します。これは、倫理基準を維持するために人間によって検証されます。
このデータセットは、堅牢なマルチラベルトークン分類を可能にします。
識別(エンコーダーのみの)モデルと生成(自動動的な大手言語モデル)を組み合わせた方法論は、テキスト内の偏ったエンティティを識別します。
大規模な実験を通じて、エンコーダーのみのモデルがこの複雑なタスクに効果的であり、マクロとエンティティごとのF1スコアとハミング損失の両方の点で、しばしば最先端の方法を上回ることが多いことを実証します。
これらの調査結果は、さまざまなユースケースのモデルの選択を導き、さまざまなコンテキストで明示的および暗黙的なバイアスをキャプチャするGUSフレームワークの有効性を強調し、さまざまな分野での将来の研究とアプリケーションの経路を提供することができます。

要約(オリジナル)

The detection of social bias in text is a critical challenge, particularly due to the limitations of binary classification methods. These methods often oversimplify nuanced biases, leading to high emotional impact when content is misclassified as either ‘biased’ or ‘fair.’ To address these shortcomings, we propose a more nuanced framework that focuses on three key linguistic components underlying social bias: Generalizations, Unfairness, and Stereotypes (the GUS framework). The GUS framework employs a semi-automated approach to create a comprehensive synthetic dataset, which is then verified by humans to maintain ethical standards. This dataset enables robust multi-label token classification. Our methodology, which combines discriminative (encoder-only) models and generative (auto-regressive large language models), identifies biased entities in text. Through extensive experiments, we demonstrate that encoder-only models are effective for this complex task, often outperforming state-of-the-art methods, both in terms of macro and entity-wise F1-score and Hamming loss. These findings can guide the choice of model for different use cases, highlighting the GUS framework’s effectiveness in capturing explicit and implicit biases across diverse contexts, and offering a pathway for future research and applications in various fields.

arxiv情報

著者 Maximus Powers,Shaina Raza,Alex Chang,Umang Mavani,Harshitha Reddy Jonala,Ansh Tiwari,Hua Wei
発行日 2025-02-28 18:55:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | The GUS Framework: Benchmarking Social Bias Classification with Discriminative (Encoder-Only) and Generative (Decoder-Only) Language Models はコメントを受け付けていません

Toward Foundational Model for Sleep Analysis Using a Multimodal Hybrid Self-Supervised Learning Framework

要約

睡眠は、人間の健康と生活の質を維持するために不可欠です。
睡眠中の生理学的信号の分析は、睡眠の質を評価し、睡眠障害の診断に重要です。
ただし、臨床医による手動診断は、時間を集中的かつ主観的です。
自動化が強化された深い学習の進歩にもかかわらず、これらのアプローチは大規模なラベル付けされたデータセットに大きく依存しています。
この研究では、Polysomnography(PSG)データを分析するために設計されたマルチモーダルハイブリッドの自己監視学習フレームワークであるSynths Sleepnetを紹介します。
Synthsleepnetは、脳波(EEG)、電気総体(EEG)、電気造影(EMG)、心電図(ECG)など、複数のモダリティにわたって相補的な特徴を活用するために、マスクされた予測と対照的な学習を効果的に統合します。
このアプローチにより、モデルはPSGデータの高度に表現力のある表現を学習できます。
さらに、MAMBAに基づく時間的コンテキストモジュールが開発され、信号全体でコンテキスト情報を効率的にキャプチャしました。
Synths Sleepnetは、それぞれ89.89%、99.75%、および89.60%の精度で、睡眠段階分類、無呼吸検出、および低体力検出の3つの下流タスクにわたる最先端の方法と比較して優れた性能を達成しました。
このモデルは、限られたラベルを持つ半監視学習環境で堅牢なパフォーマンスを実証し、同じタスクで87.98%、99.37%、77.52%の精度を達成しました。
これらの結果は、PSGデータの包括的な分析の基礎ツールとしてのモデルの可能性を強調しています。
Synthsleepnetは、他の方法論と比較して、複数のダウンストリームタスクで包括的に優れたパフォーマンスを実証しているため、睡眠障害の監視と診断システムの新しい基準を設定することが期待されています。

要約(オリジナル)

Sleep is essential for maintaining human health and quality of life. Analyzing physiological signals during sleep is critical in assessing sleep quality and diagnosing sleep disorders. However, manual diagnoses by clinicians are time-intensive and subjective. Despite advances in deep learning that have enhanced automation, these approaches remain heavily dependent on large-scale labeled datasets. This study introduces SynthSleepNet, a multimodal hybrid self-supervised learning framework designed for analyzing polysomnography (PSG) data. SynthSleepNet effectively integrates masked prediction and contrastive learning to leverage complementary features across multiple modalities, including electroencephalogram (EEG), electrooculography (EOG), electromyography (EMG), and electrocardiogram (ECG). This approach enables the model to learn highly expressive representations of PSG data. Furthermore, a temporal context module based on Mamba was developed to efficiently capture contextual information across signals. SynthSleepNet achieved superior performance compared to state-of-the-art methods across three downstream tasks: sleep-stage classification, apnea detection, and hypopnea detection, with accuracies of 89.89%, 99.75%, and 89.60%, respectively. The model demonstrated robust performance in a semi-supervised learning environment with limited labels, achieving accuracies of 87.98%, 99.37%, and 77.52% in the same tasks. These results underscore the potential of the model as a foundational tool for the comprehensive analysis of PSG data. SynthSleepNet demonstrates comprehensively superior performance across multiple downstream tasks compared to other methodologies, making it expected to set a new standard for sleep disorder monitoring and diagnostic systems.

arxiv情報

著者 Cheol-Hui Lee,Hakseung Kim,Byung C. Yoon,Dong-Joo Kim
発行日 2025-02-28 18:56:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, eess.SP | Toward Foundational Model for Sleep Analysis Using a Multimodal Hybrid Self-Supervised Learning Framework はコメントを受け付けていません

Fast 3D point clouds retrieval for Large-scale 3D Place Recognition

要約

3Dポイントクラウドでの検索は、3Dポイントの参照内で最も類似したポイントクラウドを特定のクエリに取得することで構成される挑戦的なタスクです。
現在の方法は、同様のメソッドを識別するために、ポイントクラウドの記述子の比較に焦点を当てています。
この後者のステップの複雑さにより、ここでは、3Dポイントクラウドの検索用に、テキスト情報検索用に最初に設計された変圧器ベースのアプローチである微分可能な検索インデックス(DSI)を適応させることにより、検索の加速に焦点を当てます。
私たちのアプローチは、ポイント記述子に基づいて1D識別子を生成し、一定の時間で直接検索を可能にします。
DSIを3Dデータに適応させるために、視覚変圧器をこれらの識別子にマッピングする視覚変圧器を統合しながら、位置とセマンティックのエンコードを組み込みます。
このアプローチは、回収されたポイントクラウドの品質と速度の観点から、その検索機能を最先端の方法と比較するパブリックベンチマークでの場所認識について評価されます。

要約(オリジナル)

Retrieval in 3D point clouds is a challenging task that consists in retrieving the most similar point clouds to a given query within a reference of 3D points. Current methods focus on comparing descriptors of point clouds in order to identify similar ones. Due to the complexity of this latter step, here we focus on the acceleration of the retrieval by adapting the Differentiable Search Index (DSI), a transformer-based approach initially designed for text information retrieval, for 3D point clouds retrieval. Our approach generates 1D identifiers based on the point descriptors, enabling direct retrieval in constant time. To adapt DSI to 3D data, we integrate Vision Transformers to map descriptors to these identifiers while incorporating positional and semantic encoding. The approach is evaluated for place recognition on a public benchmark comparing its retrieval capabilities against state-of-the-art methods, in terms of quality and speed of returned point clouds.

arxiv情報

著者 Chahine-Nicolas Zede,Laurent Carrafa,Valérie Gouet-Brunet
発行日 2025-02-28 14:03:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T10, 68T45, cs.CV, cs.IR, I.2.10 | Fast 3D point clouds retrieval for Large-scale 3D Place Recognition はコメントを受け付けていません

Spatial Reasoning with Denoising Models

要約

生成モデルの除去を介して一連の連続変数を介して推論を実行するフレームワークである空間推論モデル(SRMS)を紹介します。
SRMSは、観察された変数の観察を与えられた、観察されていない一連の変数の連続表現を推測します。
拡散モデルやフローマッチングモデルなどの空間ドメイン上の現在の生成モデルは、複雑な分布の場合に幻覚に崩壊することがよくあります。
これを測定するために、生成モデルの複雑な推論の品質をテストし、幻覚を定量化できる一連のベンチマークタスクを導入します。
SRMフレームワークでは、生成における順次化の重要性、関連する順序、およびトレーニング中のサンプリング戦略に関する重要な調査結果を報告できます。
初めて、世代の順序が除去ネットワーク自体によって正常に予測できることを実証しています。
これらの調査結果を使用して、特定の推論タスクの精度を1%未満から> 50%に増やすことができます。

要約(オリジナル)

We introduce Spatial Reasoning Models (SRMs), a framework to perform reasoning over sets of continuous variables via denoising generative models. SRMs infer continuous representations on a set of unobserved variables, given observations on observed variables. Current generative models on spatial domains, such as diffusion and flow matching models, often collapse to hallucination in case of complex distributions. To measure this, we introduce a set of benchmark tasks that test the quality of complex reasoning in generative models and can quantify hallucination. The SRM framework allows to report key findings about importance of sequentialization in generation, the associated order, as well as the sampling strategies during training. It demonstrates, for the first time, that order of generation can successfully be predicted by the denoising network itself. Using these findings, we can increase the accuracy of specific reasoning tasks from <1% to >50%.

arxiv情報

著者 Christopher Wewer,Bart Pogodzinski,Bernt Schiele,Jan Eric Lenssen
発行日 2025-02-28 14:08:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Spatial Reasoning with Denoising Models はコメントを受け付けていません

Enhancing deep neural networks through complex-valued representations and Kuramoto synchronization dynamics

要約

神経同期は、脳が視覚シーンを構造化された表現に整理する方法に重要な役割を果たすと仮定され、シーン内の複数のオブジェクトの堅牢なエンコードを可能にします。
ただし、現在の深い学習モデルは、しばしばオブジェクトの結合と格闘し、複数のオブジェクトを効果的に表現する能力を制限します。
神経科学に触発されて、同期ベースのメカニズムが視覚分類のために訓練された人工モデルでのオブジェクトエンコーディングを強化できるかどうかを調査します。
具体的には、複雑な値の表現と久本のダイナミクスを組み合わせて位相アラインメントを促進し、同じオブジェクトに属する機能のグループ化を促進します。
同期を使用した2つのアーキテクチャを評価します。フィードフォワードモデルと、フィードバック接続を備えた再発モデルを評価して、トップダウン情報を使用して位相同期を改善します。
どちらのモデルも、重複する手書きの数字、ノイズの多い入力、分散型変換の変換など、マルチオブジェクト画像を含むタスクにkuramoto同期することなく、実質価値のあるカウンターパートと複雑な値モデルよりも優れています。
私たちの調査結果は、深い学習モデルを強化し、複雑な視覚分類タスクにおけるパフォーマンス、堅牢性、および一般化を改善するための同期駆動型メカニズムの可能性を強調しています。

要約(オリジナル)

Neural synchrony is hypothesized to play a crucial role in how the brain organizes visual scenes into structured representations, enabling the robust encoding of multiple objects within a scene. However, current deep learning models often struggle with object binding, limiting their ability to represent multiple objects effectively. Inspired by neuroscience, we investigate whether synchrony-based mechanisms can enhance object encoding in artificial models trained for visual categorization. Specifically, we combine complex-valued representations with Kuramoto dynamics to promote phase alignment, facilitating the grouping of features belonging to the same object. We evaluate two architectures employing synchrony: a feedforward model and a recurrent model with feedback connections to refine phase synchronization using top-down information. Both models outperform their real-valued counterparts and complex-valued models without Kuramoto synchronization on tasks involving multi-object images, such as overlapping handwritten digits, noisy inputs, and out-of-distribution transformations. Our findings highlight the potential of synchrony-driven mechanisms to enhance deep learning models, improving their performance, robustness, and generalization in complex visual categorization tasks.

arxiv情報

著者 Sabine Muzellec,Andrea Alamia,Thomas Serre,Rufin VanRullen
発行日 2025-02-28 14:10:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, nlin.AO, q-bio.NC | Enhancing deep neural networks through complex-valued representations and Kuramoto synchronization dynamics はコメントを受け付けていません

Training-free and Adaptive Sparse Attention for Efficient Long Video Generation

要約

拡散変圧器(DIT)を使用して高忠実度の長いビデオを生成することは、主に注意メカニズムの計算要求のために、多くの場合、大幅な遅延によって妨げられます。
たとえば、Hunyuanvideoを使用して8秒の720pビデオ(110kトークン)を生成すると、約600個のPFLOPSが必要で、注意計算により約500個のPFLOPが消費されます。
この問題に対処するために、最初の動的パターンであるAdaspaとオンラインの正確な検索スパース注意方法を提案します。
まず、動的なパターンを実現するために、DITに固有の階層的スパース性を効率的にキャプチャするために、ブロック化されたパターンを導入します。
これは、DITのまばらな特性が、異なるモダリティの間および範囲内で階層的およびブロック化された構造を示すという観察に基づいています。
このブロック化されたアプローチは、生成されたビデオで高い忠実度を維持しながら、注意計算の複雑さを大幅に削減します。
第二に、オンラインの正確な検索を有効にするために、ヘッドに適した階層ブロックのまばらな注意を払って融合したLSEキャッシュ検索を提案します。
この方法は、ditsのまばらなパターンとlseがW.R.Tを変えるという私たちの発見によって動機付けられています。
入力、レイヤー、ヘッドですが、除去ステップ全体で不変のままです。
除去ステップ全体でこの不変性を活用することにより、DITの動的な性質に適応し、最小限のオーバーヘッドでスパースインデックスの正確でリアルタイムの識別を可能にします。
ADASPAは、適応型のプラグアンドプレイソリューションとして実装されており、既存のDITとシームレスに統合でき、追加の微調整もデータセット依存プロファイリングも必要ありません。
広範な実験では、ADASPAがビデオ品質を維持しながら、さまざまなモデルで大幅な加速を提供し、効率的なビデオ生成に対する堅牢でスケーラブルなアプローチとしての地位を確立していることを検証します。

要約(オリジナル)

Generating high-fidelity long videos with Diffusion Transformers (DiTs) is often hindered by significant latency, primarily due to the computational demands of attention mechanisms. For instance, generating an 8-second 720p video (110K tokens) with HunyuanVideo takes about 600 PFLOPs, with around 500 PFLOPs consumed by attention computations. To address this issue, we propose AdaSpa, the first Dynamic Pattern and Online Precise Search sparse attention method. Firstly, to realize the Dynamic Pattern, we introduce a blockified pattern to efficiently capture the hierarchical sparsity inherent in DiTs. This is based on our observation that sparse characteristics of DiTs exhibit hierarchical and blockified structures between and within different modalities. This blockified approach significantly reduces the complexity of attention computation while maintaining high fidelity in the generated videos. Secondly, to enable Online Precise Search, we propose the Fused LSE-Cached Search with Head-adaptive Hierarchical Block Sparse Attention. This method is motivated by our finding that DiTs’ sparse pattern and LSE vary w.r.t. inputs, layers, and heads, but remain invariant across denoising steps. By leveraging this invariance across denoising steps, it adapts to the dynamic nature of DiTs and allows for precise, real-time identification of sparse indices with minimal overhead. AdaSpa is implemented as an adaptive, plug-and-play solution and can be integrated seamlessly with existing DiTs, requiring neither additional fine-tuning nor a dataset-dependent profiling. Extensive experiments validate that AdaSpa delivers substantial acceleration across various models while preserving video quality, establishing itself as a robust and scalable approach to efficient video generation.

arxiv情報

著者 Yifei Xia,Suhan Ling,Fangcheng Fu,Yujie Wang,Huixia Li,Xuefeng Xiao,Bin Cui
発行日 2025-02-28 14:11:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Training-free and Adaptive Sparse Attention for Efficient Long Video Generation はコメントを受け付けていません

BST: Badminton Stroke-type Transformer for Skeleton-based Action Recognition in Racket Sports

要約

すべてのスポーツの中で最も速いボールスピードを持っていることで知られるバドミントンは、プレーヤーの識別、コートライン検出、シャトルコックの軌跡追跡、プレーヤーストロークタイプの分類など、コンピュータービジョンの分野に大きな課題をもたらします。
このペーパーでは、バドミントン放送マッチで各プレイヤーのラケットスイングのフレームを抽出するための新しいビデオセグメンテーション戦略を紹介します。
これらのセグメント化されたフレームは、2つの既存のモデルによって処理されます。1つは、プレーヤーの骨格ジョイントを取得するための人間のポーズ推定用、もう1つはShuttlecock軌道検出がShutttlecock軌道を抽出します。
これらのジョイント、軌跡、プレーヤーの位置を入力として活用して、シングルのプレーヤーストロークタイプを分類するためにバドミントンストロークタイプトランス(BST)を提案します。
私たちの知る限り、実験結果は、私たちの方法が、最大の公的に利用可能なバドミントンビデオデータセットであるシャトルセットの以前の最先端を上回ることを示しています。

要約(オリジナル)

Badminton, known for having the fastest ball speeds among all sports, presents significant challenges to the field of computer vision, including player identification, court line detection, shuttlecock trajectory tracking, and player stroke-type classification. In this paper, we introduce a novel video segmentation strategy to extract frames of each player’s racket swing in a badminton broadcast match. These segmented frames are then processed by two existing models: one for Human Pose Estimation to obtain player skeletal joints, and the other for shuttlecock trajectory detection to extract shuttlecock trajectories. Leveraging these joints, trajectories, and player positions as inputs, we propose Badminton Stroke-type Transformer (BST) to classify player stroke-types in singles. To the best of our knowledge, experimental results demonstrate that our method outperforms the previous state-of-the-art on the largest publicly available badminton video dataset, ShuttleSet, which shows that effectively leveraging ball trajectory is likely to be a trend for racket sports action recognition.

arxiv情報

著者 Jing-Yuan Chang
発行日 2025-02-28 14:18:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | BST: Badminton Stroke-type Transformer for Skeleton-based Action Recognition in Racket Sports はコメントを受け付けていません

Representation Learning of Point Cloud Upsampling in Global and Local Inputs

要約

近年、Point Cloud Upsamplingは、3D再構成などのフィールドに広く適用されています。
私たちの研究では、表現学習を通じてグローバルレベルとローカルレベルの両方でポイントクラウドアップサンプリングに影響を与える要因を調査しています。
具体的には、ペーパーは、同じポイントクラウドモデルオブジェクトのグローバル情報とローカル情報を2つのエンコーダーに入力して、これらの機能を抽出し、融合させ、組み合わせた機能をアップサンプリングデコーダーにフィードします。
目標は、グローバルとローカルの両方の入力からの事前知識を活用することにより、ポイントクラウドのスパースとノイズの問題に対処することです。
提案されたフレームワークは、最先端のポイントクラウドアップサンプリングニューラルネットワークに適用できます。
実験は、深い学習を利用し、グローバルとローカルの両方の入力の解釈可能性をもたらす一連の自動エンコーダーベースのモデルで実施され、提案されたフレームワークが以前のSOTA作業のアップサンプリング効果をさらに改善できることが結果で証明されています。
同時に、顕著性マップは、グローバルな機能入力とローカル機能の入力の違いと、両方の入力を並行してトレーニングの有効性を反映しています。

要約(オリジナル)

In recent years, point cloud upsampling has been widely applied in fields such as 3D reconstruction. Our study investigates the factors influencing point cloud upsampling on both global and local levels through representation learning. Specifically, the paper inputs global and local information of the same point cloud model object into two encoders to extract these features, fuses them, and then feeds the combined features into an upsampling decoder. The goal is to address issues of sparsity and noise in point clouds by leveraging prior knowledge from both global and local inputs. And the proposed framework can be applied to any state-of-the-art point cloud upsampling neural network. Experiments were conducted on a series of autoencoder-based models utilizing deep learning, yielding interpretability for both global and local inputs, and it has been proven in the results that our proposed framework can further improve the upsampling effect in previous SOTA works. At the same time, the Saliency Map reflects the differences between global and local feature inputs, as well as the effectiveness of training with both inputs in parallel.

arxiv情報

著者 Tongxu Zhang,Bei Wang
発行日 2025-02-28 14:19:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Representation Learning of Point Cloud Upsampling in Global and Local Inputs はコメントを受け付けていません

SegLocNet: Multimodal Localization Network for Autonomous Driving via Bird’s-Eye-View Segmentation

要約

堅牢で正確なローカリゼーションは、自律運転に重要です。
従来のGNSSベースのローカリゼーション方法は、都市環境における信号閉塞とマルチパス効果に悩まされています。
一方、高解像度(HD)マップに依存する方法は、HDマップの建設とメンテナンスに関連する高コストによって制約されます。
一方、Standard-Definition(SD)マップベースの方法は、多くの場合、過剰適合による不十分なパフォーマンスや一般化能力が低いことがよくあります。
これらの課題に対処するために、鳥瞰図(BEV)セマンティックセグメンテーションを使用して正確なローカリゼーションを実現するマルチモーダルGNSSフリーローカリゼーションネットワークであるSeglocnetを提案します。
Seglocnetは、BEVセグメンテーションネットワークを採用して、複数のセンサー入力からセマンティックマップを生成し、その後、車両のエゴポーズを推定するための徹底的なマッチングプロセスが続きます。
このアプローチは、回帰ベースのポーズ推定の制限を回避し、高い解釈可能性と一般化を維持します。
統一されたマップ表現を導入することにより、ネットワークアーキテクチャを変更することなく、HDマップとSDマップの両方にこの方法を適用でき、それによりローカリゼーションの精度とエリアカバレッジのバランスを取ります。
ヌスセンと編集データセットに関する広範な実験は、私たちの方法が現在の最先端の方法を上回ること、そして強力な一般化能力を維持しながら、GNSSに依存することなく都市環境でのエゴポーズを正確に推定できることを示しています。
私たちのコードと事前に訓練されたモデルは公開されます。

要約(オリジナル)

Robust and accurate localization is critical for autonomous driving. Traditional GNSS-based localization methods suffer from signal occlusion and multipath effects in urban environments. Meanwhile, methods relying on high-definition (HD) maps are constrained by the high costs associated with the construction and maintenance of HD maps. Standard-definition (SD) maps-based methods, on the other hand, often exhibit unsatisfactory performance or poor generalization ability due to overfitting. To address these challenges, we propose SegLocNet, a multimodal GNSS-free localization network that achieves precise localization using bird’s-eye-view (BEV) semantic segmentation. SegLocNet employs a BEV segmentation network to generate semantic maps from multiple sensor inputs, followed by an exhaustive matching process to estimate the vehicle’s ego pose. This approach avoids the limitations of regression-based pose estimation and maintains high interpretability and generalization. By introducing a unified map representation, our method can be applied to both HD and SD maps without any modifications to the network architecture, thereby balancing localization accuracy and area coverage. Extensive experiments on the nuScenes and Argoverse datasets demonstrate that our method outperforms the current state-of-the-art methods, and that our method can accurately estimate the ego pose in urban environments without relying on GNSS, while maintaining strong generalization ability. Our code and pre-trained model will be released publicly.

arxiv情報

著者 Zijie Zhou,Zhangshuo Qi,Luqi Cheng,Guangming Xiong
発行日 2025-02-28 14:25:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SegLocNet: Multimodal Localization Network for Autonomous Driving via Bird’s-Eye-View Segmentation はコメントを受け付けていません

FlexDrive: Toward Trajectory Flexibility in Driving Scene Reconstruction and Rendering

要約

運転シーンの再構築とレンダリングは、3Dガウスのスプラッティングを使用して大幅に進歩しています。
ただし、ほとんどの以前の研究は、事前に録音された車両パスに沿ったレンダリング品質に焦点を当てており、これらのパス外の見解に高品質の監督がないことが原因であるパス外の視点に一般化するのに苦労しています。
この問題に対処するために、逆ビューワーピングテクニックを導入して、パス外ビューの再構築のための監督としてコンパクトで高品質の画像を作成し、それらのビューの高品質のレンダリング結果を可能にします。
正確で堅牢な逆ビューワーピングのために、最適化プロセス中に飛行中の密な深度マップを取得するために深さブートストラップ戦略が提案され、ライダー深度データのスパース性と不完全性を克服します。
私たちの方法は、広く使用されているWaymo Open Datasetで優れたパス内およびパス外の再構築とレンダリングパフォーマンスを実現します。
さらに、シミュレーターベースのベンチマークが提案され、パス外のグラウンドトゥルースを取得し、パス外レンダリングのパフォーマンスを定量的に評価します。

要約(オリジナル)

Driving scene reconstruction and rendering have advanced significantly using the 3D Gaussian Splatting. However, most prior research has focused on the rendering quality along a pre-recorded vehicle path and struggles to generalize to out-of-path viewpoints, which is caused by the lack of high-quality supervision in those out-of-path views. To address this issue, we introduce an Inverse View Warping technique to create compact and high-quality images as supervision for the reconstruction of the out-of-path views, enabling high-quality rendering results for those views. For accurate and robust inverse view warping, a depth bootstrap strategy is proposed to obtain on-the-fly dense depth maps during the optimization process, overcoming the sparsity and incompleteness of LiDAR depth data. Our method achieves superior in-path and out-of-path reconstruction and rendering performance on the widely used Waymo Open dataset. In addition, a simulator-based benchmark is proposed to obtain the out-of-path ground truth and quantitatively evaluate the performance of out-of-path rendering, where our method outperforms previous methods by a significant margin.

arxiv情報

著者 Jingqiu Zhou,Lue Fan,Linjiang Huang,Xiaoyu Shi,Si Liu,Zhaoxiang Zhang,Hongsheng Li
発行日 2025-02-28 14:32:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FlexDrive: Toward Trajectory Flexibility in Driving Scene Reconstruction and Rendering はコメントを受け付けていません