Structural-Entropy-Based Sample Selection for Efficient and Effective Learning

要約

サンプル選択は、有益で代表的なサンプルを提供することで、機械学習モデルの効率と有効性を向上させる。通常、サンプルはサンプルグラフとしてモデル化され、ノードはサンプル、エッジはそれらの類似性を表す。既存の手法の多くは、サンプルの学習難易度などの局所的な情報に基づいているため、接続パターンなどの大域的な情報を見落としている。グローバル情報は、選択されたサンプルがグラフの構造的特性をよく表していることを保証するために極めて重要であるため、この見落としは最適な選択を行わない結果となり得る。この問題に対処するため、我々は構造エントロピーを用いて大域的情報を定量化し、シャプレー値を用いてグラフ全体から個々のノードへと可逆的に分解する。この分解に基づいて、グローバル情報とローカル情報の両方を統合して、情報量が多く代表的なサンプルを選択する方法である$textbf{S}$tructural-$textbf{E}$ntropy-based sample $textbf{S}$election ($textbf{SES}$)を提案する。SESは、まず類似性に基づいてサンプル間の$k$NN-グラフを構築する。次に、構造エントロピー(グローバルメトリック)とトレーニングの難易度(ローカルメトリック)を組み合わせてサンプルの重要度を測定する。最後に、SESは重要度に偏ったブルーノイズサンプリングを適用し、多様で代表的なサンプルセットを選択する。教師あり学習、能動的学習、継続的学習の3つの学習シナリオに関する包括的な実験により、本手法の有効性が明確に示された。

要約(オリジナル)

Sample selection improves the efficiency and effectiveness of machine learning models by providing informative and representative samples. Typically, samples can be modeled as a sample graph, where nodes are samples and edges represent their similarities. Most existing methods are based on local information, such as the training difficulty of samples, thereby overlooking global information, such as connectivity patterns. This oversight can result in suboptimal selection because global information is crucial for ensuring that the selected samples well represent the structural properties of the graph. To address this issue, we employ structural entropy to quantify global information and losslessly decompose it from the whole graph to individual nodes using the Shapley value. Based on the decomposition, we present $\textbf{S}$tructural-$\textbf{E}$ntropy-based sample $\textbf{S}$election ($\textbf{SES}$), a method that integrates both global and local information to select informative and representative samples. SES begins by constructing a $k$NN-graph among samples based on their similarities. It then measures sample importance by combining structural entropy (global metric) with training difficulty (local metric). Finally, SES applies importance-biased blue noise sampling to select a set of diverse and representative samples. Comprehensive experiments on three learning scenarios — supervised learning, active learning, and continual learning — clearly demonstrate the effectiveness of our method.

arxiv情報

著者 Tianchi Xie,Jiangning Zhu,Guozu Ma,Minzhi Lin,Wei Chen,Weikai Yang,Shixia Liu
発行日 2025-03-03 05:32:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Structural-Entropy-Based Sample Selection for Efficient and Effective Learning はコメントを受け付けていません

Low-Biased General Annotated Dataset Generation

要約

カテゴリ注釈付きの多数の手動収集画像からなる一般的な注釈付きデータセット(ImageNetなど)で基幹ネットワークを事前学習することは、下流の視覚タスクの汎化能力を向上させるために不可欠であることが証明されている。しかし、手動で収集された画像は、カテゴリやドメイン間で転送不可能なバイアスを示すことが多く、モデルの汎化能力の低下を引き起こす。この問題を軽減するために、我々はバイアスの少ない一般的な注釈付きデータセット生成フレームワーク(lbGen)を提示する。高価な手作業による収集の代わりに、カテゴリ注釈付きの低バイアスの画像を直接生成することを目指す。この目標を達成するために、言語によって定義されたバイアスの低い意味空間において画像を整列させるという点で、マルチモーダル基礎モデル(例えばCLIP)の利点を活用することを提案する。具体的には、敵対的学習的な方法で、全ての生成画像がターゲットデータセットに属する全てのカテゴリの意味的分布と一致することを強制するだけでなく、各生成画像がそのカテゴリ名の意味的記述と一致することも要求する、2レベルの意味的整列損失を開発する。さらに、既存の画像品質スコアリングモデルを、生成画像の品質を保持するための品質保証損失に変換する。これら2つの損失関数を活用することで、対象データセットに含まれる全てのカテゴリ名のみを入力として、事前に訓練された拡散モデルを微調整するだけで、偏りの少ない画像生成モデルを得ることができる。実験の結果、手動ラベル付きデータセットや他の合成データセットと比較して、我々の生成した低バイアスデータセットを利用することで、特に手動ラベル付きサンプルが少ないタスクにおいて、様々なタスクに渡って異なるバックボーンネットワークの安定した汎化能力向上につながることが確認された。

要約(オリジナル)

Pre-training backbone networks on a general annotated dataset (e.g., ImageNet) that comprises numerous manually collected images with category annotations has proven to be indispensable for enhancing the generalization capacity of downstream visual tasks. However, those manually collected images often exhibit bias, which is non-transferable across either categories or domains, thus causing the model’s generalization capacity degeneration. To mitigate this problem, we present an low-biased general annotated dataset generation framework (lbGen). Instead of expensive manual collection, we aim at directly generating low-biased images with category annotations. To achieve this goal, we propose to leverage the advantage of a multimodal foundation model (e.g., CLIP), in terms of aligning images in an low-biased semantic space defined by language. Specifically, we develop a bi-level semantic alignment loss, which not only forces all generated images to be consistent with the semantic distribution of all categories belonging to the target dataset in an adversarial learning manner, but also requires each generated image to match the semantic description of its category name. In addition, we further cast an existing image quality scoring model into a quality assurance loss to preserve the quality of the generated image. By leveraging these two loss functions, we can obtain an low-biased image generation model by simply fine-tuning a pre-trained diffusion model using only all category names in the target dataset as input. Experimental results confirm that, compared with the manually labeled dataset or other synthetic datasets, the utilization of our generated low-biased datasets leads to stable generalization capacity enhancement of different backbone networks across various tasks, especially in tasks where the manually labeled samples are scarce.

arxiv情報

著者 Dengyang Jiang,Haoyu Wang,Lei Zhang,Wei Wei,Guang Dai,Mengmeng Wang,Jingdong Wang,Yanning Zhang
発行日 2025-03-03 06:13:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Low-Biased General Annotated Dataset Generation はコメントを受け付けていません

Representation Engineering: A Top-Down Approach to AI Transparency

要約

本稿では、認知神経科学の知見を活用し、AIシステムの透明性を向上させるアプローチである表現工学(Representation Engineering:RepE)という新たな分野を特定し、その特徴を明らかにする。RepEは、ニューロンや回路ではなく、集団レベルの表現を分析の中心に置き、ディープニューラルネットワーク(DNN)における高レベルの認知現象をモニタリングし、操作するための新しい手法を提供する。我々は、RepE技術のベースラインと初期分析を提供し、大規模言語モデルの理解と制御を改善するためのシンプルかつ効果的なソリューションを提供することを示す。これらの手法が、誠実さ、無害さ、権力追求など、安全性に関連する幅広い問題に対してどのような牽引力を発揮できるかを紹介し、トップダウンの透明性研究が有望であることを示す。この研究がRepEのさらなる探求のきっかけとなり、AIシステムの透明性と安全性の進歩が促進されることを期待している。

要約(オリジナル)

In this paper, we identify and characterize the emerging area of representation engineering (RepE), an approach to enhancing the transparency of AI systems that draws on insights from cognitive neuroscience. RepE places population-level representations, rather than neurons or circuits, at the center of analysis, equipping us with novel methods for monitoring and manipulating high-level cognitive phenomena in deep neural networks (DNNs). We provide baselines and an initial analysis of RepE techniques, showing that they offer simple yet effective solutions for improving our understanding and control of large language models. We showcase how these methods can provide traction on a wide range of safety-relevant problems, including honesty, harmlessness, power-seeking, and more, demonstrating the promise of top-down transparency research. We hope that this work catalyzes further exploration of RepE and fosters advancements in the transparency and safety of AI systems.

arxiv情報

著者 Andy Zou,Long Phan,Sarah Chen,James Campbell,Phillip Guo,Richard Ren,Alexander Pan,Xuwang Yin,Mantas Mazeika,Ann-Kathrin Dombrowski,Shashwat Goel,Nathaniel Li,Michael J. Byun,Zifan Wang,Alex Mallen,Steven Basart,Sanmi Koyejo,Dawn Song,Matt Fredrikson,J. Zico Kolter,Dan Hendrycks
発行日 2025-03-03 06:14:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.CY, cs.LG | Representation Engineering: A Top-Down Approach to AI Transparency はコメントを受け付けていません

Cross-Spectral Vision Transformer for Biometric Authentication using Forehead Subcutaneous Vein Pattern and Periocular Pattern

要約

例えば、顔認証に基づくバイオメトリクスは、顔面マスクの着用により失敗し、指紋は衛生上の懸念を引き起こすなど、従来のバイオメトリクス・システムは、様々な避けられない要因のために大きな後退に遭遇してきた。本論文では、額の皮下静脈パターンと眼球周囲パターンを用いた生体認証のための新規な軽量クロススペクトルビジョントランスフォーマー(CS-ViT)を提案し、従来の方法に代わる有望な方法を提供する。提案されたフレームワークは、2つの異なるバイオメトリック特性を扱い、相対的なスペクトルパターンの相互依存性を捉えるように設計されたクロススペクトルデュアルチャネルアーキテクチャで構成される。各チャンネルは位相相関クロススペクトルアテンション(POC-CSA)で構成され、個々のパターンと相関パターンを捕捉する。POCを用いたクロススペクトルアテンションの計算は、空間特徴における位相相関を抽出する。そのため、両生体計測特徴が同一人物のものであると仮定した場合、入力画像の解像度/強度のばらつきや照明に対してロバストである。軽量なモデルはエッジデバイスの展開に適している。提案アルゴリズムの性能を、Forehead Subcutaneous Vein Pattern and Periocular Biometric Pattern (FSVP-PBP)データベースを用いて厳密に評価した。その結果、静脈パターンと眼周囲パターンの組み合わせで98.8%という顕著な分類精度を達成し、アルゴリズムの優位性が最先端の手法よりも高いことが実証された。

要約(オリジナル)

Traditional biometric systems have encountered significant setbacks due to various unavoidable factors, for example, face recognition-based biometrics fails due to the wearing of face masks and fingerprints create hygiene concerns. This paper proposes a novel lightweight cross-spectral vision transformer (CS-ViT) for biometric authentication using forehead subcutaneous vein patterns and periocular patterns, offering a promising alternative to traditional methods, capable of performing well even with the face masks and without any physical touch. The proposed framework comprises a cross-spectral dual-channel architecture designed to handle two distinct biometric traits and to capture inter-dependencies in terms of relative spectral patterns. Each channel consists of a Phase-Only Correlation Cross-Spectral Attention (POC-CSA) that captures their individual as well as correlated patterns. The computation of cross-spectral attention using POC extracts the phase correlation in the spatial features. Therefore, it is robust against the resolution/intensity variations and illumination of the input images, assuming both biometric traits are from the same person. The lightweight model is suitable for edge device deployment. The performance of the proposed algorithm was rigorously evaluated using the Forehead Subcutaneous Vein Pattern and Periocular Biometric Pattern (FSVP-PBP) database. The results demonstrated the superiority of the algorithm over state-of-the-art methods, achieving a remarkable classification accuracy of 98.8% with the combined vein and periocular patterns.

arxiv情報

著者 Arun K. Sharma,Shubhobrata Bhattacharya,Motahar Reza,Bishakh Bhattacharya
発行日 2025-03-03 06:34:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG | Cross-Spectral Vision Transformer for Biometric Authentication using Forehead Subcutaneous Vein Pattern and Periocular Pattern はコメントを受け付けていません

RALAD: Bridging the Real-to-Sim Domain Gap in Autonomous Driving with Retrieval-Augmented Learning

要約

ロバストな自律走行システムの追求において、実世界のデータセットで学習されたモデルは、特に異常気象のようなコーナーケースに直面した場合、新しい環境に適応するのに苦労することが多い。実世界でこのようなコーナーケースを収集することは自明ではないため、検証のためにシミュレータを使用する必要がある。しかし、高い計算コストとデータ分布のドメインギャップが、実走行シナリオとシミュレートされた走行シナリオ間のシームレスな移行を妨げている。この課題に取り組むため、我々は、低コストで実車とシミュレータのギャップを埋めるために設計された新しいフレームワークであるRetrieval-Augmented Learning for Autonomous Driving(RALAD)を提案する。RALADは、(1)個々の画像とグループ化された画像の距離の両方を考慮する、強化されたOptimal Transport(OT)手法による領域適応、(2)様々なモデルに適用可能な、シンプルで統一されたフレームワーク、(3)ロバスト性を維持しつつ、計算コストのかかるレイヤーを凍結する効率的な微調整技術、といった3つの主要な設計を特徴とする。実験結果は、RALADが3つの異なるモデルにおいて、実世界のシナリオで精度を維持しながら、シミュレーション環境での性能劣化を補正することを示している。Cross Viewを例にとると、実環境におけるmIOUとmAPの指標はRALADによる微調整の前後で安定しているのに対し、シミュレーション環境ではmIOUとmAPの指標はそれぞれ10.30%と12.29%向上している。さらに、我々のアプローチの再トレーニングコストは約88.1%削減された。我々のコードはhttps://github.com/JiachengZuo/RALAD.git。

要約(オリジナル)

In the pursuit of robust autonomous driving systems, models trained on real-world datasets often struggle to adapt to new environments, particularly when confronted with corner cases such as extreme weather conditions. Collecting these corner cases in the real world is non-trivial, which necessitates the use of simulators for validation. However,the high computational cost and the domain gap in data distribution have hindered the seamless transition between real and simulated driving scenarios. To tackle this challenge, we propose Retrieval-Augmented Learning for Autonomous Driving (RALAD), a novel framework designed to bridge the real-to-sim gap at a low cost. RALAD features three primary designs, including (1) domain adaptation via an enhanced Optimal Transport (OT) method that accounts for both individual and grouped image distances, (2) a simple and unified framework that can be applied to various models, and (3) efficient fine-tuning techniques that freeze the computationally expensive layers while maintaining robustness. Experimental results demonstrate that RALAD compensates for the performance degradation in simulated environments while maintaining accuracy in real-world scenarios across three different models. Taking Cross View as an example, the mIOU and mAP metrics in real-world scenarios remain stable before and after RALAD fine-tuning, while in simulated environments,the mIOU and mAP metrics are improved by 10.30% and 12.29%, respectively. Moreover, the re-training cost of our approach is reduced by approximately 88.1%. Our code is available at https://github.com/JiachengZuo/RALAD.git.

arxiv情報

著者 Jiacheng Zuo,Haibo Hu,Zikang Zhou,Yufei Cui,Ziquan Liu,Jianping Wang,Nan Guan,Jin Wang,Chun Jason Xue
発行日 2025-03-03 06:45:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | RALAD: Bridging the Real-to-Sim Domain Gap in Autonomous Driving with Retrieval-Augmented Learning はコメントを受け付けていません

Locality-aware Gaussian Compression for Fast and High-quality Rendering

要約

我々は、ボリュームシーンのコンパクトなモデリングのために3Dガウシアンの空間的コヒーレンスを利用する、局所性を考慮した3Dガウシアンスプラッティング(3DGS)フレームワークであるLocoGSを発表する。この目的のために、我々はまず3Dガウシアン属性の局所的コヒーレンスを分析し、最小限のストレージ要件でニューラルフィールド表現を用いて局所的にコヒーレントなガウシアン属性を効果的に符号化する、新しい局所考慮3Dガウシアン表現を提案する。新しい表現に加え、LocoGSは、圧縮性能を最大化するために、高密度初期化、適応的な球面高調波帯域幅スキーム、異なるガウス属性に対する異なる符号化スキームなどの追加コンポーネントを注意深く設計している。実験結果は、我々のアプローチが、3DGSよりも54.6$times$から96.6$times$の圧縮ストレージサイズと2.1$times$から2.4$times$のレンダリング速度を達成しながら、代表的な実世界の3Dデータセットに対して、既存のコンパクトなガウス表現のレンダリング品質を上回ることを示している。我々のアプローチでも、同等の圧縮性能の最先端圧縮手法より平均2.4$times$高いレンダリング速度を示す。

要約(オリジナル)

We present LocoGS, a locality-aware 3D Gaussian Splatting (3DGS) framework that exploits the spatial coherence of 3D Gaussians for compact modeling of volumetric scenes. To this end, we first analyze the local coherence of 3D Gaussian attributes, and propose a novel locality-aware 3D Gaussian representation that effectively encodes locally-coherent Gaussian attributes using a neural field representation with a minimal storage requirement. On top of the novel representation, LocoGS is carefully designed with additional components such as dense initialization, an adaptive spherical harmonics bandwidth scheme and different encoding schemes for different Gaussian attributes to maximize compression performance. Experimental results demonstrate that our approach outperforms the rendering quality of existing compact Gaussian representations for representative real-world 3D datasets while achieving from 54.6$\times$ to 96.6$\times$ compressed storage size and from 2.1$\times$ to 2.4$\times$ rendering speed than 3DGS. Even our approach also demonstrates an averaged 2.4$\times$ higher rendering speed than the state-of-the-art compression method with comparable compression performance.

arxiv情報

著者 Seungjoo Shin,Jaesik Park,Sunghyun Cho
発行日 2025-03-03 07:07:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Locality-aware Gaussian Compression for Fast and High-quality Rendering はコメントを受け付けていません

ADUGS-VINS: Generalized Visual-Inertial Odometry for Robust Navigation in Highly Dynamic and Complex Environments

要約

視覚慣性オドメトリ(VIO)は、ロボット、ドローン、自律走行車など様々な分野で広く利用されている。しかし、実世界のシーンには動的な物体が存在することが多く、VIOの精度が損なわれる。これらのオブジェクトの多様性と部分的なオクルージョンは、既存の動的VIO手法にとって困難な課題となっている。この課題に対処するために、我々はADUGS-VINSを導入する。ADUGS-VINSは、強化されたSORTアルゴリズムとプロンプト可能な基礎モデルをVIOに統合することで、多様な動的物体と頻繁なオクルージョンのある環境における姿勢推定精度を向上させる。様々なシーンを表現する複数の公開データセットと、多様な動的物体を含む実環境シナリオを用いて、提案手法を評価した。実験結果は、提案手法が複数のシナリオにおいて印象的な性能を発揮し、他の最先端手法を凌駕することを示している。このことは、多様な動的環境における顕著な汎用性と適応性を浮き彫りにし、実用的なアプリケーションにおいて様々な動的オブジェクトを扱うことができる可能性を示している。

要約(オリジナル)

Visual-inertial odometry (VIO) is widely used in various fields, such as robots, drones, and autonomous vehicles. However, real-world scenes often feature dynamic objects, compromising the accuracy of VIO. The diversity and partial occlusion of these objects present a tough challenge for existing dynamic VIO methods. To tackle this challenge, we introduce ADUGS-VINS, which integrates an enhanced SORT algorithm along with a promptable foundation model into VIO, thereby improving pose estimation accuracy in environments with diverse dynamic objects and frequent occlusions. We evaluated our proposed method using multiple public datasets representing various scenes, as well as in a real-world scenario involving diverse dynamic objects. The experimental results demonstrate that our proposed method performs impressively in multiple scenarios, outperforming other state-of-the-art methods. This highlights its remarkable generalization and adaptability in diverse dynamic environments, showcasing its potential to handle various dynamic objects in practical applications.

arxiv情報

著者 Rui Zhou,Jingbin Liu,Junbin Xie,Jianyu Zhang,Yingze Hu,Jiele Zhao
発行日 2025-03-03 07:18:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | ADUGS-VINS: Generalized Visual-Inertial Odometry for Robust Navigation in Highly Dynamic and Complex Environments はコメントを受け付けていません

Doracamom: Joint 3D Detection and Occupancy Prediction with Multi-view 4D Radars and Cameras for Omnidirectional Perception

要約

3次元物体検出と占有予測は、自律走行における重要なタスクであり、大きな注目を集めている。近年のビジョンベースの手法は、その可能性にもかかわらず、悪条件下での課題に遭遇している。そのため、カメラと次世代4Dイメージングレーダーを統合し、統一的なマルチタスク知覚を実現することは非常に重要であるが、この領域での研究はまだ限られている。本論文では、マルチビューカメラと4Dレーダーを融合し、3D物体検出と意味的占有予測を同時に行うことで、包括的な環境認識を可能にする初めてのフレームワークであるDoracamomを提案する。具体的には、ボクセルクエリを初期化するために、4Dレーダーからの幾何学的プライアと画像からの意味的特徴を統合する新しい粗いボクセルクエリ生成器を導入し、その後のTransformerベースの改良のための強固な基盤を確立する。時間情報を活用するために、BEV空間とボクセル空間にわたってマルチモーダルな時間特徴を並列処理するデュアルブランチ時間エンコーダを設計し、包括的な時空間表現学習を可能にする。さらに、特徴品質を向上させるための補助的なタスクを採用しながら、注意メカニズムを介して適応的に補完的な特徴を融合するクロスモーダルBEV-ボクセル融合モジュールを提案する。OmniHD-Scenes、View-of-Delft (VoD)、TJ4DRadSetデータセットでの広範な実験により、Doracamomが両方のタスクで最先端の性能を達成し、マルチモーダル3D知覚の新しいベンチマークを確立することを実証する。コードとモデルは一般公開されます。

要約(オリジナル)

3D object detection and occupancy prediction are critical tasks in autonomous driving, attracting significant attention. Despite the potential of recent vision-based methods, they encounter challenges under adverse conditions. Thus, integrating cameras with next-generation 4D imaging radar to achieve unified multi-task perception is highly significant, though research in this domain remains limited. In this paper, we propose Doracamom, the first framework that fuses multi-view cameras and 4D radar for joint 3D object detection and semantic occupancy prediction, enabling comprehensive environmental perception. Specifically, we introduce a novel Coarse Voxel Queries Generator that integrates geometric priors from 4D radar with semantic features from images to initialize voxel queries, establishing a robust foundation for subsequent Transformer-based refinement. To leverage temporal information, we design a Dual-Branch Temporal Encoder that processes multi-modal temporal features in parallel across BEV and voxel spaces, enabling comprehensive spatio-temporal representation learning. Furthermore, we propose a Cross-Modal BEV-Voxel Fusion module that adaptively fuses complementary features through attention mechanisms while employing auxiliary tasks to enhance feature quality. Extensive experiments on the OmniHD-Scenes, View-of-Delft (VoD), and TJ4DRadSet datasets demonstrate that Doracamom achieves state-of-the-art performance in both tasks, establishing new benchmarks for multi-modal 3D perception. Code and models will be publicly available.

arxiv情報

著者 Lianqing Zheng,Jianan Liu,Runwei Guan,Long Yang,Shouyi Lu,Yuanzhe Li,Xiaokai Bai,Jie Bai,Zhixiong Ma,Hui-Liang Shen,Xichan Zhu
発行日 2025-03-03 07:30:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Doracamom: Joint 3D Detection and Occupancy Prediction with Multi-view 4D Radars and Cameras for Omnidirectional Perception はコメントを受け付けていません

CromSS: Cross-modal pre-training with noisy labels for remote sensing image segmentation

要約

我々は、地理空間アプリケーションのためのマルチモーダルフレームワーク内でセマンティックセグメンテーションモデルを事前学習することにより、特徴学習を強化するための大規模なノイズの多いラベル付けデータの可能性を探る。我々は、クロスモーダル一貫性とノイズ軽減技術によって特徴表現を改善するように設計された弱教師付き事前学習戦略である、新しいクロスモーダルサンプル選択(CromSS)法を提案する。従来のプレトレーニングアプローチとは異なり、CromSSは、意味分割タスクに有益な特徴学習を改善するために、大量のノイズの多い、簡単に手に入るラベルを利用する。我々は、マルチモーダル事前学習アーキテクチャ設計を最適化するために、中間および後期の融合戦略を調査する。また、ラベルノイズの悪影響を軽減するために、クロスモーダルサンプル選択モジュールを導入する。このモジュールは、サンプリングプロセスを導くために、各モダリティ内の推定信頼度マスクを洗練するクロスモーダルもつれ戦略を採用する。さらに、ノイズの多いラベルに対するロバスト性を高めるために、過信を打ち消す空間的・時間的ラベルスムージング技術を導入する。本アプローチを検証するために、我々はマルチモーダルデータセットNoLDO-S12を作成した。NoLDO-S12は、事前学習用にGoogleのDynamic World (DW)データセットから大規模なノイジーラベルサブセットを、転移学習用にGoogle DWとOpenStreetMap (OSM)から高品質なラベルを持つ2つの下流サブセットから構成される。2つの下流タスクと一般公開されているDFC2020データセットを用いた実験結果から、低コストなノイズラベルを効果的に利用することで、セグメンテーションタスクの特徴学習を大幅に強化できることが実証された。全てのデータ、コード、事前学習された重みは公開される。

要約(オリジナル)

We explore the potential of large-scale noisily labeled data to enhance feature learning by pretraining semantic segmentation models within a multi-modal framework for geospatial applications. We propose a novel Cross-modal Sample Selection (CromSS) method, a weakly supervised pretraining strategy designed to improve feature representations through cross-modal consistency and noise mitigation techniques. Unlike conventional pretraining approaches, CromSS exploits massive amounts of noisy and easy-to-come-by labels for improved feature learning beneficial to semantic segmentation tasks. We investigate middle and late fusion strategies to optimize the multi-modal pretraining architecture design. We also introduce a cross-modal sample selection module to mitigate the adverse effects of label noise, which employs a cross-modal entangling strategy to refine the estimated confidence masks within each modality to guide the sampling process. Additionally, we introduce a spatial-temporal label smoothing technique to counteract overconfidence for enhanced robustness against noisy labels. To validate our approach, we assembled the multi-modal dataset, NoLDO-S12, which consists of a large-scale noisy label subset from Google’s Dynamic World (DW) dataset for pretraining and two downstream subsets with high-quality labels from Google DW and OpenStreetMap (OSM) for transfer learning. Experimental results on two downstream tasks and the publicly available DFC2020 dataset demonstrate that when effectively utilized, the low-cost noisy labels can significantly enhance feature learning for segmentation tasks. All data, code, and pretrained weights will be made publicly available.

arxiv情報

著者 Chenying Liu,Conrad Albrecht,Yi Wang,Xiao Xiang Zhu
発行日 2025-03-03 07:38:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | CromSS: Cross-modal pre-training with noisy labels for remote sensing image segmentation はコメントを受け付けていません

GDTS: Goal-Guided Diffusion Model with Tree Sampling for Multi-Modal Pedestrian Trajectory Prediction

要約

歩行者の軌跡を正確に予測することは、自律走行の安全性を向上させるために極めて重要である。しかし、このタスクは、人間の運動が持つ固有の確率性により、一般的に非自明であり、予測器は当然マルチモーダルな予測を生成する必要がある。これまでの研究では、歩行者の軌跡予測にGANやVAEのような様々な生成的手法を活用している。しかしながら、これらの手法は、モード崩壊や比較的低品質な結果に悩まされる可能性がある。最近、ノイズ除去拡散確率モデル(DDPM)が、その簡単な学習プロセスと強力な再構成能力により、軌跡予測に適用されている。しかし、現在の拡散に基づく手法は、入力情報を十分に活用できず、通常、推論時間が長くなる何度もノイズ除去を繰り返したり、初期化のためにネットワークを追加したりする必要がある。このような課題を解決し、マルチモーダル軌跡予測における拡散モデルの利用を促進するために、我々はマルチモーダル軌跡予測のための新しいゴール誘導拡散モデル(Goal-Guided Diffusion Model with Tree Sampling)であるGDTSを提案する。GDTSは、人間の運動の「目標駆動型」の特性を考慮し、拡散ネットワークの生成を導くために目標推定を活用する。2段階のツリーサンプリングアルゴリズムを提示し、推論時間を短縮し、マルチモーダル予測の精度を向上させるために、共通の特徴を活用する。実験結果は、我々の提案するフレームワークが、公共データセットにおいて、リアルタイム推論速度で同等の最先端性能を達成することを示す。

要約(オリジナル)

Accurate prediction of pedestrian trajectories is crucial for improving the safety of autonomous driving. However, this task is generally nontrivial due to the inherent stochasticity of human motion, which naturally requires the predictor to generate multi-modal prediction. Previous works leverage various generative methods, such as GAN and VAE, for pedestrian trajectory prediction. Nevertheless, these methods may suffer from mode collapse and relatively low-quality results. The denoising diffusion probabilistic model (DDPM) has recently been applied to trajectory prediction due to its simple training process and powerful reconstruction ability. However, current diffusion-based methods do not fully utilize input information and usually require many denoising iterations that lead to a long inference time or an additional network for initialization. To address these challenges and facilitate the use of diffusion models in multi-modal trajectory prediction, we propose GDTS, a novel Goal-Guided Diffusion Model with Tree Sampling for multi-modal trajectory prediction. Considering the ‘goal-driven’ characteristics of human motion, GDTS leverages goal estimation to guide the generation of the diffusion network. A two-stage tree sampling algorithm is presented, which leverages common features to reduce the inference time and improve accuracy for multi-modal prediction. Experimental results demonstrate that our proposed framework achieves comparable state-of-the-art performance with real-time inference speed in public datasets.

arxiv情報

著者 Ge Sun,Sheng Wang,Lei Zhu,Ming Liu,Jun Ma
発行日 2025-03-03 07:41:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | GDTS: Goal-Guided Diffusion Model with Tree Sampling for Multi-Modal Pedestrian Trajectory Prediction はコメントを受け付けていません