Ultra-Resolution Adaptation with Ease

要約

テキストからイメージへの拡散モデルは、近年顕著な進歩を遂げています。
ただし、特にトレーニングデータと計算リソースが限られている場合、高解像度の画像生成のトレーニングモデルは依然として困難です。
この論文では、この実用的な問題を2つの重要な観点から調査し、データとパラメーターの効率性を調査し、\ emph {urae}と呼ばれる超解像度適応の重要なガイドラインのセットを提案します。
データ効率のために、一部の教師モデルによって生成された合成データがトレーニングの収束を大幅に促進できることを理論的および経験的に実証します。
パラメーター効率のために、合成データが利用できない場合、重量行列のマイナーコンポーネントが広く使用されている低ランクアダプターを上回り、効率を維持しながら大幅なパフォーマンスの向上を提供することがわかります。
さらに、フラックスなどのガイダンスの蒸留を活用するモデルの場合、分類器のないガイダンスを無効にする\ textit {i.e。}、適応中にガイダンススケールを1に設定することが、満足のいくパフォーマンスに重要であることを示します。
広範な実験では、URAEがFlux1.1 [Pro] Ultraのような最先端のクローズドソースモデルに匹敵する2K世代のパフォーマンスを達成することを検証し、4K解像度の生成のために新しいベンチマークを設定しながら、3Kサンプルと2K反復のみを備えています。
コードは\ href {https://github.com/huage001/ueae} {ここにあります}。

要約(オリジナル)

Text-to-image diffusion models have achieved remarkable progress in recent years. However, training models for high-resolution image generation remains challenging, particularly when training data and computational resources are limited. In this paper, we explore this practical problem from two key perspectives: data and parameter efficiency, and propose a set of key guidelines for ultra-resolution adaptation termed \emph{URAE}. For data efficiency, we theoretically and empirically demonstrate that synthetic data generated by some teacher models can significantly promote training convergence. For parameter efficiency, we find that tuning minor components of the weight matrices outperforms widely-used low-rank adapters when synthetic data are unavailable, offering substantial performance gains while maintaining efficiency. Additionally, for models leveraging guidance distillation, such as FLUX, we show that disabling classifier-free guidance, \textit{i.e.}, setting the guidance scale to 1 during adaptation, is crucial for satisfactory performance. Extensive experiments validate that URAE achieves comparable 2K-generation performance to state-of-the-art closed-source models like FLUX1.1 [Pro] Ultra with only 3K samples and 2K iterations, while setting new benchmarks for 4K-resolution generation. Codes are available \href{https://github.com/Huage001/URAE}{here}.

arxiv情報

著者 Ruonan Yu,Songhua Liu,Zhenxiong Tan,Xinchao Wang
発行日 2025-03-20 16:44:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Ultra-Resolution Adaptation with Ease はコメントを受け付けていません

Gaussian Graph Network: Learning Efficient and Generalizable Gaussian Representations from Multi-view Images

要約

3Dガウススプラッティング(3DGS)は、印象的な新規ビューの合成パフォーマンスを実証しています。
従来の方法では、シーンごとの最適化が必要ですが、最近では、異なるシーンに一般化できる学習可能なネットワークでピクセルアラインドガウス表現を生成するために、いくつかのフィードフォワード方法が提案されています。
ただし、これらの方法は、シーンの表現として複数のビューからピクセルに合わせたガウス人を単に組み合わせるだけで、さまざまな画像からガウスの関係を完全に捉えることなく、アーティファクトと余分なメモリコストにつながります。
この論文では、Gaussianグラフネットワーク(GGN)を提案して、効率的で一般化可能なガウス表現を生成します。
具体的には、ガウスグラフを構築して、さまざまな見解からガウスグループの関係をモデル化します。
ガウスレベルでのメッセージの通過をサポートするために、ガウス表現に対する基本的なグラフ操作を再定式化し、各ガウスが接続されたガウス群からガウス特徴の融合を伴う利益を得ることができます。
さらに、効率的な表現のためにさまざまなガウスグループを集約するために、ガウスプーリング層を設計します。
大規模なRealestate10Kおよび酸データセットで実験を実施して、方法の効率と一般化を実証します。
最先端の方法と比較して、モデルはガウス系を使用していないため、より高いレンダリング速度でより良い画質を達成します。

要約(オリジナル)

3D Gaussian Splatting (3DGS) has demonstrated impressive novel view synthesis performance. While conventional methods require per-scene optimization, more recently several feed-forward methods have been proposed to generate pixel-aligned Gaussian representations with a learnable network, which are generalizable to different scenes. However, these methods simply combine pixel-aligned Gaussians from multiple views as scene representations, thereby leading to artifacts and extra memory cost without fully capturing the relations of Gaussians from different images. In this paper, we propose Gaussian Graph Network (GGN) to generate efficient and generalizable Gaussian representations. Specifically, we construct Gaussian Graphs to model the relations of Gaussian groups from different views. To support message passing at Gaussian level, we reformulate the basic graph operations over Gaussian representations, enabling each Gaussian to benefit from its connected Gaussian groups with Gaussian feature fusion. Furthermore, we design a Gaussian pooling layer to aggregate various Gaussian groups for efficient representations. We conduct experiments on the large-scale RealEstate10K and ACID datasets to demonstrate the efficiency and generalization of our method. Compared to the state-of-the-art methods, our model uses fewer Gaussians and achieves better image quality with higher rendering speed.

arxiv情報

著者 Shengjun Zhang,Xin Fei,Fangfu Liu,Haixu Song,Yueqi Duan
発行日 2025-03-20 16:56:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Gaussian Graph Network: Learning Efficient and Generalizable Gaussian Representations from Multi-view Images はコメントを受け付けていません

CaKE: Circuit-aware Editing Enables Generalizable Knowledge Learners

要約

知識編集(KE)により、大規模な言語モデル(LLM)で時代遅れまたは誤った情報を変更できます。
既存のKEメソッドは孤立した事実を更新できますが、これらの更新を修正された知識に依存するマルチホップ推論タスクに一般化するのに苦労しています。
LLMSが知識ベースの推論に使用する神経経路である推論回路の分析を通じて、単一またはいくつかのモデル層のみを編集するMemitやWiseなどの現在の層に局在するKEアプローチが、これらの推論経路に更新された情報を効果的に組み込むのに苦労することを観察します。
この制限に対処するために、LLMで更新された知識をより効果的に統合できる新しい方法であるCake(回路認識の知識編集)を提案します。
ケーキは、回路ベースの分析に導かれた戦略的にキュレーションされたデータを活用し、モデルを強制して修正された知識を利用し、モデルを刺激して新たに統合された知識のための適切な推論サーキットを開発します。
実験結果は、Cakeが関連する推論タスク全体で更新された知識をより正確で一貫した使用できるようになり、既存のKEメソッドと比較してMquake Datasetのマルチホップ推論の精度が平均20%改善されることを示しています。
https://github.com/zjunlp/cakeでコードとデータをリリースします。

要約(オリジナル)

Knowledge Editing (KE) enables the modification of outdated or incorrect information in large language models (LLMs). While existing KE methods can update isolated facts, they struggle to generalize these updates to multi-hop reasoning tasks that depend on the modified knowledge. Through an analysis of reasoning circuits — the neural pathways LLMs use for knowledge-based inference, we observe that current layer-localized KE approaches, such as MEMIT and WISE, which edit only single or a few model layers, struggle to effectively incorporate updated information into these reasoning pathways. To address this limitation, we propose CaKE (Circuit-aware Knowledge Editing), a novel method that enables more effective integration of updated knowledge in LLMs. CaKE leverages strategically curated data, guided by our circuits-based analysis, that enforces the model to utilize the modified knowledge, stimulating the model to develop appropriate reasoning circuits for newly integrated knowledge. Experimental results show that CaKE enables more accurate and consistent use of updated knowledge across related reasoning tasks, leading to an average of 20% improvement in multi-hop reasoning accuracy on MQuAKE dataset compared to existing KE methods. We release the code and data in https://github.com/zjunlp/CaKE.

arxiv情報

著者 Yunzhi Yao,Jizhan Fang,Jia-Chen Gu,Ningyu Zhang,Shumin Deng,Huajun Chen,Nanyun Peng
発行日 2025-03-20 17:14:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR, cs.LG | CaKE: Circuit-aware Editing Enables Generalizable Knowledge Learners はコメントを受け付けていません

UniSync: A Unified Framework for Audio-Visual Synchronization

要約

スピーチビデオの正確な視聴覚同期は、コンテンツの品質と視聴者の理解に不可欠です。
既存の方法は、ルールベースのアプローチとエンドツーエンドの学習技術を通じて、この課題に対処する上で大きな進歩を遂げました。
ただし、これらの方法はしばしば、限られた視聴覚表現と最適ではない学習戦略に依存しており、より複雑なシナリオでの有効性を制約する可能性があります。
これらの制限に対処するために、埋め込みの類似性を使用して視聴覚同期を評価するための新しいアプローチであるUnisyncを提示します。
Unisyncは、さまざまなオーディオ表現(メルスペクトログラム、ヒューバート)と視覚表現(RGB画像、フェイス解析マップ、フェイシャルランドマーク、3DMM)との幅広い互換性を提供し、有意な次元の違いを効果的に処理します。
マージンベースの損失コンポーネントとクロススピーカーの非物語のペアを使用して、対照的な学習フレームワークを強化し、差別的能力を​​改善します。
Unisyncは、標準のデータセット上の既存のメソッドを上回り、多様なオーディオビジュアル表現全体で汎用性を示しています。
トーキングフェイスジェネレーションフレームワークへの統合により、自然とAIが生成されたコンテンツの両方で同期品質が向上します。

要約(オリジナル)

Precise audio-visual synchronization in speech videos is crucial for content quality and viewer comprehension. Existing methods have made significant strides in addressing this challenge through rule-based approaches and end-to-end learning techniques. However, these methods often rely on limited audio-visual representations and suboptimal learning strategies, potentially constraining their effectiveness in more complex scenarios. To address these limitations, we present UniSync, a novel approach for evaluating audio-visual synchronization using embedding similarities. UniSync offers broad compatibility with various audio representations (e.g., Mel spectrograms, HuBERT) and visual representations (e.g., RGB images, face parsing maps, facial landmarks, 3DMM), effectively handling their significant dimensional differences. We enhance the contrastive learning framework with a margin-based loss component and cross-speaker unsynchronized pairs, improving discriminative capabilities. UniSync outperforms existing methods on standard datasets and demonstrates versatility across diverse audio-visual representations. Its integration into talking face generation frameworks enhances synchronization quality in both natural and AI-generated content.

arxiv情報

著者 Tao Feng,Yifan Xie,Xun Guan,Jiyuan Song,Zhou Liu,Fei Ma,Fei Yu
発行日 2025-03-20 17:16:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS | UniSync: A Unified Framework for Audio-Visual Synchronization はコメントを受け付けていません

Karyotype AI for Precision Oncology

要約

細胞分裂の中期段階の顕微鏡画像から直接血液がんを引き起こす染色体異常を正確に検出できる機械学習方法を提示します。
パイプラインは、一連の微調整された視覚変圧器の上に構築されています。
現在の最先端(および標準的な臨床診療)には、高価な手動の専門家分析が必要ですが、パイプラインは中期画像ごとに15秒しかかかりません。
データ不足の課題を緩和するために新しい前oraining-finetuning戦略を使用して、臨床的に重要なDEL(5Q)およびT(9; 22)の異常について、94%AUCの高精度リコールスコアを達成します。
また、私たちの方法は、モデル潜在埋め込みに基づいて、まれな異常のゼロショット検出のロックを解除します。
中期画像から直接遺伝的異常を迅速に、正確に、そして拡張する能力は、核型の実践を変換し、患者の転帰を改善する可能性があります。
コードを公開します。

要約(オリジナル)

We present a machine learning method capable of accurately detecting chromosome abnormalities that cause blood cancers directly from microscope images of the metaphase stage of cell division. The pipeline is built on a series of fine-tuned Vision Transformers. Current state of the art (and standard clinical practice) requires expensive, manual expert analysis, whereas our pipeline takes only 15 seconds per metaphase image. Using a novel pretraining-finetuning strategy to mitigate the challenge of data scarcity, we achieve a high precision-recall score of 94% AUC for the clinically significant del(5q) and t(9;22) anomalies. Our method also unlocks zero-shot detection of rare aberrations based on model latent embeddings. The ability to quickly, accurately, and scalably diagnose genetic abnormalities directly from metaphase images could transform karyotyping practice and improve patient outcomes. We will make code publicly available.

arxiv情報

著者 Zahra Shamsi,Drew Bryant,Jacob Wilson,Xiaoyu Qu,Avinava Dubey,Konik Kothari,Mostafa Dehghani,Mariya Chavarha,Valerii Likhosherstov,Brian Williams,Michael Frumkin,Fred Appelbaum,Krzysztof Choromanski,Ali Bashir,Min Fang
発行日 2025-03-20 17:19:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV, q-bio.QM | Karyotype AI for Precision Oncology はコメントを受け付けていません

ReLearn: Unlearning via Learning for Large Language Models

要約

大規模な言語モデルの現在の学習方法は、通常、ターゲットトークンの確率を減らすために逆の最適化に依存しています。
ただし、このパラダイムは、その後のトークン予測、モデルのパフォーマンスの分解、言語の一貫性を破壊します。
さらに、既存の評価メトリックは、応答の流encyさと関連性を不適切に評価しながら、コンテキストの忘却を過度に強調します。
これらの課題に対処するために、包括的な評価フレームワークとともに、効果的な学習のためのデータ増強と微調整パイプラインである再学習を提案します。
このフレームワークでは、知識レベルの保存を測定するための知識忘却率(KFR)と知識保持率(KRR)、および生成品質を評価するための言語スコア(LS)を測定します。
私たちの実験では、Learnが高品質の出力を維持しながらターゲットを絞った忘却を成功裏に達成することが示されています。
メカニズム分析を通じて、逆最適化がコヒーレントテキスト生成をどのように混乱させるかをさらに実証し、再学習がこの重要な能力を保持します。
コードはhttps://github.com/zjunlp/unlearnで入手できます。

要約(オリジナル)

Current unlearning methods for large language models usually rely on reverse optimization to reduce target token probabilities. However, this paradigm disrupts the subsequent tokens prediction, degrading model performance and linguistic coherence. Moreover, existing evaluation metrics overemphasize contextual forgetting while inadequately assessing response fluency and relevance. To address these challenges, we propose ReLearn, a data augmentation and fine-tuning pipeline for effective unlearning, along with a comprehensive evaluation framework. This framework introduces Knowledge Forgetting Rate (KFR) and Knowledge Retention Rate (KRR) to measure knowledge-level preservation, and Linguistic Score (LS) to evaluate generation quality. Our experiments show that ReLearn successfully achieves targeted forgetting while preserving high-quality output. Through mechanistic analysis, we further demonstrate how reverse optimization disrupts coherent text generation, while ReLearn preserves this essential capability. Code is available at https://github.com/zjunlp/unlearn.

arxiv情報

著者 Haoming Xu,Ningyuan Zhao,Liming Yang,Sendong Zhao,Shumin Deng,Mengru Wang,Bryan Hooi,Nay Oo,Huajun Chen,Ningyu Zhang
発行日 2025-03-20 17:20:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC, cs.LG | ReLearn: Unlearning via Learning for Large Language Models はコメントを受け付けていません

JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse

要約

最近、オープンワールド環境でのアクションベースの意思決定は大きな注目を集めています。
大規模なWebデータセットで事前に処理されたVisual Language Action(VLA)モデルは、意思決定タスクに有望を示しています。
ただし、以前の研究は主にトレーニング後のアクションに焦点を当てており、多くの場合、基礎モデル自体の強化を無視しています。
これに応じて、視覚的な言語モデル(VLM)を視覚的および言語的ガイダンスを通じて洗練された視覚言語からの訓練後の演技から行動する新しいアプローチを紹介します。
この拡張により、オープンワールド環境での世界知識、視覚認識、空間的接地におけるモデルの能力が向上します。
上記のトレーニング後のパラダイムに続いて、クラフト、製錬、調理、採掘、殺害など、1K以上の異なる原子タスクに関する人間の指示に従うことができるMinecraftの最初のVLAモデルを取得します。
私たちの実験は、非指示タスクでのトレーニング後のトレーニングが、原子タスクの多様なセットのベストエージェントベースラインよりも40%の大幅な改善をもたらすことを示しています。
さらに、私たちのアプローチは、Minecraftの従来の模倣学習ベースのポリシーを上回り、最先端のパフォーマンスを達成することを実証しています。
さらなる研究を促進するために、コード、モデル、およびデータセットをオープンソーリングしました。
プロジェクトページは、https://craftjarvis.github.io/jarvisvlaにあります。

要約(オリジナル)

Recently, action-based decision-making in open-world environments has gained significant attention. Visual Language Action (VLA) models, pretrained on large-scale web datasets, have shown promise in decision-making tasks. However, previous work has primarily focused on action post-training, often neglecting enhancements to the foundational model itself. In response, we introduce a novel approach, Act from Visual Language Post-Training, which refines Visual Language Models (VLMs) through visual and linguistic guidance in a self-supervised manner. This enhancement improves the models’ capabilities in world knowledge, visual recognition, and spatial grounding in open-world environments. Following the above post-training paradigms, we obtain the first VLA models in Minecraft that can follow human instructions on over 1k different atomic tasks, including crafting, smelting, cooking, mining, and killing. Our experiments demonstrate that post-training on non-trajectory tasks leads to a significant 40% improvement over the best agent baseline on a diverse set of atomic tasks. Furthermore, we demonstrate that our approach surpasses traditional imitation learning-based policies in Minecraft, achieving state-of-the-art performance. We have open-sourced the code, models, and datasets to foster further research. The project page can be found in https://craftjarvis.github.io/JarvisVLA.

arxiv情報

著者 Muyao Li,Zihao Wang,Kaichen He,Xiaojian Ma,Yitao Liang
発行日 2025-03-20 17:21:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse はコメントを受け付けていません

NuiScene: Exploring Efficient Generation of Unbounded Outdoor Scenes

要約

この論文では、城から高層ビルまでの広大な屋外シーンを生成するタスクを探ります。
以前の作業の主な焦点である屋内シーンの生成とは異なり、アウトドアシーンの世代は、シーンハイツの幅広いバリエーションや、急速に大きな風景を生み出すことができる方法の必要性など、ユニークな課題を提示します。
これに対処するために、シーンのチャンクを均一なベクトルセットとしてコードする効率的なアプローチを提案し、以前の方法で使用される空間的に構造化された潜在性よりも優れた圧縮と性能を提供します。
さらに、未結合の世代のための明示的な塗装モデルを訓練します。これは、以前の再サンプリングベースのインペインティングスキームと比較してコヒーレンスを改善し、追加の拡散ステップを排除することで生成を高速化します。
このタスクを容易にするために、共同トレーニングのために前処理された、小規模だが高品質のシーンセットであるNuiscene43をキュレートします。
特に、さまざまなスタイルのシーンで訓練された場合、私たちのモデルは、同じシーン内で、田舎の家や都市の高層ビルなどのさまざまな環境をブレンドし、共同トレーニングのために不均一なシーンを活用するキュレーションプロセスの可能性を強調することができます。

要約(オリジナル)

In this paper, we explore the task of generating expansive outdoor scenes, ranging from castles to high-rises. Unlike indoor scene generation, which has been a primary focus of prior work, outdoor scene generation presents unique challenges, including wide variations in scene heights and the need for a method capable of rapidly producing large landscapes. To address this, we propose an efficient approach that encodes scene chunks as uniform vector sets, offering better compression and performance than the spatially structured latents used in prior methods. Furthermore, we train an explicit outpainting model for unbounded generation, which improves coherence compared to prior resampling-based inpainting schemes while also speeding up generation by eliminating extra diffusion steps. To facilitate this task, we curate NuiScene43, a small but high-quality set of scenes, preprocessed for joint training. Notably, when trained on scenes of varying styles, our model can blend different environments, such as rural houses and city skyscrapers, within the same scene, highlighting the potential of our curation process to leverage heterogeneous scenes for joint training.

arxiv情報

著者 Han-Hung Lee,Qinghong Han,Angel X. Chang
発行日 2025-03-20 17:37:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | NuiScene: Exploring Efficient Generation of Unbounded Outdoor Scenes はコメントを受け付けていません

LaPIG: Cross-Modal Generation of Paired Thermal and Visible Facial Images

要約

特に顔の翻訳ネットワークでの最新の機械学習の成功は、高品質でペアの大規模なデータセットの可用性に大きく依存しています。
ただし、十分なデータを取得することは、多くの場合、挑戦的で費用がかかります。
大規模な言語モデル(LLMS)における高品質の画像合成と進歩における拡散モデルの最近の成功に触発され、LLMアシストペアイメージ生成(LAPIG)と呼ばれる新しいフレームワークを提案します。
このフレームワークにより、LLMSによって生成されたキャプションを使用して、包括的で高品質のペアの可視画像とサーマル画像の構築を可能にします。
私たちの方法には、3つの部分が含まれます。ArcfaceEmbeddingを使用した可視画像合成、潜在的拡散モデル(LDMS)を使用した熱画像変換、およびLLMを使用したキャプション生成です。
私たちのアプローチは、データの多様性を高めるためにマルチビューペアの可視画像とサーマル画像を生成するだけでなく、アイデンティティ情報を維持しながら高品質のペアのデータを生成します。
既存のメソッドと比較することにより、パブリックデータセットでの方法を評価し、Lapigの優位性を実証します。

要約(オリジナル)

The success of modern machine learning, particularly in facial translation networks, is highly dependent on the availability of high-quality, paired, large-scale datasets. However, acquiring sufficient data is often challenging and costly. Inspired by the recent success of diffusion models in high-quality image synthesis and advancements in Large Language Models (LLMs), we propose a novel framework called LLM-assisted Paired Image Generation (LaPIG). This framework enables the construction of comprehensive, high-quality paired visible and thermal images using captions generated by LLMs. Our method encompasses three parts: visible image synthesis with ArcFace embedding, thermal image translation using Latent Diffusion Models (LDMs), and caption generation with LLMs. Our approach not only generates multi-view paired visible and thermal images to increase data diversity but also produces high-quality paired data while maintaining their identity information. We evaluate our method on public datasets by comparing it with existing methods, demonstrating the superiority of LaPIG.

arxiv情報

著者 Leyang Wang,Joice Lin
発行日 2025-03-20 17:39:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LaPIG: Cross-Modal Generation of Paired Thermal and Visible Facial Images はコメントを受け付けていません

Panoptic-CUDAL Technical Report: Rural Australia Point Cloud Dataset in Rainy Conditions

要約

既存の自律運転データセットは、主に構造化された都市の環境と好ましい気象条件に向けられており、農村部の環境と有害な気象条件の複雑さをほとんど提出されていません。
一部のデータセットには天候と照明の変動が含まれますが、悪天候のシナリオは頻繁には表示されません。
降雨は、センサーの機能を大幅に損なう可能性があり、Lidarとカメラのデータにノイズと反射を導入し、信頼できる環境認識と安全なナビゲーションのためのシステムの機能を減らすことができます。
雨の対象となる農村地域でのパノプティックセグメンテーションのために構築された新しいデータセットであるパノプティック系のデータセットを紹介します。
高解像度のライダー、カメラ、ポーズデータを記録することにより、Panoptic-Cudalは、挑戦的なシナリオで多様で情報が豊富なデータセットを提供します。
記録されたデータの分析を提示し、Lidar Point Cloudsのパノプティックおよびセマンティックセグメンテーション方法のベースライン結果を提供します。
データセットは、https://robotics.sydney.edu.au/our-research/intelligent-transportation-systems/にあります。

要約(オリジナル)

Existing autonomous driving datasets are predominantly oriented towards well-structured urban settings and favorable weather conditions, leaving the complexities of rural environments and adverse weather conditions largely unaddressed. Although some datasets encompass variations in weather and lighting, bad weather scenarios do not appear often. Rainfall can significantly impair sensor functionality, introducing noise and reflections in LiDAR and camera data and reducing the system’s capabilities for reliable environmental perception and safe navigation. We introduce the Panoptic-CUDAL dataset, a novel dataset purpose-built for panoptic segmentation in rural areas subject to rain. By recording high-resolution LiDAR, camera, and pose data, Panoptic-CUDAL offers a diverse, information-rich dataset in a challenging scenario. We present analysis of the recorded data and provide baseline results for panoptic and semantic segmentation methods on LiDAR point clouds. The dataset can be found here: https://robotics.sydney.edu.au/our-research/intelligent-transportation-systems/

arxiv情報

著者 Tzu-Yun Tseng,Alexey Nekrasov,Malcolm Burdorf,Bastian Leibe,Julie Stephany Berrio,Mao Shan,Stewart Worrall
発行日 2025-03-20 17:41:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Panoptic-CUDAL Technical Report: Rural Australia Point Cloud Dataset in Rainy Conditions はコメントを受け付けていません