Wanda++: Pruning Large Language Models via Regional Gradients

要約

大規模な言語モデル(LLMS)剪定は、パフォーマンスへの影響を最小限に抑えて、推論のスピードアップのために重要でない重みを削除しようとしています。
ただし、既存の方法は、フルモデルのスパースを意識する微調整なしにパフォーマンスの損失に苦しむことがよくあります。
このペーパーでは、デコーダーブロックレベル\ TextBF {Regional}勾配を利用して最先端の方法を上回る新しい剪定フレームワークであるWanda ++を紹介します。
具体的には、Wanda ++は、地域の勾配で初めて剪定スコアを改善し、高密度とスパースデコーダー出力の間の剪定誘導出力の不一致を最小限に抑えるための効率的な地域最適化方法を提案します。
特に、Wanda ++は、言語モデリングタスクでWandaよりも最大32 \%の困惑を改善し、ダウンストリームタスクに効果的に一般化します。
さらなる実験では、提案された方法は、ワンダ++をロラの微調整と組み合わせて、ワンダ法と同様の困惑の改善を達成することができるスパースを意識する微調整に直交することを示しています。
提案された方法は軽量であり、単一のNVIDIA H100 GPUで10分以内に7Bラマモデルを剪定します。

要約(オリジナル)

Large Language Models (LLMs) pruning seeks to remove unimportant weights for inference speedup with minimal performance impact. However, existing methods often suffer from performance loss without full-model sparsity-aware fine-tuning. This paper presents Wanda++, a novel pruning framework that outperforms the state-of-the-art methods by utilizing decoder-block-level \textbf{regional} gradients. Specifically, Wanda++ improves the pruning score with regional gradients for the first time and proposes an efficient regional optimization method to minimize pruning-induced output discrepancies between the dense and sparse decoder output. Notably, Wanda++ improves perplexity by up to 32\% over Wanda in the language modeling task and generalizes effectively to downstream tasks. Further experiments indicate our proposed method is orthogonal to sparsity-aware fine-tuning, where Wanda++ can be combined with LoRA fine-tuning to achieve a similar perplexity improvement as the Wanda method. The proposed method is lightweight, pruning a 7B LLaMA model in under 10 minutes on a single NVIDIA H100 GPU.

arxiv情報

著者 Yifan Yang,Kai Zhen,Bhavana Ganesh,Aram Galstyan,Goeric Huybrechts,Markus Müller,Jonas M. Kübler,Rupak Vignesh Swaminathan,Athanasios Mouchtaris,Sravan Babu Bodapati,Nathan Susanj,Zheng Zhang,Jack FitzGerald,Abhishek Kumar
発行日 2025-04-29 17:42:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Wanda++: Pruning Large Language Models via Regional Gradients はコメントを受け付けていません

Test-time regression: a unifying framework for designing sequence models with associative memory

要約

シーケンスモデルは、現代の深い学習の中心にあります。
しかし、急速な進歩により、変圧器や再発の代替品など、一見無関係な建築の多様性が生まれました。
この論文では、統一されたフレームワークを紹介して、これらのシーケンスモデルを理解し、導き出し、関連するリコールの経験的重要性、コンテキストに関連するトークンを取得する能力に触発されます。
連想リコールは、2段階のプロセス、暗記、取得、回帰問題として暗記をキャストするものとして形式化します。
これらの2つのステップを組み合わせたレイヤーは、入力トークンを介して「テスト時間回帰」を介して連想リコールを実行します。
線形注意、状態空間モデル、高速プログラマー、オンライン学習者、ソフトマックスの注意を含む顕著な層は、回帰重み、リグレッサー関数クラス、テスト時間最適化アルゴリズムの3つの設計選択で定義された特別なケースとして生じます。
私たちのアプローチは、線形の注意がどのようにトークン間相関をキャプチャできないかを明確にし、ソフトマックスの注意におけるクエリキー正規化の経験的効果のための数学的正当性を提供します。
さらに、設計スペース内の未開拓の地域を照らし、ソフトマックスの注意の新しい高次一般化を導き出すために使用します。
統一を超えて、私たちの作業橋は、古典的な回帰法を備えたシーケンスモデリング、広範な文献を持つフィールドであり、より強力で理論的に原則的なアーキテクチャを開発する方法を開いています。

要約(オリジナル)

Sequence models lie at the heart of modern deep learning. However, rapid advancements have produced a diversity of seemingly unrelated architectures, such as Transformers and recurrent alternatives. In this paper, we introduce a unifying framework to understand and derive these sequence models, inspired by the empirical importance of associative recall, the capability to retrieve contextually relevant tokens. We formalize associative recall as a two-step process, memorization and retrieval, casting memorization as a regression problem. Layers that combine these two steps perform associative recall via “test-time regression” over its input tokens. Prominent layers, including linear attention, state-space models, fast-weight programmers, online learners, and softmax attention, arise as special cases defined by three design choices: the regression weights, the regressor function class, and the test-time optimization algorithm. Our approach clarifies how linear attention fails to capture inter-token correlations and offers a mathematical justification for the empirical effectiveness of query-key normalization in softmax attention. Further, it illuminates unexplored regions within the design space, which we use to derive novel higher-order generalizations of softmax attention. Beyond unification, our work bridges sequence modeling with classic regression methods, a field with extensive literature, paving the way for developing more powerful and theoretically principled architectures.

arxiv情報

著者 Ke Alexander Wang,Jiaxin Shi,Emily B. Fox
発行日 2025-04-29 17:47:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE, stat.ML | Test-time regression: a unifying framework for designing sequence models with associative memory はコメントを受け付けていません

Jekyll-and-Hyde Tipping Point in an AI’s Behavior

要約

AIへの信頼は、LLMの出力(たとえばChatGPT)が間違っていること、誤解を招く、誤解を招く、無関係、または危険になると予測する科学がない、または一般に説明できる科学がないという事実によって損なわれています。
すでにLLMに非難されている死とトラウマがあるため、この不確実性は、人々が彼らの「ペット」LLMをより丁寧に扱うように押し進め、それ(またはその将来の人工的な一般情報の子孫)を突然オンにすることからです。
ここでは、LLMSの最も基本的なレベルでジキルとハイドの転換点が発生する場合の正確な式を第一原理から導き出すことにより、この鋭いニーズに対処します。
中等学校の数学のみを必要とするため、AIの注意が非常に薄いため、突然スナップする原因が示されています。
この正確な式は、プロンプトとAIのトレーニングを変更することにより、チップポイントを遅延または防止する方法の定量的予測を提供します。
調整された一般化により、政策立案者と一般の人々は、AIのより広い用途とリスクについて議論するためのしっかりしたプラットフォームを提供します。
個人カウンセラー、メディカルアドバイザー、紛争状況でいつ武力を使用するかについての意思決定者。
また、「私はLLMに礼儀正しくすべきか」などの質問に対する明確で透明な答えの必要性を満たしています。

要約(オリジナル)

Trust in AI is undermined by the fact that there is no science that predicts — or that can explain to the public — when an LLM’s output (e.g. ChatGPT) is likely to tip mid-response to become wrong, misleading, irrelevant or dangerous. With deaths and trauma already being blamed on LLMs, this uncertainty is even pushing people to treat their ‘pet’ LLM more politely to ‘dissuade’ it (or its future Artificial General Intelligence offspring) from suddenly turning on them. Here we address this acute need by deriving from first principles an exact formula for when a Jekyll-and-Hyde tipping point occurs at LLMs’ most basic level. Requiring only secondary school mathematics, it shows the cause to be the AI’s attention spreading so thin it suddenly snaps. This exact formula provides quantitative predictions for how the tipping-point can be delayed or prevented by changing the prompt and the AI’s training. Tailored generalizations will provide policymakers and the public with a firm platform for discussing any of AI’s broader uses and risks, e.g. as a personal counselor, medical advisor, decision-maker for when to use force in a conflict situation. It also meets the need for clear and transparent answers to questions like ”should I be polite to my LLM?”

arxiv情報

著者 Neil F. Johnson,Frank Yingjie Huo
発行日 2025-04-29 17:50:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, nlin.AO, physics.comp-ph, physics.soc-ph | Jekyll-and-Hyde Tipping Point in an AI’s Behavior はコメントを受け付けていません

LTLf Adaptive Synthesis for Multi-Tier Goals in Nondeterministic Domains

要約

私たちは、非決定的計画ドメインでますます挑戦的なLTLF目標で構成される、多層目標を達成するための適応戦略を合成するLTLF合成のバリアントを研究しています。
適応戦略は、(i)マルチ層目標でできるだけ多くの目標の満足度を施行する戦略であり、(ii)残りの環境からの可能な協力を活用することです。
これは動的に発生します。環境が協力して(II)、目標が強制力が可能になった場合(i)、私たちの戦略はそれを実施します。
健全で完全な適応戦略を計算するためのゲーム理論技術を提供します。
特に、私たちの手法は、実際、目的の数において多項式、実際には二次的です。
言い換えれば、標準のLTLF合成と比較して、マルチ層目標をわずかなオーバーヘッドのみで処理します。

要約(オリジナル)

We study a variant of LTLf synthesis that synthesizes adaptive strategies for achieving a multi-tier goal, consisting of multiple increasingly challenging LTLf objectives in nondeterministic planning domains. Adaptive strategies are strategies that at any point of their execution (i) enforce the satisfaction of as many objectives as possible in the multi-tier goal, and (ii) exploit possible cooperation from the environment to satisfy as many as possible of the remaining ones. This happens dynamically: if the environment cooperates (ii) and an objective becomes enforceable (i), then our strategies will enforce it. We provide a game-theoretic technique to compute adaptive strategies that is sound and complete. Notably, our technique is polynomial, in fact quadratic, in the number of objectives. In other words, it handles multi-tier goals with only a minor overhead compared to standard LTLf synthesis.

arxiv情報

著者 Giuseppe De Giacomo,Gianmarco Parretti,Shufang Zhu
発行日 2025-04-29 17:53:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | LTLf Adaptive Synthesis for Multi-Tier Goals in Nondeterministic Domains はコメントを受け付けていません

Hubs and Spokes Learning: Efficient and Scalable Collaborative Machine Learning

要約

Federated Learning(FL)と分散学習(P2PL)の強みを組み合わせた共同機械学習の新しいパラダイムであるHubs and Spokes Learning(HSL)フレームワークを紹介します。
HSLは、FLに固有の単一の障害点を回避し、最先端のP2PLフレームワーク、流行学習ローカル(ELL)を上回る2層通信構造を採用しています。
平等な通信予算(総エッジ)では、HSLはELLよりも高いパフォーマンスを達成しますが、通信予算が大幅に低いため、ELLのパフォーマンスに匹敵する可能性があります。
たとえば、たった400のエッジのみで、HSLは、CIFAR-10で100のピア(スポーク)でELLが達成するのと同じテスト精度に達し、リソース制約システムへの適合性を示しています。
HSLはまた、混合後にノード間でより強力なコンセンサスを達成し、その結果、トレーニングラウンドが少なくなるとパフォーマンスが向上します。
これらの主張は、厳密な理論分析と広範な実験結果を通じて、大規模な共同学習のためのHSLの実用性を示しています。

要約(オリジナル)

We introduce the Hubs and Spokes Learning (HSL) framework, a novel paradigm for collaborative machine learning that combines the strengths of Federated Learning (FL) and Decentralized Learning (P2PL). HSL employs a two-tier communication structure that avoids the single point of failure inherent in FL and outperforms the state-of-the-art P2PL framework, Epidemic Learning Local (ELL). At equal communication budgets (total edges), HSL achieves higher performance than ELL, while at significantly lower communication budgets, it can match ELL’s performance. For instance, with only 400 edges, HSL reaches the same test accuracy that ELL achieves with 1000 edges for 100 peers (spokes) on CIFAR-10, demonstrating its suitability for resource-constrained systems. HSL also achieves stronger consensus among nodes after mixing, resulting in improved performance with fewer training rounds. We substantiate these claims through rigorous theoretical analyses and extensive experimental results, showcasing HSL’s practicality for large-scale collaborative learning.

arxiv情報

著者 Atul Sharma,Kavindu Herath,Saurabh Bagchi,Chaoyue Liu,Somali Chaterji
発行日 2025-04-29 17:56:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG | Hubs and Spokes Learning: Efficient and Scalable Collaborative Machine Learning はコメントを受け付けていません

Toward Efficient Exploration by Large Language Model Agents

要約

強化学習(RL)内の急成長エリアは、大規模な言語モデル(LLMS)を中心としたシーケンシャル意思決定エージェントの設計です。
最新のLLMSを搭載した自律的な意思決定エージェントは、多数の現実世界のアプリケーションを促進する可能性がありますが、そのような成功は、データ効率の高いRLが可能なエージェントを要求します。
RLでデータ効率を達成するための重要な障害の1つは探査です。これは、LLMエージェントデザインに関する最近の多くの提案が闘うのに苦労することを示す課題です。
一方、探査に優雅に対処することが知られているRL文献の古典的なアルゴリズムには、純粋に自然な言語の設定で運用するのが難しい技術的な機械が必要です。
この作業では、LLMSを暗黙的にRLアルゴリズムを模倣するようにLLMSを共有するように微調整またはコンテキスト内の学習に依存するのではなく、LLMを使用して既存のRLアルゴリズム(補強学習のための事後サンプリング)を明示的に実装する方法を説明します。
LLMベースの既知のデータ効率の良いRLアルゴリズムの実装が、慎重な探索を要求する自然言語タスクでかなり効果的である方法を示す経験的結果を提供します。

要約(オリジナル)

A burgeoning area within reinforcement learning (RL) is the design of sequential decision-making agents centered around large language models (LLMs). While autonomous decision-making agents powered by modern LLMs could facilitate numerous real-world applications, such successes demand agents that are capable of data-efficient RL. One key obstacle to achieving data efficiency in RL is exploration, a challenge that we demonstrate many recent proposals for LLM agent designs struggle to contend with. Meanwhile, classic algorithms from the RL literature known to gracefully address exploration require technical machinery that can be challenging to operationalize in purely natural language settings. In this work, rather than relying on finetuning or in-context learning to coax LLMs into implicitly imitating a RL algorithm, we illustrate how LLMs can be used to explicitly implement an existing RL algorithm (Posterior Sampling for Reinforcement Learning) whose capacity for statistically-efficient exploration is already well-studied. We offer empirical results demonstrating how our LLM-based implementation of a known, data-efficient RL algorithm can be considerably more effective in natural language tasks that demand prudent exploration.

arxiv情報

著者 Dilip Arumugam,Thomas L. Griffiths
発行日 2025-04-29 17:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Toward Efficient Exploration by Large Language Model Agents はコメントを受け付けていません

The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation

要約

テキストからビデオへの最近の進歩(T2V)の生成は、自己回帰言語モデルと拡散モデルの2つの競合するパラダイムによって推進されています。
ただし、各パラダイムには本質的な制限があります。言語モデルは視覚的な品質とエラーの蓄積に苦労していますが、拡散モデルには意味的理解と因果モデリングがありません。
この作業では、粗からファインの生成を通じて両方のパラダイムの強さを相乗するハイブリッドフレームワークであるLandiffを提案します。
私たちのアーキテクチャは、3つの重要な革新を導入しています。(1)効率的なセマンティック圧縮により、3D視覚機能をコンパクトな1D離散表現に圧縮し、$ \ SIM $ 14,000 $ \ times $ $圧縮比を達成するセマンティックトークネイザー。
(2)高レベルのセマンティック関係を持つセマンティックトークンを生成する言語モデル。
(3)粗いセマンティクスを高忠実度のビデオに改良するストリーミング拡散モデル。
実験では、5BモデルであるLandiffがVBench T2Vベンチマークで85.43のスコアを達成し、最先端のオープンソースモデルHunyuanビデオ(13b)やSora、Kling、Hailuoなどの他の商用モデルを上回ることが示されています。
さらに、私たちのモデルは、この分野の他のオープンソースモデルを上回る、長いビデオ生成で最先端のパフォーマンスも達成しています。
デモはhttps://landiff.github.io/で見ることができます。

要約(オリジナル)

Recent advancements in text-to-video (T2V) generation have been driven by two competing paradigms: autoregressive language models and diffusion models. However, each paradigm has intrinsic limitations: language models struggle with visual quality and error accumulation, while diffusion models lack semantic understanding and causal modeling. In this work, we propose LanDiff, a hybrid framework that synergizes the strengths of both paradigms through coarse-to-fine generation. Our architecture introduces three key innovations: (1) a semantic tokenizer that compresses 3D visual features into compact 1D discrete representations through efficient semantic compression, achieving a $\sim$14,000$\times$ compression ratio; (2) a language model that generates semantic tokens with high-level semantic relationships; (3) a streaming diffusion model that refines coarse semantics into high-fidelity videos. Experiments show that LanDiff, a 5B model, achieves a score of 85.43 on the VBench T2V benchmark, surpassing the state-of-the-art open-source models Hunyuan Video (13B) and other commercial models such as Sora, Kling, and Hailuo. Furthermore, our model also achieves state-of-the-art performance in long video generation, surpassing other open-source models in this field. Our demo can be viewed at https://landiff.github.io/.

arxiv情報

著者 Aoxiong Yin,Kai Shen,Yichong Leng,Xu Tan,Xinyu Zhou,Juncheng Li,Siliang Tang
発行日 2025-04-29 10:34:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation はコメントを受け付けていません

Predicate Debiasing in Vision-Language Models Integration for Scene Graph Generation Enhancement

要約

シーングラフ生成(SGG)は、視覚的なシーンの基本的な言語表現を提供し、モデルがオブジェクト間で複雑で多様なセマンティクスを把握する必要があります。
SGGのこの複雑さと多様性は、トリプレットラベルの一部がトレーニング中にまれであるか目に見えない過小評価につながり、不正確な予測をもたらします。
これに取り組むために、表現を強化するために、優先されたビジョン言語モデルを統合することを提案します。
ただし、事前トレーニングとSGGの間のギャップにより、SGGに対する前処理されたVLMの直接推論は、重度のバイアスにつながります。これは、前脱型言語セットの不均衡な述語分布に起因します。
バイアスを緩和するために、達成不可能な述語分布を近似するための新しいLM推定を導入します。
最後に、SGGモデルを備えたDebiased VLMSをアンサンブルして表現を強化し、各サンプルをスコアリングし、アンサンブルウェイトを動的に調整するために確実に認識されるインジケーターを設計します。
当社のトレーニングフリーの方法は、前処理されたVLMの述語バイアスに効果的に対処し、SGGの表現を強化し、パフォーマンスを大幅に改善します。

要約(オリジナル)

Scene Graph Generation (SGG) provides basic language representation of visual scenes, requiring models to grasp complex and diverse semantics between objects. This complexity and diversity in SGG leads to underrepresentation, where parts of triplet labels are rare or even unseen during training, resulting in imprecise predictions. To tackle this, we propose integrating the pretrained Vision-language Models to enhance representation. However, due to the gap between pretraining and SGG, direct inference of pretrained VLMs on SGG leads to severe bias, which stems from the imbalanced predicates distribution in the pretraining language set. To alleviate the bias, we introduce a novel LM Estimation to approximate the unattainable predicates distribution. Finally, we ensemble the debiased VLMs with SGG models to enhance the representation, where we design a certainty-aware indicator to score each sample and dynamically adjust the ensemble weights. Our training-free method effectively addresses the predicates bias in pretrained VLMs, enhances SGG’s representation, and significantly improve the performance.

arxiv情報

著者 Yuxuan Wang,Xiaoyuan Liu
発行日 2025-04-29 10:39:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Predicate Debiasing in Vision-Language Models Integration for Scene Graph Generation Enhancement はコメントを受け付けていません

AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation

要約

この論文では、複数の入力モダリティ(テキスト、ビデオ、および参照オーディオからの高品質の音声を合成することを目的とするマルチモーダルからスピーチの生成のタスクに対処します。
このタスクは、映画の制作、吹き替え、仮想アバターなど、幅広いアプリケーションのために注目を集めています。
最近の進歩にもかかわらず、既存の方法は、音声の明瞭度、オーディオビデオの同期、音声の自然さ、および参照スピーカーとの音声の類似性の制限に依然として悩まされています。
これらの課題に対処するために、Alignditを提案します。Alignditは、整列したマルチモーダル入力から正確で同期し、自然な音声を生成するマルチモーダルアライメント拡散トランスを提案します。
DITアーキテクチャのコンテスト内学習能力に基づいて構築されたAlignditは、マルチモーダル表現を調整するための3つの効果的な戦略を調査します。
さらに、モデルが音声合成中に各モダリティから情報のバランスをモデルに適応させることができる新しいマルチモーダル分類器のないガイダンスメカニズムを導入します。
広範な実験は、Alignditが品質、同期、およびスピーカーの類似性の点で、複数のベンチマークにわたって既存の方法を大幅に上回ることを示しています。
さらに、Alignditは、ビデオからスピーチの合成や視覚的な強制アライメントなど、さまざまなマルチモーダルタスクにわたって強力な一般化能力を示し、一貫して最先端のパフォーマンスを達成しています。
デモページは、https://mm.kaist.ac.kr/projects/alignditで入手できます。

要約(オリジナル)

In this paper, we address the task of multimodal-to-speech generation, which aims to synthesize high-quality speech from multiple input modalities: text, video, and reference audio. This task has gained increasing attention due to its wide range of applications, such as film production, dubbing, and virtual avatars. Despite recent progress, existing methods still suffer from limitations in speech intelligibility, audio-video synchronization, speech naturalness, and voice similarity to the reference speaker. To address these challenges, we propose AlignDiT, a multimodal Aligned Diffusion Transformer that generates accurate, synchronized, and natural-sounding speech from aligned multimodal inputs. Built upon the in-context learning capability of the DiT architecture, AlignDiT explores three effective strategies to align multimodal representations. Furthermore, we introduce a novel multimodal classifier-free guidance mechanism that allows the model to adaptively balance information from each modality during speech synthesis. Extensive experiments demonstrate that AlignDiT significantly outperforms existing methods across multiple benchmarks in terms of quality, synchronization, and speaker similarity. Moreover, AlignDiT exhibits strong generalization capability across various multimodal tasks, such as video-to-speech synthesis and visual forced alignment, consistently achieving state-of-the-art performance. The demo page is available at https://mm.kaist.ac.kr/projects/AlignDiT .

arxiv情報

著者 Jeongsoo Choi,Ji-Hoon Kim,Kim Sung-Bin,Tae-Hyun Oh,Joon Son Chung
発行日 2025-04-29 10:56:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM | AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation はコメントを受け付けていません

LDPoly: Latent Diffusion for Polygonal Road Outline Extraction in Large-Scale Topographic Mapping

要約

高解像度の航空画像からの多角形の道路の抽出は、大規模な地形マッピングの重要なタスクであり、道路はベクトル化ポリゴンとして表され、頂点冗長性を最小限に抑えて重要な幾何学的特徴をキャプチャします。
その重要性にもかかわらず、このタスクのために明示的に設計された既存の方法はありません。
多角形の建物の概要抽出が広範囲に研究されていますが、分岐構造やトポロジカル接続性などの道路のユニークな特性は、これらの方法に課題をもたらします。
このギャップに対処するために、高解像度の航空画像から多角形の道路の輪郭を抽出するための最初の専用フレームワークであるLDPolyを紹介します。
私たちの方法は、チャネル埋め込まれた融合モジュールを使用して、新しいデュアルレイテント拡散モデルを活用して、モデルがロードマスクと頂点ヒートマップを同時に生成できるようにします。
次に、カスタマイズされたポリゴン化法を適用して、最小限の頂点冗長性で正確なベクトル化された道路ポリゴンを取得します。
いくつかのオランダの地域でさまざまな地形オブジェクトの詳細な多角形成注釈を含む、新しいベンチマークデータセットMap2imlasのLdPolyを評価します。
私たちの実験には、地域内と地域の両方の評価が含まれ、後者は目に見えない地域でのモデルの一般化パフォーマンスを評価するように設計されています。
定量的および定性的な結果は、LdPolyが、ピクセルレベルのカバレッジ、頂点効率、ポリゴン規則性、道路接続など、さまざまなメトリックにわたって最先端のポリゴン抽出方法を上回ることを示しています。
また、ポリゴンのシンプルさと境界の滑らかさを評価するために、2つの新しいメトリックを設計します。
さらに、この作業は、リモートセンシング画像から冗長な頂点なしで正確なベクトル化されたオブジェクトのアウトラインを抽出するための拡散モデルの最初のアプリケーションを表し、この分野での将来の進歩への道を開きます。

要約(オリジナル)

Polygonal road outline extraction from high-resolution aerial images is an important task in large-scale topographic mapping, where roads are represented as vectorized polygons, capturing essential geometric features with minimal vertex redundancy. Despite its importance, no existing method has been explicitly designed for this task. While polygonal building outline extraction has been extensively studied, the unique characteristics of roads, such as branching structures and topological connectivity, pose challenges to these methods. To address this gap, we introduce LDPoly, the first dedicated framework for extracting polygonal road outlines from high-resolution aerial images. Our method leverages a novel Dual-Latent Diffusion Model with a Channel-Embedded Fusion Module, enabling the model to simultaneously generate road masks and vertex heatmaps. A tailored polygonization method is then applied to obtain accurate vectorized road polygons with minimal vertex redundancy. We evaluate LDPoly on a new benchmark dataset, Map2ImLas, which contains detailed polygonal annotations for various topographic objects in several Dutch regions. Our experiments include both in-region and cross-region evaluations, with the latter designed to assess the model’s generalization performance on unseen regions. Quantitative and qualitative results demonstrate that LDPoly outperforms state-of-the-art polygon extraction methods across various metrics, including pixel-level coverage, vertex efficiency, polygon regularity, and road connectivity. We also design two new metrics to assess polygon simplicity and boundary smoothness. Moreover, this work represents the first application of diffusion models for extracting precise vectorized object outlines without redundant vertices from remote-sensing imagery, paving the way for future advancements in this field.

arxiv情報

著者 Weiqin Jiao,Hao Cheng,George Vosselman,Claudio Persello
発行日 2025-04-29 11:13:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LDPoly: Latent Diffusion for Polygonal Road Outline Extraction in Large-Scale Topographic Mapping はコメントを受け付けていません