Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards

要約

大規模な言語モデル(LLMS)は、複雑な推論に大きな約束を示しており、検証可能な報酬(RLVR)が重要な強化戦略である強化学習を示しています。
ただし、一般的な問題は「表面的な自己反省」であり、モデルは独自の出力を強く検証できません。
これに取り組むために設計された新しいオンラインRLフレームワークであるRise(自己検証による推論の強化)を紹介します。
LLMを明示的かつ同時にトレーニングして、単一の統合RLプロセス内で問題解決能力と自己検証能力の両方を改善します。
コアメカニズムには、結果の検証者から検証可能な報酬を活用して、ソリューション生成と自己検証の両方のタスクの両方に飛行中のフィードバックを提供することが含まれます。
各反復で、モデルはソリューションを生成し、その後、独自のオンポリシー生成ソリューションを批判し、両方の軌跡がポリシーの更新に貢献します。
多様な数学的推論ベンチマークに関する広範な実験は、上昇が一貫してモデルの問題解決精度を改善しながら、強力な自己検証スキルを促進することを示しています。
私たちの分析は、オンライン検証の利点と、検証計算の増加の利点を強調しています。
さらに、Riseモデルは、推論中に、より頻繁で正確な自己検証行動を示します。
これらの利点は、より堅牢で自己認識の推論を開発するための柔軟で効果的な道としての上昇を強化します。

要約(オリジナル)

Large Language Models (LLMs) show great promise in complex reasoning, with Reinforcement Learning with Verifiable Rewards (RLVR) being a key enhancement strategy. However, a prevalent issue is “superficial self-reflection”, where models fail to robustly verify their own outputs. We introduce RISE (Reinforcing Reasoning with Self-Verification), a novel online RL framework designed to tackle this. RISE explicitly and simultaneously trains an LLM to improve both its problem-solving and self-verification abilities within a single, integrated RL process. The core mechanism involves leveraging verifiable rewards from an outcome verifier to provide on-the-fly feedback for both solution generation and self-verification tasks. In each iteration, the model generates solutions, then critiques its own on-policy generated solutions, with both trajectories contributing to the policy update. Extensive experiments on diverse mathematical reasoning benchmarks show that RISE consistently improves model’s problem-solving accuracy while concurrently fostering strong self-verification skills. Our analyses highlight the advantages of online verification and the benefits of increased verification compute. Additionally, RISE models exhibit more frequent and accurate self-verification behaviors during reasoning. These advantages reinforce RISE as a flexible and effective path towards developing more robust and self-aware reasoners.

arxiv情報

著者 Xiaoyuan Liu,Tian Liang,Zhiwei He,Jiahao Xu,Wenxuan Wang,Pinjia He,Zhaopeng Tu,Haitao Mi,Dong Yu
発行日 2025-05-19 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards はコメントを受け付けていません

CIE: Controlling Language Model Text Generations Using Continuous Signals

要約

ユーザーの意図で言語モデルを調整することは、ユーザーエクスペリエンスを向上させるためにますます重要になっています。
これには、ユーザーがLMSが生成する言語のプロパティを制御できるようにする方法を設計する必要があります。
たとえば、世代の長さ、選択される言語の複雑さ、感情、トーンなどを制御します。ほとんどの既存の作業は、自然言語のプロンプトまたは個別の制御信号にLM世代を条件付けすることにより、ユーザーのコントロールを統合しようとします。
この作業では、\ textIT {連続}制御信号に興味があります。これは、自然言語のプロンプトで簡単にキャプチャできないスペクトルに沿って存在するもの、または条件付き生成の既存の技術を介してキャプチャできません。
LMSによって生成される世代の正確な応答長を制御するケーススタディを通じて、微調整後、言語モデルの動作を連続信号を介して制御する方法を示します。
私たちの方法は、コンテキスト内学習方法や、個別信号としてコントロール信号を表す微調整方法よりも、応答長の制御をより確実に発揮します。
オープンソースの完全なコードとデータセットは、https://github.com/vsamuel2003/cieで入手できます。

要約(オリジナル)

Aligning language models with user intent is becoming increasingly relevant to enhance user experience. This calls for designing methods that can allow users to control the properties of the language that LMs generate. For example, controlling the length of the generation, the complexity of the language that gets chosen, the sentiment, tone, etc. Most existing work attempts to integrate users’ control by conditioning LM generations on natural language prompts or discrete control signals, which are often brittle and hard to scale. In this work, we are interested in \textit{continuous} control signals, ones that exist along a spectrum that can’t easily be captured in a natural language prompt or via existing techniques in conditional generation. Through a case study in controlling the precise response-length of generations produced by LMs, we demonstrate how after fine-tuning, behaviors of language models can be controlled via continuous signals — as vectors that are interpolated between a ‘low’ and a ‘high’ token embedding. Our method more reliably exerts response-length control than in-context learning methods or fine-tuning methods that represent the control signal as a discrete signal. Our full open-sourced code and datasets are available at https://github.com/vsamuel2003/CIE.

arxiv情報

著者 Vinay Samuel,Harshita Diddee,Yiming Zhang,Daphne Ippolito
発行日 2025-05-19 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | CIE: Controlling Language Model Text Generations Using Continuous Signals はコメントを受け付けていません

Iterative Deployment Exposure for Unsupervised Out-of-Distribution Detection

要約

ディープラーニングモデルは、分散除外(OOD)画像に遭遇すると、パフォーマンスの劣化に対して脆弱であり、潜在的に誤診や患者ケアの侵害につながる可能性があります。
これらの欠点は、OOD検出の分野に大きな関心をもたらしました。
既存の監視されていないOOD(U-OOD)検出方法は、通常、OODサンプルがトレーニング分布を補完する非集中的な分布に由来することを想定しており、展開されたモデルが時間の経過とともに受動的にタスク固有のOODサンプルを受動的に蓄積する現実を無視します。
この現実世界のシナリオをよりよく反映するために、U-Oood検出のための斬新でより現実的な設定である反復展開露出(IDE)を紹介します。
CSOを提案します。CSOは、OOD分布に不可知論され、観測された非標識データを使用して展開中にゆっくりと改良するU-Oood検出器から始まるIDEの方法を提案します。
CSOは、マハラノビスの距離を最近傍のアプローチと組み合わせた新しいU-OUDスコアリング機能と、新しい自信に基づいた少数のOOD検出器とともに、限られたOODの例から効果的に学習します。
専用のベンチマークでアプローチを検証し、3つの医療イメージングモダリティの強力なベースラインでこの方法が大幅に改善されることを示しています。

要約(オリジナル)

Deep learning models are vulnerable to performance degradation when encountering out-of-distribution (OOD) images, potentially leading to misdiagnoses and compromised patient care. These shortcomings have led to great interest in the field of OOD detection. Existing unsupervised OOD (U-OOD) detection methods typically assume that OOD samples originate from an unconcentrated distribution complementary to the training distribution, neglecting the reality that deployed models passively accumulate task-specific OOD samples over time. To better reflect this real-world scenario, we introduce Iterative Deployment Exposure (IDE), a novel and more realistic setting for U-OOD detection. We propose CSO, a method for IDE that starts from a U-OOD detector that is agnostic to the OOD distribution and slowly refines it during deployment using observed unlabeled data. CSO uses a new U-OOD scoring function that combines the Mahalanobis distance with a nearest-neighbor approach, along with a novel confidence-scaled few-shot OOD detector to effectively learn from limited OOD examples. We validate our approach on a dedicated benchmark, showing that our method greatly improves upon strong baselines on three medical imaging modalities.

arxiv情報

著者 Lars Doorenbos,Raphael Sznitman,Pablo Márquez-Neila
発行日 2025-05-19 14:30:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Iterative Deployment Exposure for Unsupervised Out-of-Distribution Detection はコメントを受け付けていません

FlowCut: Unsupervised Video Instance Segmentation via Temporal Mask Matching

要約

Flowcutを提案します。これは、擬似ラベルを備えた高品質のビデオデータセットを構築するための3段階のフレームワークで構成される、監視されていないビデオインスタンスセグメンテーションのためのシンプルで有能な方法です。
私たちの知る限り、私たちの仕事は、監視されていないビデオインスタンスセグメンテーションのために、擬似ラベルでビデオデータセットをキュレートする最初の試みです。
最初の段階では、画像と光学フローの両方からの特徴の親和性を活用することにより、擬似インスタンスマスクを生成します。
第2段階では、フレーム全体で一致することにより、高品質で一貫した擬似インスタンスマスクを含む短いビデオセグメントを構築します。
第3段階では、YouTubevis-2021ビデオデータセットを使用して、トレーニングインスタンスセグメンテーションセットを抽出し、ビデオセグメンテーションモデルをトレーニングします。
FlowCutは、YouTubevis-2019、Youtubevis-2021、Davis-2017、およびDavis-2017モーションベンチマークで最先端のパフォーマンスを実現しています。

要約(オリジナル)

We propose FlowCut, a simple and capable method for unsupervised video instance segmentation consisting of a three-stage framework to construct a high-quality video dataset with pseudo labels. To our knowledge, our work is the first attempt to curate a video dataset with pseudo-labels for unsupervised video instance segmentation. In the first stage, we generate pseudo-instance masks by exploiting the affinities of features from both images and optical flows. In the second stage, we construct short video segments containing high-quality, consistent pseudo-instance masks by temporally matching them across the frames. In the third stage, we use the YouTubeVIS-2021 video dataset to extract our training instance segmentation set, and then train a video segmentation model. FlowCut achieves state-of-the-art performance on the YouTubeVIS-2019, YouTubeVIS-2021, DAVIS-2017, and DAVIS-2017 Motion benchmarks.

arxiv情報

著者 Alp Eren Sari,Paolo Favaro
発行日 2025-05-19 14:30:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FlowCut: Unsupervised Video Instance Segmentation via Temporal Mask Matching はコメントを受け付けていません

RevCD — Reversed Conditional Diffusion for Generalized Zero-Shot Learning

要約

一般化されたゼロショット学習(GZSL)では、見られたカテゴリでのみ訓練されたモデルを使用して、見られたカテゴリと目に見えないカテゴリの両方を認識することを目指しています。
コンピュータービジョンでは、これは分類問題につながり、視覚機能とテキストコーパスや手動注釈などの利用可能なセマンティック情報との関係を活用することにより、見られたカテゴリの知識が目に見えないカテゴリに転送されます。
ただし、この共同分布を学習するには費用がかかり、対応するセマンティック情報を使用した1対1のトレーニングが必要です。
拡散モデルの条件付きメカニズムを活用することにより、視覚入力から合成されたセマンティック機能を生成することにより、この問題を軽減する逆条件拡散ベースのモデル(REVCD)を提示します。
私たちのREVCDモデルは、正弦波スケジュールのクロスハダマード添加埋め込みと、注意誘導埋め込みのための多目的視覚変圧器で構成されています。
提案されたアプローチは、3つの重要なイノベーションを導入します。
まず、視覚データに基づいてセマンティックスペースを生成するプロセスを逆転させ、より効率的な知識移転を容易にする新しい損失関数を導入します。
第二に、拡散モデルをゼロショット学習に適用します。これは、データの複雑さをキャプチャする際の強みを活用する新しいアプローチです。
第三に、包括的なクロスダタセット評価を通じてモデルのパフォーマンスを実証します。
完全なコードはGitHubで利用可能になります。

要約(オリジナル)

In Generalized Zero-Shot Learning (GZSL), we aim to recognize both seen and unseen categories using a model trained only on seen categories. In computer vision, this translates into a classification problem, where knowledge from seen categories is transferred to unseen categories by exploiting the relationships between visual features and available semantic information, such as text corpora or manual annotations. However, learning this joint distribution is costly and requires one-to-one training with corresponding semantic information. We present a reversed conditional Diffusion-based model (RevCD) that mitigates this issue by generating semantic features synthesized from visual inputs by leveraging Diffusion models’ conditional mechanisms. Our RevCD model consists of a cross Hadamard-Addition embedding of a sinusoidal time schedule and a multi-headed visual transformer for attention-guided embeddings. The proposed approach introduces three key innovations. First, we reverse the process of generating semantic space based on visual data, introducing a novel loss function that facilitates more efficient knowledge transfer. Second, we apply Diffusion models to zero-shot learning – a novel approach that exploits their strengths in capturing data complexity. Third, we demonstrate our model’s performance through a comprehensive cross-dataset evaluation. The complete code will be available on GitHub.

arxiv情報

著者 William Heyden,Habib Ullah,M. Salman Siddiqui,Fadi Al Machot
発行日 2025-05-19 14:39:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RevCD — Reversed Conditional Diffusion for Generalized Zero-Shot Learning はコメントを受け付けていません

Emergence of Fixational and Saccadic Movements in a Multi-Level Recurrent Attention Model for Vision

要約

中心のビジョンに触発されたハードオーテストモデルは、解釈性とパラメーター経済を約束します。
ただし、視覚的注意の再発モデル(RAM)やディープリカレント注意モデル(DRAM)などの既存のモデルは、視覚探査ダイナミクスを妥協するヒトビジョンシステムの階層をモデル化できませんでした。
その結果、彼らは、人間の眼球運動の行動とは異なる、過度に固定または過度にサッカーディックのいずれかの注意を引き起こす傾向があります。
このホワイトペーパーでは、人間の視覚処理の神経階層を明示的にモデル化する新しいハード注意フレームワークであるマルチレベルの再発注意モデル(MRAM)を提案します。
2つの再発層での場所の生成とタスクの実行の機能を切り離すことにより、Mramは固定とサッカードの動きの間のバランスの取れた行動を示しました。
私たちの結果は、MRAMがより多くの人間のような注意力学を達成するだけでなく、標準の画像分類ベンチマークでCNN、RAM、DRAMのベースラインを常に上回ることを示しています。

要約(オリジナル)

Inspired by foveal vision, hard attention models promise interpretability and parameter economy. However, existing models like the Recurrent Model of Visual Attention (RAM) and Deep Recurrent Attention Model (DRAM) failed to model the hierarchy of human vision system, that compromise on the visual exploration dynamics. As a result, they tend to produce attention that are either overly fixational or excessively saccadic, diverging from human eye movement behavior. In this paper, we propose a Multi-Level Recurrent Attention Model (MRAM), a novel hard attention framework that explicitly models the neural hierarchy of human visual processing. By decoupling the function of glimpse location generation and task execution in two recurrent layers, MRAM emergent a balanced behavior between fixation and saccadic movement. Our results show that MRAM not only achieves more human-like attention dynamics, but also consistently outperforms CNN, RAM and DRAM baselines on standard image classification benchmarks.

arxiv情報

著者 Pengcheng Pan,Yonekura Shogo,Yasuo Kuniyoshi
発行日 2025-05-19 14:48:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Emergence of Fixational and Saccadic Movements in a Multi-Level Recurrent Attention Model for Vision はコメントを受け付けていません

MatPredict: a dataset and benchmark for learning material properties of diverse indoor objects

要約

カメラ画像から材料特性を決定することで、屋内環境で複雑なオブジェクトを識別する機能を拡大することができます。これは、消費者ロボットアプリケーションにとって価値があります。
これをサポートするために、レプリカデータセットの高品質の合成オブジェクトをMatSynth Datasetのマテリアルプロパティクラスと組み合わせて、多様な材料プロパティを持つオブジェクトを作成するデータセットであるMATPREDICTを紹介します。
特定の前景オブジェクトの3Dメッシュを選択し、異なる材料特性でレンダリングします。
合計で、\ textBf {14}異なる素材を使用して、一般的に発生するオブジェクトを\ textBf {18}生成します。
これらのオブジェクトの照明とカメラの配置に関して、変動性をどのように提供するかを紹介します。
次に、シーン内のこれらの摂動モデルを使用して視覚画像から材料特性を推測するためのベンチマークを提供し、関連する特定のニューラルネットワークモデルと、異なる画像比較メトリックに基づいてそのパフォーマンスについて説明します。
さまざまな材料との軽い相互作用を正確にシミュレートすることにより、リアリズムを強化することができます。これは、大規模なシミュレーションを通じてモデルを効果的にトレーニングするために重要です。
この研究は、消費者ロボット工学の認識に革命をもたらすことを目的としています。
データセットには\ href {https://huggingface.co/datasets/umtri/matpredict} {here}が提供され、コードは\ href {https://github.com/arpan-kusari/matpredict} {

要約(オリジナル)

Determining material properties from camera images can expand the ability to identify complex objects in indoor environments, which is valuable for consumer robotics applications. To support this, we introduce MatPredict, a dataset that combines the high-quality synthetic objects from Replica dataset with MatSynth dataset’s material properties classes – to create objects with diverse material properties. We select 3D meshes of specific foreground objects and render them with different material properties. In total, we generate \textbf{18} commonly occurring objects with \textbf{14} different materials. We showcase how we provide variability in terms of lighting and camera placement for these objects. Next, we provide a benchmark for inferring material properties from visual images using these perturbed models in the scene, discussing the specific neural network models involved and their performance based on different image comparison metrics. By accurately simulating light interactions with different materials, we can enhance realism, which is crucial for training models effectively through large-scale simulations. This research aims to revolutionize perception in consumer robotics. The dataset is provided \href{https://huggingface.co/datasets/UMTRI/MatPredict}{here} and the code is provided \href{https://github.com/arpan-kusari/MatPredict}{here}.

arxiv情報

著者 Yuzhen Chen,Hojun Son,Arpan Kusari
発行日 2025-05-19 14:54:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | MatPredict: a dataset and benchmark for learning material properties of diverse indoor objects はコメントを受け付けていません

EndoMetric: Near-Light Monocular Metric Scale Estimation in Endoscopy

要約

幾何学的な再構築と内視鏡画像によるスラムは、近年大幅に進歩しています。
ほとんどの医療分野では、単眼内視鏡が採用されており、使用されるアルゴリズムは通常、外部環境向けに設計されたアルゴリズムの適応であり、未知のスケール係数を持つ3D再構成をもたらします。
初めて、アプリケーション固有の学習前に依存することなく、標準的な単眼内視鏡画像からの3D再構成の実際のメトリックスケールを推定する方法を提案します。
私たちの完全なモデルベースのアプローチは、内視鏡に埋め込まれた近くの光源を活用して、カメラからの小さいがゼロ以外のベースラインに配置され、光減衰の逆平面法則と組み合わせて、メートルスケールをゼロから正確に回復します。
これにより、内視鏡をメトリックデバイスに変換することができます。これは、ポリープの測定、狭窄、病気の組織の程度の評価などの用途に重要です。

要約(オリジナル)

Geometric reconstruction and SLAM with endoscopic images have advanced significantly in recent years. In most medical fields, monocular endoscopes are employed, and the algorithms used are typically adaptations of those designed for external environments, resulting in 3D reconstructions with an unknown scale factor. For the first time, we propose a method to estimate the real metric scale of a 3D reconstruction from standard monocular endoscopic images without relying on application-specific learned priors. Our fully model-based approach leverages the near-light sources embedded in endoscopes, positioned at a small but nonzero baseline from the camera, in combination with the inverse-square law of light attenuation, to accurately recover the metric scale from scratch. This enables the transformation of any endoscope into a metric device, which is crucial for applications such as measuring polyps, stenosis, or assessing the extent of diseased tissue.

arxiv情報

著者 Raúl Iranzo,Víctor M. Batlle,Juan D. Tardós,José M. M. Montiel
発行日 2025-05-19 14:54:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | EndoMetric: Near-Light Monocular Metric Scale Estimation in Endoscopy はコメントを受け付けていません

MAGI-1: Autoregressive Video Generation at Scale

要約

連続したフレームの固定長セグメントとして定義された一連のビデオチャンクを自動化することにより、ビデオを生成する世界モデルであるMAGI-1を提示します。
MAGI-1は、長期にわたって単調に増加するチャンクごとのノイズを除去し、因果的な時間モデリングを可能にし、ストリーミング生成を自然にサポートします。
テキスト命令を条件付けられた画像間(I2V)タスクで強力なパフォーマンスを実現し、いくつかのアルゴリズムの革新と専用のインフラストラクチャスタックによって可能になった高い時間的一貫性とスケーラビリティを提供します。
MAGI-1は、ビデオの長さに関係なく、一定のピーク推論コストを維持することにより、チャンクごとのプロンプトを介して制御可能な生成を促進し、リアルタイムのメモリ効率の高い展開をサポートします。
MAGI-1の最大のバリアントは、240億のパラメーターで構成され、最大400万トークンのコンテキストの長さをサポートし、アプローチのスケーラビリティと堅牢性を示しています。
コードとモデルは、https://github.com/sandai-org/magi-1およびhttps://github.com/sandai-org/magiattentionで入手できます。
製品はhttps://sand.aiでアクセスできます。

要約(オリジナル)

We present MAGI-1, a world model that generates videos by autoregressively predicting a sequence of video chunks, defined as fixed-length segments of consecutive frames. Trained to denoise per-chunk noise that increases monotonically over time, MAGI-1 enables causal temporal modeling and naturally supports streaming generation. It achieves strong performance on image-to-video (I2V) tasks conditioned on text instructions, providing high temporal consistency and scalability, which are made possible by several algorithmic innovations and a dedicated infrastructure stack. MAGI-1 facilitates controllable generation via chunk-wise prompting and supports real-time, memory-efficient deployment by maintaining constant peak inference cost, regardless of video length. The largest variant of MAGI-1 comprises 24 billion parameters and supports context lengths of up to 4 million tokens, demonstrating the scalability and robustness of our approach. The code and models are available at https://github.com/SandAI-org/MAGI-1 and https://github.com/SandAI-org/MagiAttention. The product can be accessed at https://sand.ai.

arxiv情報

著者 Sand. ai,Hansi Teng,Hongyu Jia,Lei Sun,Lingzhi Li,Maolin Li,Mingqiu Tang,Shuai Han,Tianning Zhang,W. Q. Zhang,Weifeng Luo,Xiaoyang Kang,Yuchen Sun,Yue Cao,Yunpeng Huang,Yutong Lin,Yuxin Fang,Zewei Tao,Zheng Zhang,Zhongshu Wang,Zixun Liu,Dai Shi,Guoli Su,Hanwen Sun,Hong Pan,Jie Wang,Jiexin Sheng,Min Cui,Min Hu,Ming Yan,Shucheng Yin,Siran Zhang,Tingting Liu,Xianping Yin,Xiaoyu Yang,Xin Song,Xuan Hu,Yankai Zhang,Yuqiao Li
発行日 2025-05-19 14:58:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | MAGI-1: Autoregressive Video Generation at Scale はコメントを受け付けていません

RB-SCD: A New Benchmark for Semantic Change Detection of Roads and Bridges in Traffic Scenes

要約

建設、改修、解体などの道路や橋の変化の正確な検出は、都市計画と交通管理に不可欠です。
ただし、既存の方法は、トラフィックシナリオに高品質の注釈付きデータセットがないため、きめ細かいセマンティック変更情報を抽出するのに苦労しています。
これに対処するために、多様な都市や国からの260ペアの高解像度のリモートセンシング画像を含む包括的なベンチマークである道路および橋のセマンティック変化検出(RB-SCD)データセットを紹介します。
RB-SCDは、さまざまな道路および橋の構造にわたって11種類のセマンティック変更をキャプチャし、詳細な構造的および機能分析を可能にします。
このデータセットに基づいて、周波数ドメインにマルチモーダル機能を統合する新しいフレームワーク、マルチモーダル周波数駆動変化検出器(MFDCD)を提案します。
MFDCDには、階層視覚機能をウェーブレットベースの周波数コンポーネントと融合する動的周波数カプラー(DFC)と、クリップ由来のテキスト機能を周波数ドメインに変換し、グラフベースのフィルタリングを適用するテキスト周波数フィルター(TFF)が含まれます。
RB-SCDおよび3つのパブリックベンチマークでの実験結果は、アプローチの有効性を示しています。

要約(オリジナル)

Accurate detection of changes in roads and bridges, such as construction, renovation, and demolition, is essential for urban planning and traffic management. However, existing methods often struggle to extract fine-grained semantic change information due to the lack of high-quality annotated datasets in traffic scenarios. To address this, we introduce the Road and Bridge Semantic Change Detection (RB-SCD) dataset, a comprehensive benchmark comprising 260 pairs of high-resolution remote sensing images from diverse cities and countries. RB-SCD captures 11 types of semantic changes across varied road and bridge structures, enabling detailed structural and functional analysis. Building on this dataset, we propose a novel framework, Multimodal Frequency-Driven Change Detector (MFDCD), which integrates multimodal features in the frequency domain. MFDCD includes a Dynamic Frequency Coupler (DFC) that fuses hierarchical visual features with wavelet-based frequency components, and a Textual Frequency Filter (TFF) that transforms CLIP-derived textual features into the frequency domain and applies graph-based filtering. Experimental results on RB-SCD and three public benchmarks demonstrate the effectiveness of our approach.

arxiv情報

著者 Qingling Shu,Sibao Chen,Zhihui You,Wei Lu,Jin Tang,Bin Luo
発行日 2025-05-19 14:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RB-SCD: A New Benchmark for Semantic Change Detection of Roads and Bridges in Traffic Scenes はコメントを受け付けていません