HyperSIGMA: Hyperspectral Intelligence Comprehension Foundation Model

要約

正確なハイパースペクトル画像(HSI)解釈は、都市計画、精密農業、環境監視などのさまざまな地球観測関連のアプリケーションに貴重な洞察を提供するために重要です。
ただし、既存のHSI処理方法は主にタスク固有でシーン依存性であり、タスクやシーン全体で知識を転送する能力を厳しく制限し、それにより実際のアプリケーションの実用性が低下します。
これらの課題に対処するために、タスクやシーン全体でHSIの解釈を統合するビジョン変圧器ベースの基礎モデルであるハイパーイングマを提示します。
HSISに固有のスペクトルと空間の冗長性を克服するために、多様な文脈的特徴の学習を効果的に促進し、ハイパー微分の基本的なブロックとして機能する新しいスパースサンプリング注意(SSA)メカニズムを導入します。
Hypersigmaは、特別に設計されたスペクトル強化モジュールを使用して、空間的特徴とスペクトル機能を統合します。
さらに、約450kのハイパースペクトル画像を含むトレーニング前の大規模なハイパースペクトルデータセット、Hyperglobal-450Kを作成し、既存のデータセットを大規模に著しく上回ります。
さまざまな高レベルおよび低レベルのHSIタスクに関する広範な実験は、現在の最新方法と比較して、ハイパーイングマの汎用性と優れた表現能力を示しています。
さらに、ハイパーイングマは、スケーラビリティ、堅牢性、クロスモーダル転送能力、現実世界の適用性、および計算効率に大きな利点を示します。
コードとモデルはhttps://github.com/whu-sigma/hypersigmaでリリースされます。

要約(オリジナル)

Accurate hyperspectral image (HSI) interpretation is critical for providing valuable insights into various earth observation-related applications such as urban planning, precision agriculture, and environmental monitoring. However, existing HSI processing methods are predominantly task-specific and scene-dependent, which severely limits their ability to transfer knowledge across tasks and scenes, thereby reducing the practicality in real-world applications. To address these challenges, we present HyperSIGMA, a vision transformer-based foundation model that unifies HSI interpretation across tasks and scenes, scalable to over one billion parameters. To overcome the spectral and spatial redundancy inherent in HSIs, we introduce a novel sparse sampling attention (SSA) mechanism, which effectively promotes the learning of diverse contextual features and serves as the basic block of HyperSIGMA. HyperSIGMA integrates spatial and spectral features using a specially designed spectral enhancement module. In addition, we construct a large-scale hyperspectral dataset, HyperGlobal-450K, for pre-training, which contains about 450K hyperspectral images, significantly surpassing existing datasets in scale. Extensive experiments on various high-level and low-level HSI tasks demonstrate HyperSIGMA’s versatility and superior representational capability compared to current state-of-the-art methods. Moreover, HyperSIGMA shows significant advantages in scalability, robustness, cross-modal transferring capability, real-world applicability, and computational efficiency. The code and models will be released at https://github.com/WHU-Sigma/HyperSIGMA.

arxiv情報

著者 Di Wang,Meiqi Hu,Yao Jin,Yuchun Miao,Jiaqi Yang,Yichu Xu,Xiaolei Qin,Jiaqi Ma,Lingyu Sun,Chenxing Li,Chuan Fu,Hongruixuan Chen,Chengxi Han,Naoto Yokoya,Jing Zhang,Minqiang Xu,Lin Liu,Lefei Zhang,Chen Wu,Bo Du,Dacheng Tao,Liangpei Zhang
発行日 2025-04-01 15:14:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | HyperSIGMA: Hyperspectral Intelligence Comprehension Foundation Model はコメントを受け付けていません

HCMA-UNet: A Hybrid CNN-Mamba UNet with Axial Self-Attention for Efficient Breast Cancer Segmentation

要約

DCE-MRIの乳がん病変のセグメンテーションは、不均一な腫瘍の形態と不明瞭な境界のために依然として困難なままです。
これらの課題に対処するために、この研究では、乳がんの病変セグメンテーションのために、新しいハイブリッドセグメンテーションネットワークHCMA-Unetを提案しています。
私たちのネットワークは、軽量のCNNバックボーンとマルチビュー軸の自己触媒マンバ(MISM)モジュールで構成されています。
MISMモジュールは、視覚的な状態空間ブロック(VSSB)と軸の自己関節(ASA)メカニズムを統合し、効率的な三方向の特徴抽出を実現するために、非対称スプリットチャネル(ASC)戦略を通じてパラメーターを効果的に削減します。
私たちの軽量モデルは、2.87mパラメーターと126.44 GFLOPSで優れた性能を達成します。
セグメンテーションの精度を向上させるために、機能ガイド下のリージョンアウェア損失関数(FRLOSS)が提案されています。
1つのプライベートと2つの公共DCE-MRI乳がんデータセットでの広範な実験は、私たちのアプローチが計算効率を維持しながら最先端のパフォーマンスを達成することを示しています。
Frlossは、優れた横断的な一般化能力も示しています。
ソースコードは、https://github.com/haoxuanli-thu/hcma-unetで入手できます。

要約(オリジナル)

Breast cancer lesion segmentation in DCE-MRI remains challenging due to heterogeneous tumor morphology and indistinct boundaries. To address these challenges, this study proposes a novel hybrid segmentation network, HCMA-UNet, for lesion segmentation of breast cancer. Our network consists of a lightweight CNN backbone and a Multi-view Axial Self-Attention Mamba (MISM) module. The MISM module integrates Visual State Space Block (VSSB) and Axial Self-Attention (ASA) mechanism, effectively reducing parameters through Asymmetric Split Channel (ASC) strategy to achieve efficient tri-directional feature extraction. Our lightweight model achieves superior performance with 2.87M parameters and 126.44 GFLOPs. A Feature-guided Region-aware loss function (FRLoss) is proposed to enhance segmentation accuracy. Extensive experiments on one private and two public DCE-MRI breast cancer datasets demonstrate that our approach achieves state-of-the-art performance while maintaining computational efficiency. FRLoss also exhibits good cross-architecture generalization capabilities. The source code is available at https://github.com/Haoxuanli-Thu/HCMA-UNet.

arxiv情報

著者 Haoxuan Li,Wei song,Peiwu Qin,Xi Yuan,Zhenglin Chen
発行日 2025-04-01 15:36:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | HCMA-UNet: A Hybrid CNN-Mamba UNet with Axial Self-Attention for Efficient Breast Cancer Segmentation はコメントを受け付けていません

Mixture of Experts Made Personalized: Federated Prompt Learning for Vision-Language Models

要約

Federated Prown Learningは、Clipのようなビジョン言語モデル(VLM)の堅牢な表現学習能力を備えたClipのようなビジョン言語モデルを使用したフェデレーションラーニングを促進します。
ただし、現在のフェデレートプロンプト学習方法は、従来のFLパラダイムに習慣的に制限されています。このパラダイムでは、参加しているクライアントは一般に、サーバーからグローバルに集約された単一のモデルをダウンロードすることができます。
この作業では、連邦設定でフルサイズのモデルをトレーニングするために正当化できますが、このパラダイムは軽量プロンプトには不適切であると主張します。
クライアントが固定非ローカルエキスパートとして複数の事前に凝集したプロンプトをダウンロードするように促進することにより、専門家の混合物(MOE)のレンズを通じてプロンプト学習プロセスをパーソナライズする新しいFLフレームワークである適応プロンプト(PFEDMOAP)のパーソナライズされたフェデレーション混合物を提案します。
PFEDMOAPは、ローカルイメージデータとより適切に整合するための強化されたテキスト機能を生成することを学ぶローカルな注意ベースのゲーティングネットワークを実装し、ローカルおよびダウンロードされた非ローカル適応プロンプトエキスパートの両方の恩恵を受けます。
さまざまなフェデレーション設定の下での9つのデータセットでの広範な実験は、提案されたPFEDMOAPアルゴリズムの有効性を示しています。
このコードは、https://github.com/ljaiverson/pfedmoapで入手できます。

要約(オリジナル)

Federated prompt learning benefits federated learning with CLIP-like Vision-Language Model’s (VLM’s) robust representation learning ability through prompt learning. However, current federated prompt learning methods are habitually restricted to the traditional FL paradigm, where the participating clients are generally only allowed to download a single globally aggregated model from the server. While justifiable for training full-sized models under federated settings, in this work, we argue that this paradigm is ill-suited for lightweight prompts. By facilitating the clients to download multiple pre-aggregated prompts as fixed non-local experts, we propose Personalized Federated Mixture of Adaptive Prompts (pFedMoAP), a novel FL framework that personalizes the prompt learning process through the lens of Mixture of Experts (MoE). pFedMoAP implements a local attention-based gating network that learns to generate enhanced text features for better alignment with local image data, benefiting from both local and downloaded non-local adaptive prompt experts. Extensive experiments on 9 datasets under various federated settings demonstrate the efficacy of the proposed pFedMoAP algorithm. The code is available at https://github.com/ljaiverson/pFedMoAP.

arxiv情報

著者 Jun Luo,Chen Chen,Shandong Wu
発行日 2025-04-01 15:53:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | Mixture of Experts Made Personalized: Federated Prompt Learning for Vision-Language Models はコメントを受け付けていません

Oriented Object Detection in Optical Remote Sensing Images using Deep Learning: A Survey

要約

方向のオブジェクト検出は、任意の方向を持つオブジェクトを見つけて分類することを目的とした、リモートセンシングの最も基本的で挑戦的なタスクの1つです。
深い学習における最近の進歩により、指向されたオブジェクト検出の能力が大幅に向上しました。
この分野の急速な発展を考えると、このペーパーでは、方向のあるオブジェクト検出における最近の進歩に関する包括的な調査を提示します。
具体的には、水平オブジェクトの検出から指向されたオブジェクトの検出への技術的進化を追跡し、機能の不整合、空間的不整列、方向の境界ボックス(OBB)回帰問題など、特定の課題を強調することから始めます。
その後、既存の方法をさらに検出フレームワーク、OBB回帰、および特徴表現に分類し、これらのアプローチが上記の課題にどのように対処するかについて詳細な議論を提供します。
さらに、いくつかの公開されているデータセットと評価プロトコルについて説明します。
さらに、最先端の方法の包括的な比較と分析を提供します。
この論文の終わりに向かって、指向性オブジェクト検出のためのいくつかの将来の方向を特定します。

要約(オリジナル)

Oriented object detection is one of the most fundamental and challenging tasks in remote sensing, aiming to locate and classify objects with arbitrary orientations. Recent advancements in deep learning have significantly enhanced the capabilities of oriented object detection. Given the rapid development of this field, this paper presents a comprehensive survey of recent advances in oriented object detection. To be specific, we begin by tracing the technical evolution from horizontal object detection to oriented object detection and highlighting the specific challenges, including feature misalignment, spatial misalignment, and oriented bounding box (OBB) regression problems. Subsequently, we further categorize existing methods into detection framework, OBB regression, and feature representations, and provide an in-depth discussion on how these approaches address the above challenges. In addition, we cover several publicly available datasets and evaluation protocols. Furthermore, we provide a comprehensive comparison and analysis of state-of-the-art methods. Toward the end of this paper, we identify several future directions for oriented object detection.

arxiv情報

著者 Kun Wang,Zi Wang,Zhang Li,Ang Su,Xichao Teng,Erting Pan,Minhao Liu,Qifeng Yu
発行日 2025-04-01 15:54:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Oriented Object Detection in Optical Remote Sensing Images using Deep Learning: A Survey はコメントを受け付けていません

IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations

要約

画像から幾何学的情報と材料情報をキャプチャすることは、コンピュータービジョンとグラフィックスの根本的な課題のままです。
従来の最適化ベースの方法は、照明と材料の間の固有の曖昧さに苦しんでいる一方で、密なマルチビュー入力からの幾何学、材料特性、および環境照明を再構築するために数時間の計算時間を必要とすることがよくあります。
一方、学習ベースのアプローチは、既存の3Dオブジェクトデータセットからの豊富な材料の事前を活用していますが、マルチビューの一貫性を維持する際に課題に直面しています。
この論文では、さまざまな照明の下で任意の数の画像で固有の分解を実行するように設計された拡散ベースのモデルであるIdarbを紹介します。
私たちの方法は、表面の正常と材料特性に関する正確でマルチビューの一貫した推定を実現します。
これは、新しいクロスビュー、クロスドメインの注意モジュール、および照明を備えたビューに適したトレーニング戦略を通じて可能になります。
さらに、ARB-Objaverseを導入します。これは、多様な照明条件の下で大規模なマルチビューの固有データとレンダリングを提供し、堅牢なトレーニングをサポートする新しいデータセットです。
広範な実験は、Idarbが定性的および定量的に最新の方法を上回ることを示しています。
さらに、当社のアプローチは、シングルイメージの学習、測光ステレオ、3D再構成など、さまざまなダウンストリームタスクを促進し、現実的な3Dコンテンツ作成における幅広いアプリケーションを強調しています。

要約(オリジナル)

Capturing geometric and material information from images remains a fundamental challenge in computer vision and graphics. Traditional optimization-based methods often require hours of computational time to reconstruct geometry, material properties, and environmental lighting from dense multi-view inputs, while still struggling with inherent ambiguities between lighting and material. On the other hand, learning-based approaches leverage rich material priors from existing 3D object datasets but face challenges with maintaining multi-view consistency. In this paper, we introduce IDArb, a diffusion-based model designed to perform intrinsic decomposition on an arbitrary number of images under varying illuminations. Our method achieves accurate and multi-view consistent estimation on surface normals and material properties. This is made possible through a novel cross-view, cross-domain attention module and an illumination-augmented, view-adaptive training strategy. Additionally, we introduce ARB-Objaverse, a new dataset that provides large-scale multi-view intrinsic data and renderings under diverse lighting conditions, supporting robust training. Extensive experiments demonstrate that IDArb outperforms state-of-the-art methods both qualitatively and quantitatively. Moreover, our approach facilitates a range of downstream tasks, including single-image relighting, photometric stereo, and 3D reconstruction, highlighting its broad applications in realistic 3D content creation.

arxiv情報

著者 Zhibing Li,Tong Wu,Jing Tan,Mengchen Zhang,Jiaqi Wang,Dahua Lin
発行日 2025-04-01 16:23:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations はコメントを受け付けていません

DetailGen3D: Generative 3D Geometry Enhancement via Data-Dependent Flow

要約

最新の3D生成方法は、スパースまたはシングルビューから迅速に形状を作成できますが、それらの出力は、計算上の制約のために幾何学的な詳細を欠いていることがよくあります。
これらの生成された3D形状を強化するために特別に設計された生成アプローチであるDefateGen3Dを提示します。
私たちの重要な洞察は、大規模な3D生成モデルの計算オーバーヘッドを避けて、潜在空間でのデータ依存の流れを介して粗からファインへの変換を直接モデル化することです。
洗練中に正確な空間的対応を保証するトークンマッチング戦略を導入し、グローバル構造を維持しながらローカルディテール合成を可能にします。
合成された粗い形状の特性と一致するようにトレーニングデータを慎重に設計することにより、私たちの方法は、シングルビューからスパースマルチビュー入力まで、さまざまな3D生成および再建アプローチによって生成される形状を効果的に強化できます。
広範な実験では、詳細Gen3Dがトレーニングの効率を維持しながら、高忠実度の幾何学的ディテール合成を達成することを示しています。

要約(オリジナル)

Modern 3D generation methods can rapidly create shapes from sparse or single views, but their outputs often lack geometric detail due to computational constraints. We present DetailGen3D, a generative approach specifically designed to enhance these generated 3D shapes. Our key insight is to model the coarse-to-fine transformation directly through data-dependent flows in latent space, avoiding the computational overhead of large-scale 3D generative models. We introduce a token matching strategy that ensures accurate spatial correspondence during refinement, enabling local detail synthesis while preserving global structure. By carefully designing our training data to match the characteristics of synthesized coarse shapes, our method can effectively enhance shapes produced by various 3D generation and reconstruction approaches, from single-view to sparse multi-view inputs. Extensive experiments demonstrate that DetailGen3D achieves high-fidelity geometric detail synthesis while maintaining efficiency in training.

arxiv情報

著者 Ken Deng,Yuan-Chen Guo,Jingxiang Sun,Zi-Xin Zou,Yangguang Li,Xin Cai,Yan-Pei Cao,Yebin Liu,Ding Liang
発行日 2025-04-01 16:56:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | DetailGen3D: Generative 3D Geometry Enhancement via Data-Dependent Flow はコメントを受け付けていません

Rehearsal-free Federated Domain-incremental Learning

要約

リハーサルのないフェデレートドメインの増分学習フレームワークであるReffilを紹介します。これは、目に見えないドメインが継続的に学習されているフェデレートドメインと秘密の学習における壊滅的な忘却の課題を緩和するためのグローバルな迅速な共有パラダイムに基づいています。
追加のデータセットの使用や以前のタスクからのプライベートデータの保持など、忘却を緩和するための典型的な方法は、デバイスの限られたリソースのためにフェデレートラーニング(FL)では実行可能ではありません。
私たちの方法であるReffilは、ドメイン不変の知識を学習し、異なるFL参加者が表すドメインからのさまざまなドメイン固有のプロンプトを組み込むことにより、これに対処します。
Reffilの重要な特徴は、ドメイン適応プロンプトジェネレーターによるローカルファイングレインプロンプトの生成です。これは、地域のドメインの知識から効果的に学習しながら、地球規模で特徴的な境界を維持します。
また、局所的に生成されたプロンプトと他のドメインのプロンプトを区別するドメイン固有のプロンプト対照学習損失を導入し、Reffilの精度と有効性を高めます。
既存の方法と比較して、Reffilは、余分なメモリスペースを必要とせずに壊滅的な忘却を大幅に軽減し、プライバシーに敏感でリソースに制約のあるデバイスに最適です。

要約(オリジナル)

We introduce a rehearsal-free federated domain incremental learning framework, RefFiL, based on a global prompt-sharing paradigm to alleviate catastrophic forgetting challenges in federated domain-incremental learning, where unseen domains are continually learned. Typical methods for mitigating forgetting, such as the use of additional datasets and the retention of private data from earlier tasks, are not viable in federated learning (FL) due to devices’ limited resources. Our method, RefFiL, addresses this by learning domain-invariant knowledge and incorporating various domain-specific prompts from the domains represented by different FL participants. A key feature of RefFiL is the generation of local fine-grained prompts by our domain adaptive prompt generator, which effectively learns from local domain knowledge while maintaining distinctive boundaries on a global scale. We also introduce a domain-specific prompt contrastive learning loss that differentiates between locally generated prompts and those from other domains, enhancing RefFiL’s precision and effectiveness. Compared to existing methods, RefFiL significantly alleviates catastrophic forgetting without requiring extra memory space, making it ideal for privacy-sensitive and resource-constrained devices.

arxiv情報

著者 Rui Sun,Haoran Duan,Jiahua Dong,Varun Ojha,Tejal Shah,Rajiv Ranjan
発行日 2025-04-01 17:09:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Rehearsal-free Federated Domain-incremental Learning はコメントを受け付けていません

NTSEBENCH: Cognitive Reasoning Benchmark for Vision Language Models

要約

パズル、シリーズ、アナロジーを含む認知的テキストおよび視覚的推論タスクは、テキストと空間の両方でパターンを迅速に推論し、解読し、評価する能力を要求します。
膨大な量の人間がキュレーションしたデータに関する広範なトレーニングにより、LLMSとVLMSは一般的な推論タスクで優れていますが、より深い認知的理解を必要とするより複雑な推論と格闘しています。
NTSEBENCHを紹介します。これは、大規模モデルの認知的マルチモーダル推論と問題解決スキルを評価するために設計された新しいデータセットです。
データセットには、26の異なるタイプに分類された合計4,642枚の画像を添付した2728の複数選択質問が含まれています。
これらの質問は、インドの全国的なNTSE試験から引き出されており、単なる暗示学習を超えて知性と批判的思考スキルを評価するために設計された視覚的およびテキストの一般的な適性の課題が組み合わされています。
最先端のLLMとVLMを使用して、データセットにベースラインを確立します。
オープンソースモデルと妥当性モデルの比較を容易にするために、データセットインスタンスで異なるモダリティ(テキストと画像)を処理する4つの異なるモデリング戦略を提案します。

要約(オリジナル)

Cognitive textual and visual reasoning tasks, including puzzles, series, and analogies, demand the ability to quickly reason, decipher, and evaluate patterns both textually and spatially. Due to extensive training on vast amounts of human-curated data, LLMs and VLMs excel in common-sense reasoning tasks, however still struggle with more complex reasoning that demands deeper cognitive understanding. We introduce NTSEBench, a new dataset designed to evaluate cognitive multi-modal reasoning and problem-solving skills of large models. The dataset contains 2728 multiple-choice questions, accompanied by a total of 4,642 images, categorized into 26 different types. These questions are drawn from the nationwide NTSE examination in India and feature a mix of visual and textual general aptitude challenges, designed to assess intelligence and critical thinking skills beyond mere rote learning. We establish baselines on the dataset using state-of-the-art LLMs and VLMs. To facilitate a comparison between open source and propriety models, we propose four distinct modeling strategies to handle different modalities — text and images — in the dataset instances.

arxiv情報

著者 Pranshu Pandya,Vatsal Gupta,Agney S Talwarr,Tushar Kataria,Dan Roth,Vivek Gupta
発行日 2025-04-01 17:25:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR | NTSEBENCH: Cognitive Reasoning Benchmark for Vision Language Models はコメントを受け付けていません

ActiveGAMER: Active GAussian Mapping through Efficient Rendering

要約

3Dガウススプラッティング(3DG)を利用して高品質のリアルタイムシーンマッピングと探索を実現するアクティブマッピングシステムであるActiveGamerを紹介します。
アクティブマッピングパフォーマンスを計算的に要求し、制限する従来のNERFベースの方法とは異なり、このアプローチは3DGの効率的なレンダリング機能を活用し、複雑な環境で効果的かつ効率的な探索を可能にします。
システムのコアは、レンダリングベースの情報ゲインモジュールで、次のベストビュー計画の最も有益な視点を動的に識別し、幾何学的および測光再構成の精度の両方を強化します。
ActiveGamerは、粗から洗練された探索、補充後、グローバルローカルなキーフレーム選択戦略を組み合わせて、慎重にバランスの取れたフレームワークを統合し、再構成の完全性と忠実度を最大化します。
当社のシステムは、最先端の幾何学的および測光の精度と完全性で環境を自律的に調査および再構築し、両方の側面で既存のアプローチを大幅に上回ります。
レプリカやMP3Dなどのベンチマークデータセットに関する広範な評価は、アクティブマッピングタスクにおけるActiveGamerの有効性を強調しています。

要約(オリジナル)

We introduce ActiveGAMER, an active mapping system that utilizes 3D Gaussian Splatting (3DGS) to achieve high-quality, real-time scene mapping and exploration. Unlike traditional NeRF-based methods, which are computationally demanding and restrict active mapping performance, our approach leverages the efficient rendering capabilities of 3DGS, allowing effective and efficient exploration in complex environments. The core of our system is a rendering-based information gain module that dynamically identifies the most informative viewpoints for next-best-view planning, enhancing both geometric and photometric reconstruction accuracy. ActiveGAMER also integrates a carefully balanced framework, combining coarse-to-fine exploration, post-refinement, and a global-local keyframe selection strategy to maximize reconstruction completeness and fidelity. Our system autonomously explores and reconstructs environments with state-of-the-art geometric and photometric accuracy and completeness, significantly surpassing existing approaches in both aspects. Extensive evaluations on benchmark datasets such as Replica and MP3D highlight ActiveGAMER’s effectiveness in active mapping tasks.

arxiv情報

著者 Liyan Chen,Huangying Zhan,Kevin Chen,Xiangyu Xu,Qingan Yan,Changjiang Cai,Yi Xu
発行日 2025-04-01 17:34:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | ActiveGAMER: Active GAussian Mapping through Efficient Rendering はコメントを受け付けていません

Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains

要約

検証可能な報酬(RLVR)による強化学習は、特に構造化された参照回答が検証のためにアクセスできる場合、大規模な言語モデル(LLM)の数学的推論とコーディングパフォーマンスの強化に大きな成功を示しています。
ただし、より広範で構造化されていないドメインへの拡張は未開拓のままです。
この作業では、医学、化学、心理学、経済学、教育を含む多様な現実世界のドメインにわたるRLVRの有効性とスケーラビリティを調査します。
広範なドメインタスクに関するバイナリ検証判断は、専門家が書いた参照回答が存在する場合、さまざまなLLMで高い一貫性を示すことを明らかにします。
この発見に動機付けられて、私たちは、特に自由形式の非構造化された回答シナリオで、バイナリの検証によってもたらされる制限を克服するために、柔らかくモデルベースの報酬信号を生成する生成スコアリング手法を利用します。
さらに、ドメイン固有の広範な注釈を必要とせずに、比較的小(7b)LLMを使用して、クロスドメイン生成報酬モデルをトレーニングする可能性を実証します。
包括的な実験を通じて、RLVRフレームワークは明確なパフォーマンスの向上を確立し、フリーフォームの設定でドメイン全体でQWEN2.5-72BやDeepSeek-R1-Distill-QWEN-32Bなどの最先端のオープンソースアライメントモデルを大幅に上回ります。
私たちのアプローチは、RLVRの堅牢性、柔軟性、およびスケーラビリティを特に強化し、複雑でノイズの多いラベルシナリオにおける実用的な強化学習アプリケーションへの実質的なステップを表します。

要約(オリジナル)

Reinforcement learning with verifiable rewards (RLVR) has demonstrated significant success in enhancing mathematical reasoning and coding performance of large language models (LLMs), especially when structured reference answers are accessible for verification. However, its extension to broader, less structured domains remains unexplored. In this work, we investigate the effectiveness and scalability of RLVR across diverse real-world domains including medicine, chemistry, psychology, economics, and education, where structured reference answers are typically unavailable. We reveal that binary verification judgments on broad-domain tasks exhibit high consistency across various LLMs provided expert-written reference answers exist. Motivated by this finding, we utilize a generative scoring technique that yields soft, model-based reward signals to overcome limitations posed by binary verifications, especially in free-form, unstructured answer scenarios. We further demonstrate the feasibility of training cross-domain generative reward models using relatively small (7B) LLMs without the need for extensive domain-specific annotation. Through comprehensive experiments, our RLVR framework establishes clear performance gains, significantly outperforming state-of-the-art open-source aligned models such as Qwen2.5-72B and DeepSeek-R1-Distill-Qwen-32B across domains in free-form settings. Our approach notably enhances the robustness, flexibility, and scalability of RLVR, representing a substantial step towards practical reinforcement learning applications in complex, noisy-label scenarios.

arxiv情報

著者 Yi Su,Dian Yu,Linfeng Song,Juntao Li,Haitao Mi,Zhaopeng Tu,Min Zhang,Dong Yu
発行日 2025-04-01 14:48:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains はコメントを受け付けていません