Interspatial Attention for Efficient 4D Human Video Generation

要約

デジタル人間のフォトリアリックなビデオを制御可能な方法で生成することは、多くのアプリケーションにとって重要です。
既存のアプローチは、テンプレートベースの3D表現を採用する方法または新興ビデオ生成モデルを使用するが、個々または複数のデジタル人間を生成する際に品質が低い、または限られた一貫性とアイデンティティの保存に悩まされています。
この論文では、最新の拡散トランス(DIT)ベースのビデオ生成モデルのスケーラブルなビルディングブロックとして、新しい宇宙間注意(ISA)メカニズムを紹介します。
ISAは、人間のビデオの生成に合わせて調整された相対的な位置エンコーディングを使用する新しいタイプのクロス注意です。
カスタム開発されたビデオバリエーションオートエンコーダーを活用して、ビデオデータの大きなコーパスで潜在的なISAベースの拡散モデルをトレーニングします。
私たちのモデルは、4Dヒューマンビデオ統合の最先端のパフォーマンスを実現し、カメラとボディポーズの​​正確な制御を提供しながら、顕著な動きの一貫性とアイデンティティの保存を示しています。
私たちのコードとモデルは、https://dsaurus.github.io/isa4d/で公開されています。

要約(オリジナル)

Generating photorealistic videos of digital humans in a controllable manner is crucial for a plethora of applications. Existing approaches either build on methods that employ template-based 3D representations or emerging video generation models but suffer from poor quality or limited consistency and identity preservation when generating individual or multiple digital humans. In this paper, we introduce a new interspatial attention (ISA) mechanism as a scalable building block for modern diffusion transformer (DiT)–based video generation models. ISA is a new type of cross attention that uses relative positional encodings tailored for the generation of human videos. Leveraging a custom-developed video variation autoencoder, we train a latent ISA-based diffusion model on a large corpus of video data. Our model achieves state-of-the-art performance for 4D human video synthesis, demonstrating remarkable motion consistency and identity preservation while providing precise control of the camera and body poses. Our code and model are publicly released at https://dsaurus.github.io/isa4d/.

arxiv情報

著者 Ruizhi Shao,Yinghao Xu,Yujun Shen,Ceyuan Yang,Yang Zheng,Changan Chen,Yebin Liu,Gordon Wetzstein
発行日 2025-05-21 17:53:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Interspatial Attention for Efficient 4D Human Video Generation はコメントを受け付けていません

STAR-R1: Spacial TrAnsformation Reasoning by Reinforcing Multimodal LLMs

要約

マルチモーダル大手言語モデル(MLLM)は、多様なタスク全体で顕著な能力を実証していますが、空間的推論では人間にかなり遅れています。
変換駆動型の視覚推論(TVR)を通じてこのギャップを調査します。これは、さまざまな視点で画像全体でオブジェクト変換を識別する必要がある挑戦的なタスクです。
従来の監視された微調整(SFT)は、クロスビュー設定でコヒーレントな推論パスを生成できませんが、スパースリワード補強学習(RL)は、非効率的な探索とゆっくりした収束に苦しんでいます。
これらの制限に対処するために、TVRに合わせて調整された細かい報酬メカニズムと単一段階のRLパラダイムを統合する新しいフレームワークであるStar-R1を提案します。
具体的には、STAR-R1は、過度の列挙と受動的不作為を罰し、効率的な調査と正確な推論を可能にしながら、部分的な正確性に報います。
包括的な評価は、STAR-R1が11のメトリックすべてで最先端のパフォーマンスを達成し、クロスビューシナリオでSFTを23%上回ることを示しています。
さらなる分析により、STAR-R1の擬人化された動作が明らかになり、空間推論を改善するためにすべてのオブジェクトを比較する独自の能力が強調されています。
私たちの仕事は、MLLMSと推論モデルの研究を進める上で重要な洞察を提供します。
コード、モデルの重み、およびデータは、https://github.com/zongzhao23/star-r1で公開されます。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities across diverse tasks, yet they lag significantly behind humans in spatial reasoning. We investigate this gap through Transformation-Driven Visual Reasoning (TVR), a challenging task requiring identification of object transformations across images under varying viewpoints. While traditional Supervised Fine-Tuning (SFT) fails to generate coherent reasoning paths in cross-view settings, sparse-reward Reinforcement Learning (RL) suffers from inefficient exploration and slow convergence. To address these limitations, we propose STAR-R1, a novel framework that integrates a single-stage RL paradigm with a fine-grained reward mechanism tailored for TVR. Specifically, STAR-R1 rewards partial correctness while penalizing excessive enumeration and passive inaction, enabling efficient exploration and precise reasoning. Comprehensive evaluations demonstrate that STAR-R1 achieves state-of-the-art performance across all 11 metrics, outperforming SFT by 23% in cross-view scenarios. Further analysis reveals STAR-R1’s anthropomorphic behavior and highlights its unique ability to compare all objects for improving spatial reasoning. Our work provides critical insights in advancing the research of MLLMs and reasoning models. The codes, model weights, and data will be publicly available at https://github.com/zongzhao23/STAR-R1.

arxiv情報

著者 Zongzhao Li,Zongyang Ma,Mingze Li,Songyou Li,Yu Rong,Tingyang Xu,Ziqi Zhang,Deli Zhao,Wenbing Huang
発行日 2025-05-21 17:57:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | STAR-R1: Spacial TrAnsformation Reasoning by Reinforcing Multimodal LLMs はコメントを受け付けていません

Symmetry-Robust 3D Orientation Estimation

要約

方向推定は、形状の方向軸を推定することで構成される3D形状分析の基本的なタスクです。
このデータを使用して、形状を正規の方向に回転させることができます。そこでは、その方向軸は座標軸に整列しています。
一般的な形状の完全な方向を確実に推定する方向アルゴリズムを開発することは、未解決の問題のままです。
上昇軸推定で最先端のパフォーマンスを達成する2段階の方向パイプラインを導入し、3つの方向軸すべてを求めるフルオリエンテーション推定でその有効性をさらに実証します。
以前の作業とは異なり、クラスのサブセットではなく、すべてのShapenetでメソッドをトレーニングおよび評価します。
私たちは、回転系対称形状の方向推定に対する基本的な障害を説明する理論によるエンジニアリングの貢献を動機付け、私たちの方法がこれらの障害を回避する方法を示します。

要約(オリジナル)

Orientation estimation is a fundamental task in 3D shape analysis which consists of estimating a shape’s orientation axes: its side-, up-, and front-axes. Using this data, one can rotate a shape into canonical orientation, where its orientation axes are aligned with the coordinate axes. Developing an orientation algorithm that reliably estimates complete orientations of general shapes remains an open problem. We introduce a two-stage orientation pipeline that achieves state of the art performance on up-axis estimation and further demonstrate its efficacy on full-orientation estimation, where one seeks all three orientation axes. Unlike previous work, we train and evaluate our method on all of Shapenet rather than a subset of classes. We motivate our engineering contributions by theory describing fundamental obstacles to orientation estimation for rotationally-symmetric shapes, and show how our method avoids these obstacles.

arxiv情報

著者 Christopher Scarvelis,David Benhaim,Paul Zhang
発行日 2025-05-21 17:57:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Symmetry-Robust 3D Orientation Estimation はコメントを受け付けていません

MMaDA: Multimodal Large Diffusion Language Models

要約

テキストの推論、マルチモーダル理解、テキストからイメージの生成などの多様なドメインで優れたパフォーマンスを実現するように設計されたマルチモーダル拡散基礎モデルの新しいクラスであるMMADAを紹介します。
このアプローチは、3つの重要なイノベーションによって区別されます。(i)Mmadaは、共有確率的定式化とモダリティに依存しない設計を備えた統一された拡散アーキテクチャを採用し、モダリティ固有のコンポーネントの必要性を排除します。
このアーキテクチャにより、さまざまなデータ型にわたるシームレスな統合と処理が保証されます。
(ii)モダリティ全体で統一されたCOT形式をキュレーションする混合された長い考え方(COT)微調整戦略を実装します。
テキストドメインとビジュアルドメイン間の推論プロセスを調整することにより、この戦略は最終補強学習(RL)段階のコールドスタートトレーニングを促進し、それにより、最初から複雑なタスクを処理するモデルの能力を高めます。
(iii)拡散基礎モデルに特化した統一されたポリシー勾配ベースのRLアルゴリズムであるUnigrpoを提案します。
多様化された報酬モデリングを利用して、Unigrpoは、推論と世代の両方のタスクにわたってトレーニング後に統合し、一貫したパフォーマンスの改善を確保します。
実験結果は、MMADA-8Bが統一されたマルチモーダルファンデーションモデルとして強力な一般化能力を示すことを示しています。
テキストの推論でLlama-3-7BやQWEN2-7Bなどの強力なモデルを上回り、マルチモーダル理解でShow-OとSeed-Xを上回り、テキストからイメージの生成でSDXLとJanusに優れています。
これらの成果は、統一された拡散アーキテクチャ内での事前トレーニングとトレーニング後のギャップを埋める際のMMADAの有効性を強調し、将来の研究開発のための包括的なフレームワークを提供します。
https://github.com/gen-verves/mmadaでコードとトレーニングモデルをオープンソースで囲みます

要約(オリジナル)

We introduce MMaDA, a novel class of multimodal diffusion foundation models designed to achieve superior performance across diverse domains such as textual reasoning, multimodal understanding, and text-to-image generation. The approach is distinguished by three key innovations: (i) MMaDA adopts a unified diffusion architecture with a shared probabilistic formulation and a modality-agnostic design, eliminating the need for modality-specific components. This architecture ensures seamless integration and processing across different data types. (ii) We implement a mixed long chain-of-thought (CoT) fine-tuning strategy that curates a unified CoT format across modalities. By aligning reasoning processes between textual and visual domains, this strategy facilitates cold-start training for the final reinforcement learning (RL) stage, thereby enhancing the model’s ability to handle complex tasks from the outset. (iii) We propose UniGRPO, a unified policy-gradient-based RL algorithm specifically tailored for diffusion foundation models. Utilizing diversified reward modeling, UniGRPO unifies post-training across both reasoning and generation tasks, ensuring consistent performance improvements. Experimental results demonstrate that MMaDA-8B exhibits strong generalization capabilities as a unified multimodal foundation model. It surpasses powerful models like LLaMA-3-7B and Qwen2-7B in textual reasoning, outperforms Show-o and SEED-X in multimodal understanding, and excels over SDXL and Janus in text-to-image generation. These achievements highlight MMaDA’s effectiveness in bridging the gap between pretraining and post-training within unified diffusion architectures, providing a comprehensive framework for future research and development. We open-source our code and trained models at: https://github.com/Gen-Verse/MMaDA

arxiv情報

著者 Ling Yang,Ye Tian,Bowen Li,Xinchen Zhang,Ke Shen,Yunhai Tong,Mengdi Wang
発行日 2025-05-21 17:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MMaDA: Multimodal Large Diffusion Language Models はコメントを受け付けていません

GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents

要約

最近のグラフィカルユーザーインターフェイス(GUI)エージェントは、R1-Zeroパラダイムを複製し、オブジェクトの接地前に明示的なチェーンの推論を備えたオンライン補強学習(RL)を結合し、それによってかなりのパフォーマンスの向上を達成します。
この論文では、最初に、そのトレーニングパイプラインの3つの重要なコンポーネントの広範な分析実験を実施します。入力設計、出力評価、およびPolicy Updateは、GUI接地タスクに適応せずに汎用RLを盲目的に適用することから生じる明確な課題を明らかにします。
入力設計:現在のテンプレートは、モデルが考えられたチェーンの推論を生成するよう奨励しますが、長いチェーンは予期せずに接地パフォーマンスが悪化します。
出力評価:ヒット信号またはボックスエリアに基づく報酬関数により、モデルはボックスサイズを活用し、報酬のハッキングとローカリゼーションの品質が低下します。
ポリシーの更新:オンラインRLは、長さのバイアスとサンプルの難易度のために簡単な例にぴったりである傾向があり、より困難なケースで最適化されていない。
これらの問題に対処するために、3つのターゲットを絞ったソリューションを提案します。
まず、直接的な回答生成を促進する高速思考テンプレートを採用し、トレーニング中の過度の推論を減らします。
第二に、報酬ハッキングを緩和するために、報酬関数にボックスサイズの制約を組み込みます。
第三に、長さの正規化を調整し、難易度に合ったスケーリング係数を追加し、ハードサンプルの最適化を改善できるようにすることにより、RLの目的を修正します。
GUI-G1-3Bは、QWEN2.5-VL-3B-Instructで17Kの公共サンプルで訓練されており、Screenspotで90.3%の精度、Screenspot-Proで37.1%を達成します。
これは、同様のサイズのすべての以前のモデルを上回り、さらに大きなUI-TARS-7Bを上回り、GUIエージェントの接地で新しい最先端の接地を確立します。
プロジェクトリポジトリは、https://github.com/yuqi-zhou/gui-g1で入手できます。

要約(オリジナル)

Recent Graphical User Interface (GUI) agents replicate the R1-Zero paradigm, coupling online Reinforcement Learning (RL) with explicit chain-of-thought reasoning prior to object grounding and thereby achieving substantial performance gains. In this paper, we first conduct extensive analysis experiments of three key components of that training pipeline: input design, output evaluation, and policy update-each revealing distinct challenges arising from blindly applying general-purpose RL without adapting to GUI grounding tasks. Input design: Current templates encourage the model to generate chain-of-thought reasoning, but longer chains unexpectedly lead to worse grounding performance. Output evaluation: Reward functions based on hit signals or box area allow models to exploit box size, leading to reward hacking and poor localization quality. Policy update: Online RL tends to overfit easy examples due to biases in length and sample difficulty, leading to under-optimization on harder cases. To address these issues, we propose three targeted solutions. First, we adopt a Fast Thinking Template that encourages direct answer generation, reducing excessive reasoning during training. Second, we incorporate a box size constraint into the reward function to mitigate reward hacking. Third, we revise the RL objective by adjusting length normalization and adding a difficulty-aware scaling factor, enabling better optimization on hard samples. Our GUI-G1-3B, trained on 17K public samples with Qwen2.5-VL-3B-Instruct, achieves 90.3% accuracy on ScreenSpot and 37.1% on ScreenSpot-Pro. This surpasses all prior models of similar size and even outperforms the larger UI-TARS-7B, establishing a new state-of-the-art in GUI agent grounding. The project repository is available at https://github.com/Yuqi-Zhou/GUI-G1.

arxiv情報

著者 Yuqi Zhou,Sunhao Dai,Shuai Wang,Kaiwen Zhou,Qinqlin Jia,Junxu
発行日 2025-05-21 17:59:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents はコメントを受け付けていません

Leveraging the Powerful Attention of a Pre-trained Diffusion Model for Exemplar-based Image Colorization

要約

模範ベースの画像色付けは、参照色の画像を使用してグレースケール画像を色付けし、セマンティックな類似性に基づいて対応する入力領域に参照色が適用されるようにすることを目的としています。
地域間の正確なセマンティックマッチングを実現するために、大規模なデータセットでトレーニングされ、強力な注意能力を示す事前に訓練された拡散モデルの自己触媒モジュールを活用します。
この力を活用するために、事前に訓練された拡散モデルに基づいて、2つの重要な貢献をしている斬新で微調整フリーのアプローチを提案します。
まず、デュアルな注意ガイド色の色伝達を紹介します。
自己関節モジュールを利用して、入力画像と参照画像の間に注意マップを計算し、セマンティック対応を効果的にキャプチャします。
参照画像の色の特徴は、この注意マップに導かれて、入力画像の意味的に一致する領域に転送され、最後に、グレースケール機能は対応する色の特徴に置き換えられます。
特に、グレースケールとカラー画像の注意マップを個別に計算するために二重の注意を利用して、より正確なセマンティックアライメントを実現します。
第二に、分類剤を含まない色化ガイダンスを提案します。これは、色伝達された出力と非カラー移動出力を組み合わせて転送された色を強化することを提案します。
このプロセスは、色付けの品質を向上させます。
私たちの実験結果は、私たちの方法が、画質と参照の忠実度の観点から既存の手法よりも優れていることを示しています。
具体的には、以前の研究から335の入力参照ペアを使用し、95.27(画質)と5.51のSI-FID(参照の忠実度)のFIDを達成します。
ソースコードは、https://github.com/satoshi-kosugi/powerful-attentionで入手できます。

要約(オリジナル)

Exemplar-based image colorization aims to colorize a grayscale image using a reference color image, ensuring that reference colors are applied to corresponding input regions based on their semantic similarity. To achieve accurate semantic matching between regions, we leverage the self-attention module of a pre-trained diffusion model, which is trained on a large dataset and exhibits powerful attention capabilities. To harness this power, we propose a novel, fine-tuning-free approach based on a pre-trained diffusion model, making two key contributions. First, we introduce dual attention-guided color transfer. We utilize the self-attention module to compute an attention map between the input and reference images, effectively capturing semantic correspondences. The color features from the reference image is then transferred to the semantically matching regions of the input image, guided by this attention map, and finally, the grayscale features are replaced with the corresponding color features. Notably, we utilize dual attention to calculate attention maps separately for the grayscale and color images, achieving more precise semantic alignment. Second, we propose classifier-free colorization guidance, which enhances the transferred colors by combining color-transferred and non-color-transferred outputs. This process improves the quality of colorization. Our experimental results demonstrate that our method outperforms existing techniques in terms of image quality and fidelity to the reference. Specifically, we use 335 input-reference pairs from previous research, achieving an FID of 95.27 (image quality) and an SI-FID of 5.51 (fidelity to the reference). Our source code is available at https://github.com/satoshi-kosugi/powerful-attention.

arxiv情報

著者 Satoshi Kosugi
発行日 2025-05-21 17:59:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Leveraging the Powerful Attention of a Pre-trained Diffusion Model for Exemplar-based Image Colorization はコメントを受け付けていません

A Taxonomy of Structure from Motion Methods

要約

構造からの構造(SFM)とは、複数の画像のポイント対応から始まる構造(つまり、シーン内のポイントの3D座標)と動き(つまりカメラマトリックス)を回復する問題を指します。
それは長年にわたって大きな注目を集めており、実用的な再建パイプラインと理論的結果を数えています。
この論文は、SFMメソッドの概念的なレビューとして考案されており、3つの主要なカテゴリにグループ化されています。これは、問題の一部(動きと構造の間)に焦点を当てています。
提案された分類法は、既存のSFMアプローチに関する新しい視点と、未解決の問題と将来の研究の方向性に関する洞察をもたらします。
SFMを適切にもたらす理論的条件を特定することに特に重点が置かれています。これは、考慮されている問題の定式化に依存します。

要約(オリジナル)

Structure from Motion (SfM) refers to the problem of recovering both structure (i.e., 3D coordinates of points in the scene) and motion (i.e., camera matrices) starting from point correspondences in multiple images. It has attracted significant attention over the years, counting practical reconstruction pipelines as well as theoretical results. This paper is conceived as a conceptual review of SfM methods, which are grouped into three main categories, according to which part of the problem – between motion and structure – they focus on. The proposed taxonomy brings a new perspective on existing SfM approaches as well as insights into open problems and possible future research directions. Particular emphasis is given on identifying the theoretical conditions that make SfM well posed, which depend on the problem formulation that is being considered.

arxiv情報

著者 Federica Arrigoni
発行日 2025-05-21 17:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Taxonomy of Structure from Motion Methods はコメントを受け付けていません

Streamline Without Sacrifice — Squeeze out Computation Redundancy in LMM

要約

大規模なマルチモーダルモデルはマルチモーダルタスクに優れていますが、視覚トークンでの過剰な計算により、重要な計算上の課題に直面しています。
トークンレベルの冗長性に焦点を当てたトークン削減方法とは異なり、情報の損失を確保するために、ビジョントークンの計算レベルの冗長性を特定して研究します。
私たちの重要な洞察は、事前に守られたビジョンエンコーダーからのビジョントークンでは、デコーダーのみのLMMSのすべての重い操作(自己関節、FFN)を必要とし、適切な設計でより軽く処理できるということです。
視力関連の計算冗長性を発見し、徐々に絞り出すための一連の実験を設計しました。
調査結果に基づいて、プロキシビジョントークンを利用して元のビジョントークンの計算負担を軽減する新しいアプローチであるProxyVを提案します。
ProxyVは、パフォーマンスを損なうことなく効率を向上させ、より緩やかな効率改善により、シナリオで顕著なパフォーマンスの向上をもたらすことさえできます。
さらに、ProxyVの柔軟性は、トークン削減方法との組み合わせにより、効率をさらに高めることで実証されています。
このコードは、このhttps://github.com/penghao-wu/proxyv urlで公開されます。

要約(オリジナル)

Large multimodal models excel in multimodal tasks but face significant computational challenges due to excessive computation on visual tokens. Unlike token reduction methods that focus on token-level redundancy, we identify and study the computation-level redundancy on vision tokens to ensure no information loss. Our key insight is that vision tokens from the pretrained vision encoder do not necessarily require all the heavy operations (e.g., self-attention, FFNs) in decoder-only LMMs and could be processed more lightly with proper designs. We designed a series of experiments to discover and progressively squeeze out the vision-related computation redundancy. Based on our findings, we propose ProxyV, a novel approach that utilizes proxy vision tokens to alleviate the computational burden on original vision tokens. ProxyV enhances efficiency without compromising performance and can even yield notable performance gains in scenarios with more moderate efficiency improvements. Furthermore, the flexibility of ProxyV is demonstrated through its combination with token reduction methods to boost efficiency further. The code will be made public at this https://github.com/penghao-wu/ProxyV URL.

arxiv情報

著者 Penghao Wu,Lewei Lu,Ziwei Liu
発行日 2025-05-21 17:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Streamline Without Sacrifice — Squeeze out Computation Redundancy in LMM はコメントを受け付けていません

InstructSAM: A Training-Free Framework for Instruction-Oriented Remote Sensing Object Recognition

要約

リモートセンシング画像における言語誘導オブジェクト認識は、大規模なマッピングと自動データアノテーションに不可欠です。
ただし、既存のオープンボキャブラリーおよび視覚的接地方法は、明示的なカテゴリの手がかりに依存しており、高度な推論を必要とする複雑または暗黙のクエリを処理する能力を制限します。
この問題に対処するために、命令指向のオブジェクトカウント、検出、セグメンテーション(InstructCDS)などの新しいタスクを紹介し、オープンポンシャル、オープンエンド、およびオープンサブカラスのシナリオをカバーします。
さらに、地球観測のための最初のinstantCDSベンチマークであるEarthinstructを提示します。
これは、20のカテゴリでさまざまな空間解像度と注釈ルールを備えた2つの多様なリモートセンシングデータセットから構築されているため、データセット固有の命令を解釈するモデルが必要です。
リモートセンシングにおける意味的に豊富なラベル付きデータの希少性を考えると、命令駆動型のオブジェクト認識のためのトレーニングなしのフレームワークであるInstructsamを提案します。
Instructsamは、大規模なビジョン言語モデルを活用してユーザー命令を解釈し、オブジェクトカウントを推定し、Mask ProposalにSAM2を採用し、Mask-Labelの割り当てをバイナリ整数プログラミングの問題として策定します。
セマンティックの類似性をカウント制約と統合することにより、Instructsamは、信頼のしきい値に依存することなく、カテゴリを予測マスクに効率的に割り当てます。
実験は、instructsamがオブジェクトカウントに関係なく、ほぼ直後の推論時間を維持しながら、複数のタスクにわたって特殊なベースラインを一致または上回ることを示しています。
提案されたタスク、ベンチマーク、および効果的なアプローチの貢献は、汎用性の高いオブジェクト認識システムの開発における将来の研究を進めると考えています。

要約(オリジナル)

Language-Guided object recognition in remote sensing imagery is crucial for large-scale mapping and automated data annotation. However, existing open-vocabulary and visual grounding methods rely on explicit category cues, limiting their ability to handle complex or implicit queries that require advanced reasoning. To address this issue, we introduce a new suite of tasks, including Instruction-Oriented Object Counting, Detection, and Segmentation (InstructCDS), covering open-vocabulary, open-ended, and open-subclass scenarios. We further present EarthInstruct, the first InstructCDS benchmark for earth observation. It is constructed from two diverse remote sensing datasets with varying spatial resolutions and annotation rules across 20 categories, necessitating models to interpret dataset-specific instructions. Given the scarcity of semantically rich labeled data in remote sensing, we propose InstructSAM, a training-free framework for instruction-driven object recognition. InstructSAM leverages large vision-language models to interpret user instructions and estimate object counts, employs SAM2 for mask proposal, and formulates mask-label assignment as a binary integer programming problem. By integrating semantic similarity with counting constraints, InstructSAM efficiently assigns categories to predicted masks without relying on confidence thresholds. Experiments demonstrate that InstructSAM matches or surpasses specialized baselines across multiple tasks while maintaining near-constant inference time regardless of object count, reducing output tokens by 89% and overall runtime by over 32% compared to direct generation approaches. We believe the contributions of the proposed tasks, benchmark, and effective approach will advance future research in developing versatile object recognition systems.

arxiv情報

著者 Yijie Zheng,Weijie Wu,Qingyun Li,Xuehui Wang,Xu Zhou,Aiai Ren,Jun Shen,Long Zhao,Guoqing Li,Xue Yang
発行日 2025-05-21 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | InstructSAM: A Training-Free Framework for Instruction-Oriented Remote Sensing Object Recognition はコメントを受け付けていません

General-Reasoner: Advancing LLM Reasoning Across All Domains

要約

強化学習(RL)は最近、大規模な言語モデル(LLM)の推論能力を高める上で強い可能性を実証しました。
特に、DeepSeek-R1-Zeroによって導入された「ゼロ」強化学習により、中間の監視付き微調整段階に依存することなく、ベースLLMの直接RLトレーニングが可能になります。
これらの進歩にもかかわらず、LLMの推論の現在の作業は、主にデータの豊富さと回答検証の容易さが原因で、主に数学的およびコーディングドメインに焦点を当てています。
これにより、そのようなモデルの適用性と一般化がより広範なドメインに制限されます。このドメインでは、質問には多様な回答表現があり、データはより少ないです。
この論文では、多様なドメイン全体のLLM推論能力を強化するために設計された新しいトレーニングパラダイムである一般的な季節を提案します。
私たちの重要な貢献には、次のものが含まれます。(1)幅広い分野をカバーするWebクローリングによってキュレーションされた検証可能な回答を含む、質問の大規模で高品質のデータセットの構築。
(2)伝統的なルールベースの検証を、考え方と文脈の認識の能力に置き換える生成モデルベースの回答検証を開発する。
一連のモデルをトレーニングし、物理学、化学、金融、電子機器などの広いドメインをカバーする幅広いデータセットでそれらを評価します。これらの12のベンチマークにわたる包括的な評価(例:MMLU-PRO、GPQA、SuperGPQA、Theoremqa、BBEH、MATH AMの一般的なパフォーマンスを維持する一般的なraseferingのパフォーマンスを実証していることが示されています。
数学的推論タスクにおける有効性。

要約(オリジナル)

Reinforcement learning (RL) has recently demonstrated strong potential in enhancing the reasoning capabilities of large language models (LLMs). Particularly, the ‘Zero’ reinforcement learning introduced by Deepseek-R1-Zero, enables direct RL training of base LLMs without relying on an intermediate supervised fine-tuning stage. Despite these advancements, current works for LLM reasoning mainly focus on mathematical and coding domains, largely due to data abundance and the ease of answer verification. This limits the applicability and generalization of such models to broader domains, where questions often have diverse answer representations, and data is more scarce. In this paper, we propose General-Reasoner, a novel training paradigm designed to enhance LLM reasoning capabilities across diverse domains. Our key contributions include: (1) constructing a large-scale, high-quality dataset of questions with verifiable answers curated by web crawling, covering a wide range of disciplines; and (2) developing a generative model-based answer verifier, which replaces traditional rule-based verification with the capability of chain-of-thought and context-awareness. We train a series of models and evaluate them on a wide range of datasets covering wide domains like physics, chemistry, finance, electronics etc. Our comprehensive evaluation across these 12 benchmarks (e.g. MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH and MATH AMC) demonstrates that General-Reasoner outperforms existing baseline methods, achieving robust and generalizable reasoning performance while maintaining superior effectiveness in mathematical reasoning tasks.

arxiv情報

著者 Xueguang Ma,Qian Liu,Dongfu Jiang,Ge Zhang,Zejun Ma,Wenhu Chen
発行日 2025-05-21 17:55:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | General-Reasoner: Advancing LLM Reasoning Across All Domains はコメントを受け付けていません