ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

要約

推論中心の言語モデルの最近の進歩により、強化学習(RL)は、検証可能な報酬を備えたモデルを整合するための有望な方法として強調されています。
ただし、RLがモデルの推論機能を真に拡大するのか、単に基本モデルの分布ですでに潜在的な高報酬出力を増幅するかどうか、およびRLの計算が確実に推論パフォーマンスの改善につながるかどうかは、単に高報酬の出力を単に増幅するかどうかは論争の余地があります。
この作業では、長期にわたるRL(PRORL)トレーニングが、広範なサンプリング中であっても、ベースモデルにはアクセスできない新しい推論戦略を明らかにすることができることを実証することにより、一般的な仮定に挑戦します。
KL Divergence Control、参照ポリシーのリセット、および多様なタスクスイートを組み込んだ新しいトレーニング方法論であるProrlを紹介します。
経験的分析により、RLトレーニングモデルは、試行回数に関係なくベースモデルが完全に失敗するシナリオを含む、広範囲のパス@K評価でベースモデルを一貫して上回ることが明らかになりました。
さらに、推論境界の改善が基本モデルのタスク能力とトレーニング期間のタスク能力と強く相関していることを示し、RLがソリューションスペースの新しい領域を長期にわたって探索して埋めることができることを示唆しています。
これらの調査結果は、RLが言語モデルの推論境界を有意に拡大し、推論のために将来の作業の基盤を確立する条件に関する新しい洞察を提供します。
さらなる研究をサポートするためにモデルの重みをリリースします:https://huggingface.co/nvidia/nemotron-research-rasinoning-qwen-1.5b

要約(オリジナル)

Recent advances in reasoning-centric language models have highlighted reinforcement learning (RL) as a promising method for aligning models with verifiable rewards. However, it remains contentious whether RL truly expands a model’s reasoning capabilities or merely amplifies high-reward outputs already latent in the base model’s distribution, and whether continually scaling up RL compute reliably leads to improved reasoning performance. In this work, we challenge prevailing assumptions by demonstrating that prolonged RL (ProRL) training can uncover novel reasoning strategies that are inaccessible to base models, even under extensive sampling. We introduce ProRL, a novel training methodology that incorporates KL divergence control, reference policy resetting, and a diverse suite of tasks. Our empirical analysis reveals that RL-trained models consistently outperform base models across a wide range of pass@k evaluations, including scenarios where base models fail entirely regardless of the number of attempts. We further show that reasoning boundary improvements correlates strongly with task competence of base model and training duration, suggesting that RL can explore and populate new regions of solution space over time. These findings offer new insights into the conditions under which RL meaningfully expands reasoning boundaries in language models and establish a foundation for future work on long-horizon RL for reasoning. We release model weights to support further research: https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B

arxiv情報

著者 Mingjie Liu,Shizhe Diao,Ximing Lu,Jian Hu,Xin Dong,Yejin Choi,Jan Kautz,Yi Dong
発行日 2025-05-30 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models はコメントを受け付けていません

HEIE: MLLM-Based Hierarchical Explainable AIGC Image Implausibility Evaluator

要約

AIGC画像はさまざまな分野で普及していますが、アーティファクトや不自然なテクスチャなどの質の高い問題に頻繁に苦しんでいます。
専門モデルは、欠陥領域のヒートマップを予測することを目的としていますが、2つの主要な課題に直面しています。(1)説明可能性の欠如、微妙な欠陥の理由と分析を提供できないこと、(2)一般化と論理的推論を活用できない、一般化が不十分です。
マルチモーダル大手言語モデル(MLLMS)は、より良い理解と推論を約束しますが、独自の課題に直面しています。(1)細かい詳細をキャプチャする際の制限により、きめ細かい欠陥の局在化の難しさ、および(2)正確なヒートマップ生成に必要なピクセルごとの出力を提供する際の制約。
これらの課題に対処するために、HEIE:新しいMLLMベースの階層的説明可能な画像不信心性評価者を提案します。
COT駆動の説明可能なTrinity Evaluatorを紹介します。これは、ヒートマップ、スコア、および説明出力を統合し、COTを使用して複雑なタスクを分解し、難易度を高め、解釈可能性を高めるサブタスクに分解します。
当社の適応階層的な不機嫌性マッパーは、LLMSの高レベルのマッパートークンを使用して低レベルの画像機能を相乗的に相乗し、不確実性に基づく適応トークンアプローチを通じて、局所的な階層ヒートマップ予測を正確に可能にします。
さらに、AIGC画像の解釈可能な不機嫌性評価を促進するように設計された新しいデータセット:expl-aigi-valを提案します。
私たちの方法は、広範な実験を通じて最先端のパフォーマンスを示しています。
私たちのプロジェクトはhttps://yfthu.github.io/heie/にあります。

要約(オリジナル)

AIGC images are prevalent across various fields, yet they frequently suffer from quality issues like artifacts and unnatural textures. Specialized models aim to predict defect region heatmaps but face two primary challenges: (1) lack of explainability, failing to provide reasons and analyses for subtle defects, and (2) inability to leverage common sense and logical reasoning, leading to poor generalization. Multimodal large language models (MLLMs) promise better comprehension and reasoning but face their own challenges: (1) difficulty in fine-grained defect localization due to the limitations in capturing tiny details, and (2) constraints in providing pixel-wise outputs necessary for precise heatmap generation. To address these challenges, we propose HEIE: a novel MLLM-Based Hierarchical Explainable Image Implausibility Evaluator. We introduce the CoT-Driven Explainable Trinity Evaluator, which integrates heatmaps, scores, and explanation outputs, using CoT to decompose complex tasks into subtasks of increasing difficulty and enhance interpretability. Our Adaptive Hierarchical Implausibility Mapper synergizes low-level image features with high-level mapper tokens from LLMs, enabling precise local-to-global hierarchical heatmap predictions through an uncertainty-based adaptive token approach. Moreover, we propose a new dataset: Expl-AIGI-Eval, designed to facilitate interpretable implausibility evaluation of AIGC images. Our method demonstrates state-of-the-art performance through extensive experiments. Our project is at https://yfthu.github.io/HEIE/.

arxiv情報

著者 Fan Yang,Ru Zhen,Jianing Wang,Yanhao Zhang,Haoxiang Chen,Haonan Lu,Sicheng Zhao,Guiguang Ding
発行日 2025-05-30 15:15:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | HEIE: MLLM-Based Hierarchical Explainable AIGC Image Implausibility Evaluator はコメントを受け付けていません

Conformal Prediction for Zero-Shot Models

要約

大規模に事前に訓練されたビジョン言語モデルは、下流タスクに対する前例のない適応性と一般化を示しています。
その差別的可能性は広く調査されていますが、その信頼性と不確実性はまだ見落とされています。
この作業では、スプリットコンフォーマル予測パラダイムの下でクリップモデルの機能を調査します。これは、小さなラベル付きのキャリブレーションセットに基づいて、ブラックボックスモデルに理論的保証を提供します。
視力分類器のコンフォーマル予測因子に関する文献の本体とは対照的に、基礎モデルは特定の特徴を示します。それらは、転送されたタスクとは異なるアクセスできないソースドメインで1回限りの訓練を受けています。
このドメインドリフトは、コンフォーマルセットの効率に悪影響を及ぼし、追加の課題をもたらします。
この問題を軽減するために、Conf-OTを提案します。これは、校正セットとクエリセットを順に導入する転送学習設定であることを提案します。
最適な輸送の問題を解決すると、提案された方法は、追加のデータ分割を必要とせずにトレーニング前と適応の間のドメインギャップを埋めますが、カバレッジ保証を維持します。
15のデータセットと3つの不適合スコアの広いスパンで、このコンフォーマル予測戦略を包括的に調査します。
conf-otは、一般的なトランスダクティブアプローチの15倍高速である一方で、セット効率で最大20%の一貫した相対的な改善を提供します。

要約(オリジナル)

Vision-language models pre-trained at large scale have shown unprecedented adaptability and generalization to downstream tasks. Although its discriminative potential has been widely explored, its reliability and uncertainty are still overlooked. In this work, we investigate the capabilities of CLIP models under the split conformal prediction paradigm, which provides theoretical guarantees to black-box models based on a small, labeled calibration set. In contrast to the main body of literature on conformal predictors in vision classifiers, foundation models exhibit a particular characteristic: they are pre-trained on a one-time basis on an inaccessible source domain, different from the transferred task. This domain drift negatively affects the efficiency of the conformal sets and poses additional challenges. To alleviate this issue, we propose Conf-OT, a transfer learning setting that operates transductive over the combined calibration and query sets. Solving an optimal transport problem, the proposed method bridges the domain gap between pre-training and adaptation without requiring additional data splits but still maintaining coverage guarantees. We comprehensively explore this conformal prediction strategy on a broad span of 15 datasets and three non-conformity scores. Conf-OT provides consistent relative improvements of up to 20% on set efficiency while being 15 times faster than popular transductive approaches.

arxiv情報

著者 Julio Silva-Rodríguez,Ismail Ben Ayed,Jose Dolz
発行日 2025-05-30 15:16:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Conformal Prediction for Zero-Shot Models はコメントを受け付けていません

Adversarial Pruning: A Survey and Benchmark of Pruning Methods for Adversarial Robustness

要約

最近の研究では、ネットワークのサイズを縮小しながら、敵対的な例、つまり誤分類を誘発する適切に作成された入力を維持しながら、ネットワークのサイズを縮小するためのニューラルネットワークの剪定技術を提案しています。
これらの方法は、敵対的な剪定方法と呼ばれ、複雑で明確な設計を伴い、違いを分析し、公正かつ正確な比較を確立することを困難にします。
この作業では、現在の敵対的な剪定方法を調査し、2つの主要な側面に基づいて分類する新しい分類法を提案することにより、これらの問題を克服します。
そして詳細、剪定方法を定義します。
次に、現在の経験的分析の制限を強調し、それらに対処するための新しい公正な評価ベンチマークを提案します。
私たちは最終的に、現在の敵対的な剪定方法の経験的な再評価を実施し、結果を議論し、トップパフォーマンスの敵対的な剪定方法の共有特性と一般的な問題を強調します。
https://github.com/pralab/adversarialpruningbenchmarkで、公開されているベンチマークでの貢献を歓迎します

要約(オリジナル)

Recent work has proposed neural network pruning techniques to reduce the size of a network while preserving robustness against adversarial examples, i.e., well-crafted inputs inducing a misclassification. These methods, which we refer to as adversarial pruning methods, involve complex and articulated designs, making it difficult to analyze the differences and establish a fair and accurate comparison. In this work, we overcome these issues by surveying current adversarial pruning methods and proposing a novel taxonomy to categorize them based on two main dimensions: the pipeline, defining when to prune; and the specifics, defining how to prune. We then highlight the limitations of current empirical analyses and propose a novel, fair evaluation benchmark to address them. We finally conduct an empirical re-evaluation of current adversarial pruning methods and discuss the results, highlighting the shared traits of top-performing adversarial pruning methods, as well as common issues. We welcome contributions in our publicly-available benchmark at https://github.com/pralab/AdversarialPruningBenchmark

arxiv情報

著者 Giorgio Piras,Maura Pintor,Ambra Demontis,Battista Biggio,Giorgio Giacinto,Fabio Roli
発行日 2025-05-30 15:21:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG | Adversarial Pruning: A Survey and Benchmark of Pruning Methods for Adversarial Robustness はコメントを受け付けていません

PatchDEMUX: A Certifiably Robust Framework for Multi-label Classifiers Against Adversarial Patches

要約

ディープラーニング技術により、コンピュータービジョンテクノロジーの大幅な改善が可能になりました。
それにもかかわらず、これらのモデルは、壊滅的なパフォーマンスを損なう敵対的なパッチ攻撃に対して脆弱です。
これらの攻撃の物理的に実現可能な性質は、堅牢性に関する証明された保証を特徴とする認証可能な防御を求めています。
認定可能な防御は単一ラベル分類に成功裏に適用されていますが、マルチラベル分類のために制限された作業が行われています。
この作業では、敵対的なパッチに対するマルチラベル分類器のための証明的に堅牢なフレームワークであるPatchDemuxを提示します。
私たちのアプローチは、単一ラベル分類のために既存の認証可能な防御を拡張できる一般化可能な方法です。
これは、マルチラベル分類タスクを一連の孤立したバイナリ分類問題と見なすことで行われ、堅牢性を証明することを証明します。
さらに、攻撃者が単一のパッチに制限されているシナリオでは、堅牢性の範囲をより強く提供できる追加の認証手順を提案します。
現在の最先端の(SOTA)シングルラベル認証可能な防衛Patchcleanserをバックボーンとして使用して、PatchDemuxはMS-COCOおよびPascal VOCデータセットで非自明の堅牢性を達成できることがわかりました。

要約(オリジナル)

Deep learning techniques have enabled vast improvements in computer vision technologies. Nevertheless, these models are vulnerable to adversarial patch attacks which catastrophically impair performance. The physically realizable nature of these attacks calls for certifiable defenses, which feature provable guarantees on robustness. While certifiable defenses have been successfully applied to single-label classification, limited work has been done for multi-label classification. In this work, we present PatchDEMUX, a certifiably robust framework for multi-label classifiers against adversarial patches. Our approach is a generalizable method which can extend any existing certifiable defense for single-label classification; this is done by considering the multi-label classification task as a series of isolated binary classification problems to provably guarantee robustness. Furthermore, in the scenario where an attacker is limited to a single patch we propose an additional certification procedure that can provide tighter robustness bounds. Using the current state-of-the-art (SOTA) single-label certifiable defense PatchCleanser as a backbone, we find that PatchDEMUX can achieve non-trivial robustness on the MS-COCO and PASCAL VOC datasets while maintaining high clean performance

arxiv情報

著者 Dennis Jacob,Chong Xiang,Prateek Mittal
発行日 2025-05-30 15:25:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG | PatchDEMUX: A Certifiably Robust Framework for Multi-label Classifiers Against Adversarial Patches はコメントを受け付けていません

RT-X Net: RGB-Thermal cross attention network for Low-Light Image Enhancement

要約

夜間の状態では、高い騒音レベルと明るい照明ソースが画質を分解し、低光の画像強化を困難にします。
サーマル画像は補完的な情報を提供し、より豊かなテクスチャと構造の詳細を提供します。
夜間の画像強化のためにRGBとサーマルイメージを融合するクロスアテンションネットワークであるRT-X Netを提案します。
特徴抽出のための自己関節ネットワークを活用し、融合の分析メカニズムを活用して、両方のモダリティから情報を効果的に統合します。
このドメインでの研究をサポートするために、多様な夜間条件下でキャプチャされた50の共同配置された可視画像とサーマル画像を含む可視イメージエンハンスメント評価(V-TIEE)データセットを紹介します。
公開されているLLVIPデータセットとV-Tieeデータセットに関する広範な評価は、RT-X Netが低光度画像強化の最先端の方法を上回ることを示しています。
コードとV-Tieeは、https://github.com/jhakrraman/rt-xnetにあります。

要約(オリジナル)

In nighttime conditions, high noise levels and bright illumination sources degrade image quality, making low-light image enhancement challenging. Thermal images provide complementary information, offering richer textures and structural details. We propose RT-X Net, a cross-attention network that fuses RGB and thermal images for nighttime image enhancement. We leverage self-attention networks for feature extraction and a cross-attention mechanism for fusion to effectively integrate information from both modalities. To support research in this domain, we introduce the Visible-Thermal Image Enhancement Evaluation (V-TIEE) dataset, comprising 50 co-located visible and thermal images captured under diverse nighttime conditions. Extensive evaluations on the publicly available LLVIP dataset and our V-TIEE dataset demonstrate that RT-X Net outperforms state-of-the-art methods in low-light image enhancement. The code and the V-TIEE can be found here https://github.com/jhakrraman/rt-xnet.

arxiv情報

著者 Raman Jha,Adithya Lenka,Mani Ramanagopal,Aswin Sankaranarayanan,Kaushik Mitra
発行日 2025-05-30 15:26:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RT-X Net: RGB-Thermal cross attention network for Low-Light Image Enhancement はコメントを受け付けていません

Reinforcing Video Reasoning with Focused Thinking

要約

特にグループ相対政策最適化(GRPO)を通じて、強化学習の最近の進歩により、複雑な推論タスクのためにマルチモーダルの大規模な言語モデルが大幅に改善されました。
ただし、2つの重大な制限が持続します。1)しばしば、顕著な空間的な手がかりを曖昧にする焦点を絞らず、冗長推論チェーンを生成し、2)バイナリの報酬は部分的に正しい答えを説明できず、高い報酬の分散と非効率的な学習をもたらします。
この論文では、焦点を絞った思考と密度の高い報酬の粒度を備えた視覚的推論を強化する新しいフレームワークであるTw-grpoを提案します。
具体的には、情報密度が高いトークン(グループ内の分散により推定)を優先するトークン重み付けメカニズムを使用して、一般的な推論上のプレフィックスのような冗長トークンを抑制します。
さらに、シングル選択からマルチ選択QAタスクにシフトすることにより、RLトレーニングを再定式化します。この場合、ソフトリワードにより、部分的な正確性を区別することにより、より細かい勾配の勾配推定が可能になります。
さらに、既存のベンチマークから多様なマルチ選択サンプルを生成するためのデータ増強戦略である質問回答の反転を提案します。
実験は、いくつかのビデオ推論と一般的な理解ベンチマークで最先端のパフォーマンスを示しています。
特に、TW-GRPOは、Clevrerで50.4 \%の精度(Video-R1よりも18.8 \%改善)、MMVUで65.8 \%を達成します。
私たちのコードは、\ href {https://github.com/longmalongma/tw-grpo} {https://github.com/longmalongma/tw-grpoで入手できます。

要約(オリジナル)

Recent advancements in reinforcement learning, particularly through Group Relative Policy Optimization (GRPO), have significantly improved multimodal large language models for complex reasoning tasks. However, two critical limitations persist: 1) they often produce unfocused, verbose reasoning chains that obscure salient spatiotemporal cues and 2) binary rewarding fails to account for partially correct answers, resulting in high reward variance and inefficient learning. In this paper, we propose TW-GRPO, a novel framework that enhances visual reasoning with focused thinking and dense reward granularity. Specifically, we employs a token weighting mechanism that prioritizes tokens with high informational density (estimated by intra-group variance), suppressing redundant tokens like generic reasoning prefixes. Furthermore, we reformulate RL training by shifting from single-choice to multi-choice QA tasks, where soft rewards enable finer-grained gradient estimation by distinguishing partial correctness. Additionally, we propose question-answer inversion, a data augmentation strategy to generate diverse multi-choice samples from existing benchmarks. Experiments demonstrate state-of-the-art performance on several video reasoning and general understanding benchmarks. Notably, TW-GRPO achieves 50.4\% accuracy on CLEVRER (18.8\% improvement over Video-R1) and 65.8\% on MMVU. Our codes are available at \href{https://github.com/longmalongma/TW-GRPO}{https://github.com/longmalongma/TW-GRPO}.

arxiv情報

著者 Jisheng Dang,Jingze Wu,Teng Wang,Xuanhui Lin,Nannan Zhu,Hongbo Chen,Wei-Shi Zheng,Meng Wang,Tat-Seng Chua
発行日 2025-05-30 15:42:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Reinforcing Video Reasoning with Focused Thinking はコメントを受け付けていません

DiffusionTrend: A Minimalist Approach to Virtual Fashion Try-On

要約

仮想ファッショントライオン用の拡散トレンドを紹介します。これにより、拡散モデルを再訓練する必要があります。
高度な拡散モデルを使用して、拡散トレンドは、衣服の詳細のニュアンスをキャプチャするために、以前の情報が豊富な潜在情報を活用します。
拡散除去プロセス全体を通して、これらの詳細は、軽量でコンパクトなCNNによって作られた正確な衣服マスクによって巧みに指示されるモデルイメージ生成にシームレスに統合されています。
拡散トレンドモデルは当初、最適ではないメトリックパフォーマンスを示していますが、探索的アプローチはいくつかの重要な利点を提供します。
(2)さまざまな複雑でユーザーフレンドリーなモデル入力の必要性を排除します。
(3)視覚的に説得力のあるトライオンエクスペリエンスを提供し、トレーニングのない拡散モデルの可能性を強調します。
仮想トライオンテクノロジーでの訓練を受けていない拡散モデルの適用へのこの最初の進出は、この産業的および学問的に価値のある分野でのさらなる調査と改良への道を開く可能性があります。

要約(オリジナル)

We introduce DiffusionTrend for virtual fashion try-on, which forgoes the need for retraining diffusion models. Using advanced diffusion models, DiffusionTrend harnesses latent information rich in prior information to capture the nuances of garment details. Throughout the diffusion denoising process, these details are seamlessly integrated into the model image generation, expertly directed by a precise garment mask crafted by a lightweight and compact CNN. Although our DiffusionTrend model initially demonstrates suboptimal metric performance, our exploratory approach offers some important advantages: (1) It circumvents resource-intensive retraining of diffusion models on large datasets. (2) It eliminates the necessity for various complex and user-unfriendly model inputs. (3) It delivers a visually compelling try-on experience, underscoring the potential of training-free diffusion model. This initial foray into the application of untrained diffusion models in virtual try-on technology potentially paves the way for further exploration and refinement in this industrially and academically valuable field.

arxiv情報

著者 Wengyi Zhan,Mingbao Lin,Shuicheng Yan,Rongrong Ji
発行日 2025-05-30 15:48:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DiffusionTrend: A Minimalist Approach to Virtual Fashion Try-On はコメントを受け付けていません

SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement

要約

ThinkLite-VLを紹介します。ThinkLite-VLは、知識の蒸留なしに強化微調整(RFT)の自己改善に純粋に依存して、1桁少ないトレーニングサンプルを使用して最先端(SOTA)パフォーマンスを達成する視覚的推論モデルのファミリーを紹介します。
私たちの中心的な洞察は、サンプルの難易度がRFTの有効性に大きく影響することです。適切に挑戦する例は、低データの体制であっても、かなりの推論の改善を促進する可能性があります。
ただし、信頼性の高いスケーラブルな方法でサンプルの難易度を定量化することは、自明ではありません。
これに対処するために、モンテカルロツリー検索(MCT)を再利用して、視覚言語モデル(VLM)が各インスタンスを解決するために必要な推論の数の数の数を介してサンプルの難易度を測定します。
このMCTSベースの選択手順は、より深い推論を誘導しながら解決可能なままであるサンプルを識別し、数学、自然像の理解、チャート理解にまたがる70Kのオープンソースの例から高品質のサブセットをフィルタリングできます。
このアプローチを使用して、QWEN2.5-VL-7B-InstructのRFTの挑戦的なサンプルとQWEN2.5-VL-72B-Instructの7.5Kサンプルのみを選択します。
結果のモデルであるThinkLite-VL-7BおよびThinkLite-VL-72Bは、8つの視覚的推論ベンチマークでそれぞれのベースモデルを大幅に上回ります。
特に、ThinkLite-VL-7Bは、QWEN2.5-VL-7B-Instructの平均パフォーマンスを7 \%で改善し、既存のすべての7Bレベルモデルと、GPT-4O、O1、QWEN2.5-VL-72Bなどのはるかに大きなモデルを上回り、マチスタで75.1の新しいSOTAスコアを達成します。
ThinkLite-VL-72BはSota Frontierをさらに進め、Mathvistaで79.7の精度を達成し、オープンソースSOTAで4.42の平均ベンチマーク改善を達成します。
これらの結果は、MCTS誘導の難易度フィルタリングが、マルチモーダル推論におけるデータ効率の高い自己改善に向けたスケーラブルで効果的なパスを提供することを示しています。

要約(オリジナル)

We introduce ThinkLite-VL, a family of visual reasoning models that achieve state-of-the-art (SoTA) performance using an order of magnitude fewer training samples, relying purely on reinforcement fine-tuning (RFT) self-improvement without any knowledge distillation. Our central insight is that sample difficulty critically influences RFT effectiveness: appropriately challenging examples can drive substantial reasoning improvements, even in low-data regimes. However, quantifying sample difficulty in a reliable and scalable manner remains non-trivial. To address this, we repurpose Monte Carlo Tree Search (MCTS) to measure sample difficulty via the number of reasoning iterations a vision-language model (VLM) requires to solve each instance. This MCTS-based selection procedure identifies samples that induce deeper reasoning while remaining solvable, allowing us to filter a high-quality subset from 70k open-source examples spanning math, natural image understanding, and chart comprehension. Using this approach, we select just 11k challenging samples for RFT on Qwen2.5-VL-7B-Instruct and 7.5k samples for Qwen2.5-VL-72B-Instruct. The resulting models, ThinkLite-VL-7B and ThinkLite-VL-72B, significantly outperform their respective base models across eight visual reasoning benchmarks. In particular, ThinkLite-VL-7B improves the average performance of Qwen2.5-VL-7B-Instruct by 7\% and surpasses all existing 7B-level models, as well as much larger models such as GPT-4o, O1 and Qwen2.5-VL-72B, achieving a new SoTA score of 75.1 on MathVista. ThinkLite-VL-72B further advances the SoTA frontier, achieving an accuracy of 79.7 on MathVista and an average benchmark improvement of 4.42 over the open-source SOTA. These results demonstrate that MCTS-guided difficulty filtering provides a scalable and effective path toward data-efficient self-improvement in multimodal reasoning.

arxiv情報

著者 Xiyao Wang,Zhengyuan Yang,Chao Feng,Hongjin Lu,Linjie Li,Chung-Ching Lin,Kevin Lin,Furong Huang,Lijuan Wang
発行日 2025-05-30 15:53:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement はコメントを受け付けていません

DreamDance: Animating Character Art via Inpainting Stable Gaussian Worlds

要約

このペーパーでは、正確なカメラの軌跡を条件とした安定した一貫したキャラクターとシーンの動きを生成できる斬新なキャラクターアートアニメーションフレームワークであるDreamDanceを紹介します。
これを実現するために、アニメーションタスクを2つのインパインティングベースの手順として再構成します。カメラ認識シーンのインパインティングとポーズアウェアビデオの入力です。
最初のステップでは、事前に訓練された画像の開始モデルを活用して、参照アートからマルチビューシーン画像を生成し、カメラの軌跡を使用した粗い背景ビデオレンダリングを可能にする安定した大規模なガウスフィールドを最適化します。
ただし、レンダリングされたビデオは荒く、シーンの動きのみを伝えるだけです。
これを解決するために、2番目のステップでは、背景の品質を向上させながら、ダイナミックキャラクターをシーンビデオに注入するポーズアウェアビデオの入力モデルをトレーニングします。
具体的には、このモデルは、キャラクターの外観を適応的に統合し、情報をベースバックグラウンドビデオにポーズするゲーティング戦略を備えたDITベースのビデオ生成モデルです。
広範な実験を通じて、ドリームダンスの有効性と一般化可能性を実証し、驚くべきカメラダイナミクスを備えた高品質で一貫したキャラクターアニメーションを生成します。

要約(オリジナル)

This paper presents DreamDance, a novel character art animation framework capable of producing stable, consistent character and scene motion conditioned on precise camera trajectories. To achieve this, we re-formulate the animation task as two inpainting-based steps: Camera-aware Scene Inpainting and Pose-aware Video Inpainting. The first step leverages a pre-trained image inpainting model to generate multi-view scene images from the reference art and optimizes a stable large-scale Gaussian field, which enables coarse background video rendering with camera trajectories. However, the rendered video is rough and only conveys scene motion. To resolve this, the second step trains a pose-aware video inpainting model that injects the dynamic character into the scene video while enhancing background quality. Specifically, this model is a DiT-based video generation model with a gating strategy that adaptively integrates the character’s appearance and pose information into the base background video. Through extensive experiments, we demonstrate the effectiveness and generalizability of DreamDance, producing high-quality and consistent character animations with remarkable camera dynamics.

arxiv情報

著者 Jiaxu Zhang,Xianfang Zeng,Xin Chen,Wei Zuo,Gang Yu,Guosheng Lin,Zhigang Tu
発行日 2025-05-30 15:54:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DreamDance: Animating Character Art via Inpainting Stable Gaussian Worlds はコメントを受け付けていません