Can Test-Time Scaling Improve World Foundation Model?

要約

現在の観測と入力から将来の状態を予測することにより物理的世界をシミュレートする世界財団モデルは、自律運転やロボット工学など、物理的知能の多くのアプリケーションの中心となっています。
ただし、これらのモデルには、事前トレーニングにかなりの計算リソースが必要であり、トレーニング後に利用可能なデータによってさらに制約されています。
そのため、テスト時にのスケーリング計算は、従来のモデルの拡大または再トレーニングの重要かつ実用的な代替の両方として現れます。
この作業では、WFMに合わせたテスト時間スケーリングフレームワークであるSwiftを紹介します。
Swiftは、拡張可能なWFM評価ツールキットを、高速トークン化、確率ベースのTOP-Kプルーニング、効率的なビーム検索など、プロセスレベルの推論戦略と統合します。
COSMOSモデルの経験的結果は、テスト時間スケーリングが計算最適な方法でも存在することを示しています。
私たちの調査結果は、テスト時間スケーリング法則がWFMに保持され、Swiftがモデルサイズを再訓練または増加せずにWFM推論を改善するためのスケーラブルで効果的な経路を提供することを明らかにしています。
このコードは、https://github.com/mia-cong/swift.gitで入手できます。

要約(オリジナル)

World foundation models, which simulate the physical world by predicting future states from current observations and inputs, have become central to many applications in physical intelligence, including autonomous driving and robotics. However, these models require substantial computational resources for pretraining and are further constrained by available data during post-training. As such, scaling computation at test time emerges as both a critical and practical alternative to traditional model enlargement or re-training. In this work, we introduce SWIFT, a test-time scaling framework tailored for WFMs. SWIFT integrates our extensible WFM evaluation toolkit with process-level inference strategies, including fast tokenization, probability-based Top-K pruning, and efficient beam search. Empirical results on the COSMOS model demonstrate that test-time scaling exists even in a compute-optimal way. Our findings reveal that test-time scaling laws hold for WFMs and that SWIFT provides a scalable and effective pathway for improving WFM inference without retraining or increasing model size. The code is available at https://github.com/Mia-Cong/SWIFT.git.

arxiv情報

著者 Wenyan Cong,Hanqing Zhu,Peihao Wang,Bangya Liu,Dejia Xu,Kevin Wang,David Z. Pan,Yan Wang,Zhiwen Fan,Zhangyang Wang
発行日 2025-03-31 17:07:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Can Test-Time Scaling Improve World Foundation Model? はコメントを受け付けていません

Self-Supervised Pretraining for Aerial Road Extraction

要約

航空画像セグメンテーションのための深いニューラルネットワークには、大量のラベル付きデータが必要ですが、正確な注釈を備えた高品質の空中データセットは、生成するのが少ない費用がかかります。
この制限に対処するために、ラベル付けされたデータへの依存を減らしながらセグメンテーションパフォーマンスを改善する自己監視された事前削除方法を提案します。
私たちのアプローチでは、入力ベースの前orainingを使用します。モデルは、航空画像の不足している領域を再構築することを学習し、道路抽出のために微調整される前に固有の構造をキャプチャします。
この方法は、一般化を改善し、ドメインシフトへの堅牢性を高め、アーキテクチャとデータセットの選択をモデル化するために不変です。
実験では、当社の前登録は、特に低データレジームでセグメンテーションの精度を大幅に向上させ、航空画像分析のためのスケーラブルなソリューションになっていることが示されています。

要約(オリジナル)

Deep neural networks for aerial image segmentation require large amounts of labeled data, but high-quality aerial datasets with precise annotations are scarce and costly to produce. To address this limitation, we propose a self-supervised pretraining method that improves segmentation performance while reducing reliance on labeled data. Our approach uses inpainting-based pretraining, where the model learns to reconstruct missing regions in aerial images, capturing their inherent structure before being fine-tuned for road extraction. This method improves generalization, enhances robustness to domain shifts, and is invariant to model architecture and dataset choice. Experiments show that our pretraining significantly boosts segmentation accuracy, especially in low-data regimes, making it a scalable solution for aerial image analysis.

arxiv情報

著者 Rupert Polley,Sai Vignesh Abishek Deenadayalan,J. Marius Zöllner
発行日 2025-03-31 17:14:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Self-Supervised Pretraining for Aerial Road Extraction はコメントを受け付けていません

PathOrchestra: A Comprehensive Foundation Model for Computational Pathology with Over 100 Diverse Clinical-Grade Tasks

要約

高解像度の病理学的画像に固有の複雑さと変動性は、計算病理学に重要な課題をもたらします。
AIを活用する病理財団モデルは、変革的進歩を触媒していますが、その開発には大規模なデータセット、かなりのストレージ容量、および実質的な計算リソースが必要です。
さらに、臨床的適用性と一般化可能性を確保するには、幅広い臨床タスクにわたる厳密な検証が必要です。
ここでは、複数の中心にわたって20の組織および臓器タイプからの300Kの病理学的スライドを含むデータセットで自己監視学習を介して訓練された多用途の病理学の基礎モデルであるPathorchestraを提示します。
このモデルは、61のプライベートデータセットと51のパブリックデータセットの組み合わせを使用して、112の臨床タスクで厳密に評価されました。
これらのタスクには、デジタルスライド前処理、汎癌分類、病変の識別、マルチキャンサーサブタイプ分類、バイオマーカー評価、遺伝子発現予測、および構造化されたレポートの生成が含まれます。
Pathorchestraは、27,755 WSIと9,415,729のROIにわたって並外れたパフォーマンスを実証し、47のタスクで0.950を超える精度を達成しました。
特に、これは、高中症の結腸直腸癌と診断的に複雑なリンパ腫エリアの構造化された報告を生成した最初のモデルであり、基礎モデルではめったに対処されていないが、計り知れない臨床的潜在能力を持っています。
全体として、Pathorchestraは、広範な臨床グレードのタスクにわたって検証された、大規模で自己監視された病理財団モデルの実現可能性と有効性を例示しています。
その高精度と広範なデータアノテーションへの依存度の低下は、臨床統合の可能性を強調しており、より効率的で高品質の医療サービスへの経路を提供します。

要約(オリジナル)

The complexity and variability inherent in high-resolution pathological images present significant challenges in computational pathology. While pathology foundation models leveraging AI have catalyzed transformative advancements, their development demands large-scale datasets, considerable storage capacity, and substantial computational resources. Furthermore, ensuring their clinical applicability and generalizability requires rigorous validation across a broad spectrum of clinical tasks. Here, we present PathOrchestra, a versatile pathology foundation model trained via self-supervised learning on a dataset comprising 300K pathological slides from 20 tissue and organ types across multiple centers. The model was rigorously evaluated on 112 clinical tasks using a combination of 61 private and 51 public datasets. These tasks encompass digital slide preprocessing, pan-cancer classification, lesion identification, multi-cancer subtype classification, biomarker assessment, gene expression prediction, and the generation of structured reports. PathOrchestra demonstrated exceptional performance across 27,755 WSIs and 9,415,729 ROIs, achieving over 0.950 accuracy in 47 tasks, including pan-cancer classification across various organs, lymphoma subtype diagnosis, and bladder cancer screening. Notably, it is the first model to generate structured reports for high-incidence colorectal cancer and diagnostically complex lymphoma-areas that are infrequently addressed by foundational models but hold immense clinical potential. Overall, PathOrchestra exemplifies the feasibility and efficacy of a large-scale, self-supervised pathology foundation model, validated across a broad range of clinical-grade tasks. Its high accuracy and reduced reliance on extensive data annotation underline its potential for clinical integration, offering a pathway toward more efficient and high-quality medical services.

arxiv情報

著者 Fang Yan,Jianfeng Wu,Jiawen Li,Wei Wang,Jiaxuan Lu,Wen Chen,Zizhao Gao,Jianan Li,Hong Yan,Jiabo Ma,Minda Chen,Yang Lu,Qing Chen,Yizhi Wang,Xitong Ling,Xuenian Wang,Zihan Wang,Qiang Huang,Shengyi Hua,Mianxin Liu,Lei Ma,Tian Shen,Xiaofan Zhang,Yonghong He,Hao Chen,Shaoting Zhang,Zhe Wang
発行日 2025-03-31 17:28:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PathOrchestra: A Comprehensive Foundation Model for Computational Pathology with Over 100 Diverse Clinical-Grade Tasks はコメントを受け付けていません

ORAL: Prompting Your Large-Scale LoRAs via Conditional Recurrent Diffusion

要約

パラメーター生成は、ニューラルネットワーク開発の新しいパラダイムとして浮上しており、高品質のモデルの重みを直接合成することにより、従来のニューラルネットワークトレーニングに代わるものを提供しています。
進化するための低ランクの適応(LORA)のコンテキスト($ \ textit {i.e。} $、絶えず更新)大規模な言語モデル(LLMS)では、このアプローチは、費用のかかる再訓練なしで効率的な適応を約束します。
ただし、既存の方法は、スケーラビリティと制御可能性を同時に達成する上での重大な制限に直面しています。
このホワイトペーパーでは、これらの課題に対処する新しい$ \ textBf {条件付き再生拡散} $フレームワークである$ \ texttt {oral} $を紹介します。
$ \ texttt {Oral} $には、モデルアーキテクチャとテキストタスクの仕様を統合する新しい条件付けメカニズムが組み込まれており、進化する基礎モデル全体に​​シームレスに転送できるタスク固有のLORAパラメーターの生成を可能にします。
私たちのアプローチは、数十億のパラメーターLLMに成功し、制御可能性を維持します。
7つの言語タスク、4つのビジョンタスク、および5つの事前に訓練されたLLMSを使用した3つのマルチモーダルタスクにわたる広範な実験を通じて、$ \ texttt {oral} $は、バニラトレーニングされたカウンターパートに匹敵するまたは優れたパフォーマンスを達成する高品質のロラパラメーターを生成することを実証します。

要約(オリジナル)

Parameter generation has emerged as a novel paradigm for neural network development, offering an alternative to traditional neural network training by synthesizing high-quality model weights directly. In the context of Low-Rank Adaptation (LoRA) for evolving ($\textit{i.e.}$, constantly updated) large language models (LLMs), this approach promises efficient adaptation without costly retraining. However, existing methods face critical limitations in simultaneously achieving scalability and controllability. In this paper, we introduce $\texttt{ORAL}$, a novel $\textbf{conditional recurrent diffusion}$ framework that addresses these challenges. $\texttt{ORAL}$ incorporates a novel conditioning mechanism that integrates model architecture and textual task specifications, enabling the generation of task-specific LoRA parameters that can seamlessly transfer across evolving foundation models. Our approach successfully scales to billions-of-parameter LLMs and maintains controllability. Through extensive experiments across seven language tasks, four vision tasks, and three multimodal tasks using five pre-trained LLMs, we demonstrate that $\texttt{ORAL}$ generates high-quality LoRA parameters that achieve comparable or superior performance to vanilla trained counterparts.

arxiv情報

著者 Rana Muhammad Shahroz Khan,Dongwen Tang,Pingzhi Li,Kai Wang,Tianlong Chen
発行日 2025-03-31 17:34:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | ORAL: Prompting Your Large-Scale LoRAs via Conditional Recurrent Diffusion はコメントを受け付けていません

InstructRestore: Region-Customized Image Restoration with Human Instructions

要約

拡散前ベースの画像修復の大幅な進歩にもかかわらず、ほとんどの既存の方法は画像全体に均一な処理を適用し、ユーザーの指示に従って地域顧客の画像修復を実行する能力がありません。
この作業では、人間の指示に従って地域調整可能な画像修復を実行するために、新しいフレームワーク、すなわちInstructrestoreを提案します。
これを達成するために、最初にデータ生成エンジンを開発して、高品質の画像、ターゲット領域の説明、対応する領域マスクで構成されるトレーニングトリプレットを生成します。
このエンジンと慎重なデータスクリーニングにより、536,945のトリプレットを含む包括的なデータセットを構築して、このタスクのトレーニングと評価をサポートします。
次に、コントロールネットアーキテクチャの下に低品質の画像機能を統合して、画像の詳細の強化の程度を調整する方法を検討します。
その結果、ターゲット領域を識別し、ターゲット領域と周囲の領域に異なる統合スケールを割り当てるコントロールネットのようなモデルを開発し、ユーザーの命令に合わせた領域が顧客に耐える画像修復を可能にします。
実験結果は、提案されているInstructrestoreアプローチが、Bokeh効果を備えた画像やユーザーがインスナンスした局所強化など、効果的な人間に導入された画像修復を可能にすることを示しています。
私たちの仕事は、インタラクティブな画像の修復と強化技術の調査を進めています。
データ、コード、モデルは、https://github.com/shuaizhengliu/instructrestore.gitにあります。

要約(オリジナル)

Despite the significant progress in diffusion prior-based image restoration, most existing methods apply uniform processing to the entire image, lacking the capability to perform region-customized image restoration according to user instructions. In this work, we propose a new framework, namely InstructRestore, to perform region-adjustable image restoration following human instructions. To achieve this, we first develop a data generation engine to produce training triplets, each consisting of a high-quality image, the target region description, and the corresponding region mask. With this engine and careful data screening, we construct a comprehensive dataset comprising 536,945 triplets to support the training and evaluation of this task. We then examine how to integrate the low-quality image features under the ControlNet architecture to adjust the degree of image details enhancement. Consequently, we develop a ControlNet-like model to identify the target region and allocate different integration scales to the target and surrounding regions, enabling region-customized image restoration that aligns with user instructions. Experimental results demonstrate that our proposed InstructRestore approach enables effective human-instructed image restoration, such as images with bokeh effects and user-instructed local enhancement. Our work advances the investigation of interactive image restoration and enhancement techniques. Data, code, and models will be found at https://github.com/shuaizhengliu/InstructRestore.git.

arxiv情報

著者 Shuaizheng Liu,Jianqi Ma,Lingchen Sun,Xiangtao Kong,Lei Zhang
発行日 2025-03-31 17:36:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | InstructRestore: Region-Customized Image Restoration with Human Instructions はコメントを受け付けていません

StochasticSplats: Stochastic Rasterization for Sorting-Free 3D Gaussian Splatting

要約

3D Gaussian Splatting(3DGS)は、多くのアプリケーション固有の拡張機能を備えた人気のあるRadianceフィールド法です。
ほとんどのバリエーションは、同じコアアルゴリズムに依存しています:ガウススプラットの深さソルティング、次に原始的な順序でラスター化します。
これにより、正しいアルファコンポジットが保証されますが、近似が組み込まれているため、レンダリングアーティファクトを引き起こす可能性があります。
さらに、固定表現の場合、ソートされたレンダリングは、レンダリングコストと視覚的忠実度をほとんど制御できません。
たとえば、直感的には、低解像度の画像をレンダリングすることは、必ずしも高速ではありません。
この作業では、3Dガウスのスプラッティングと確率論的ラスター化を組み合わせることにより、上記の制限に対処します。
具体的には、ボリュームレンダリング方程式の偏りのないモンテカルロ推定器を活用します。
これにより、ソートの必要性が削除され、重複するガウスの正確な3Dブレンドが可能になります。
モンテカルロサンプルの数には、計算時間と品質をトレードオフする方法を3DGにさらに浸します。
OpenGLシェーダーを使用してメソッドを実装し、最新のGPUハードウェアで効率的なレンダリングを可能にします。
合理的な視覚的品質では、私たちの方法は、ソートされたラスター化よりも4倍以上速くレンダリングされます。

要約(オリジナル)

3D Gaussian splatting (3DGS) is a popular radiance field method, with many application-specific extensions. Most variants rely on the same core algorithm: depth-sorting of Gaussian splats then rasterizing in primitive order. This ensures correct alpha compositing, but can cause rendering artifacts due to built-in approximations. Moreover, for a fixed representation, sorted rendering offers little control over render cost and visual fidelity. For example, and counter-intuitively, rendering a lower-resolution image is not necessarily faster. In this work, we address the above limitations by combining 3D Gaussian splatting with stochastic rasterization. Concretely, we leverage an unbiased Monte Carlo estimator of the volume rendering equation. This removes the need for sorting, and allows for accurate 3D blending of overlapping Gaussians. The number of Monte Carlo samples further imbues 3DGS with a way to trade off computation time and quality. We implement our method using OpenGL shaders, enabling efficient rendering on modern GPU hardware. At a reasonable visual quality, our method renders more than four times faster than sorted rasterization.

arxiv情報

著者 Shakiba Kheradmand,Delio Vicini,George Kopanas,Dmitry Lagun,Kwang Moo Yi,Mark Matthews,Andrea Tagliasacchi
発行日 2025-03-31 17:46:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | StochasticSplats: Stochastic Rasterization for Sorting-Free 3D Gaussian Splatting はコメントを受け付けていません

Adapting Vision Foundation Models for Real-time Ultrasound Image Segmentation

要約

リアルタイムの超音波画像セグメンテーションのために階層ビジョンファンデーションモデルを適応させる新しいアプローチを提案します。
既存の超音波セグメンテーション方法は、多くの場合、コストのかかる手動注釈に依存して、新しいタスクへの適応性と格闘しますが、リアルタイムのアプローチは一般に最先端のパフォーマンスと一致しません。
これらの制限を克服するために、Vision Foundation Model Hieraを活用してマルチスケールの特徴を抽出する適応フレームワークを紹介します。これは、視覚的表現力を高めるためにDINOV2表現とインターリーブします。
次に、これらの濃縮された機能をデコードして、正確で堅牢なセグメンテーションを生成します。
6つのパブリックデータセットと1つの社内データセットで広範な評価を実施し、心臓と甲状腺の両方の超音波セグメンテーションをカバーしています。
実験では、私たちのアプローチは、複数のデータセットで最新のメソッドを上回り、監督が限られていることを示しており、1 \%および10 \%のデータ設定で平均20 \%を超えてnnunetを上回ります。
私たちの方法は、単一のGPUでTensortを使用して$ \ SIM $ 77 FPS推論速度を達成し、リアルタイムの臨床アプリケーションを可能にします。

要約(オリジナル)

We propose a novel approach that adapts hierarchical vision foundation models for real-time ultrasound image segmentation. Existing ultrasound segmentation methods often struggle with adaptability to new tasks, relying on costly manual annotations, while real-time approaches generally fail to match state-of-the-art performance. To overcome these limitations, we introduce an adaptive framework that leverages the vision foundation model Hiera to extract multi-scale features, interleaved with DINOv2 representations to enhance visual expressiveness. These enriched features are then decoded to produce precise and robust segmentation. We conduct extensive evaluations on six public datasets and one in-house dataset, covering both cardiac and thyroid ultrasound segmentation. Experiments show that our approach outperforms state-of-the-art methods across multiple datasets and excels with limited supervision, surpassing nnUNet by over 20\% on average in the 1\% and 10\% data settings. Our method achieves $\sim$77 FPS inference speed with TensorRT on a single GPU, enabling real-time clinical applications.

arxiv情報

著者 Xiaoran Zhang,Eric Z. Chen,Lin Zhao,Xiao Chen,Yikang Liu,Boris Maihe,James S. Duncan,Terrence Chen,Shanhui Sun
発行日 2025-03-31 17:47:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Adapting Vision Foundation Models for Real-time Ultrasound Image Segmentation はコメントを受け付けていません

ERUPT: Efficient Rendering with Unposed Patch Transformer

要約

この作品は、RGB画像の小さなコレクションからの多様なシーンでの新しいビュー統合の問題に対処しています。
噴火(位置付けられていないパッチトランスによる効率的なレンダリング)を提案します。
既存のピクセルベースのクエリとは対照的に、パッチベースのクエリを導入して、ターゲットビューをレンダリングするために必要な計算を減らします。
これにより、トレーニング中と推論中の両方でモデルが非常に効率的になり、市販のハードウェアで600 fpsでレンダリングできます。
特に、私たちのモデルは、スパースまたは不正確なグラウンドトゥルースカメラのポーズを使用して、データセットで位置付けられていないターゲットを使用するトレーニングを可能にする学習潜在カメラポーズを使用するように設計されています。
私たちのアプローチは、大規模な現実世界のデータを一般化し、Mapillaryから収集されたStreet-View画像を使用して潜在ビュー合成のための新しいベンチマークデータセット(MSVS-1M)を導入できることを示しています。
密な画像と正確なメタデータを必要とするnerfおよびガウスの飛び散とは対照的に、噴火は、わずか5つのポーズのない入力画像を持つ任意のシーンの新しい見解をレンダリングする可能性があります。
噴火は、現在の位置付けられていない画像合成タスクの最先端の方法よりも優れたレンダリングされた画質を達成し、ラベル付きデータ要件を〜95 \%だけ減らし、計算要件を数桁減らし、多様な現実世界のシーンに効率的な新規ビュー合成を提供します。

要約(オリジナル)

This work addresses the problem of novel view synthesis in diverse scenes from small collections of RGB images. We propose ERUPT (Efficient Rendering with Unposed Patch Transformer) a state-of-the-art scene reconstruction model capable of efficient scene rendering using unposed imagery. We introduce patch-based querying, in contrast to existing pixel-based queries, to reduce the compute required to render a target view. This makes our model highly efficient both during training and at inference, capable of rendering at 600 fps on commercial hardware. Notably, our model is designed to use a learned latent camera pose which allows for training using unposed targets in datasets with sparse or inaccurate ground truth camera pose. We show that our approach can generalize on large real-world data and introduce a new benchmark dataset (MSVS-1M) for latent view synthesis using street-view imagery collected from Mapillary. In contrast to NeRF and Gaussian Splatting, which require dense imagery and precise metadata, ERUPT can render novel views of arbitrary scenes with as few as five unposed input images. ERUPT achieves better rendered image quality than current state-of-the-art methods for unposed image synthesis tasks, reduces labeled data requirements by ~95\% and decreases computational requirements by an order of magnitude, providing efficient novel view synthesis for diverse real-world scenes.

arxiv情報

著者 Maxim V. Shugaev,Vincent Chen,Maxim Karrenbach,Kyle Ashley,Bridget Kennedy,Naresh P. Cuntoor
発行日 2025-03-31 17:53:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ERUPT: Efficient Rendering with Unposed Patch Transformer はコメントを受け付けていません

Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1

要約

Chain of Thound(COT)の最近の進歩により、大規模な言語モデル(LLMS)の推論能力が大幅に改善され、補強学習(RL)が効果的なトレーニング後のアプローチとして浮上しています。
マルチモーダル大手言語モデル(MLLM)は、この推論の可能性を継承しますが、知覚と論理的推論の両方を必要とするタスクでは露出度の低いままです。
これに対処するために、ビデオ理解におけるMLLMのトレーニング後の方法を体系的に評価するように設計されたベンチマークであるシードベンチ-R1を紹介します。
複数の選択的な質問の形式で複雑な現実世界のビデオと複雑な日常の計画タスクが含まれており、洗練された認識と推論が必要です。
Seed-Bench-R1は、3レベルの階層を介して一般化を評価します。分布、環境内環境、および環境と環境のクロスタスクのシナリオを、簡単に検証可能な地上回答を備えた大規模なトレーニングデータセットを装備しています。
QWEN2-VL-INSTRUCT-7Bを基本モデルとして使用して、RLを監視付き微調整(SFT)と比較し、RLのデータ効率と優れたパフォーマンスを、分散貢献および分散型の両方のタスクの両方で示し、LongBideBenchのような一般的なビデオ理解のSFTを上回ることさえあります。
私たちの詳細な分析は、RLが視覚的認識を高めるが、しばしば論理的に一貫性のない推論チェーンを生成することが多いことを明らかにしています。
一貫性のない推論や見落とされた視覚的手がかりなどの主要な制限を特定し、ベースモデルの推論、報酬モデリング、および騒々しい信号に対するRLの堅牢性の将来の改善を示唆しています。

要約(オリジナル)

Recent advancements in Chain of Thought (COT) generation have significantly improved the reasoning capabilities of Large Language Models (LLMs), with reinforcement learning (RL) emerging as an effective post-training approach. Multimodal Large Language Models (MLLMs) inherit this reasoning potential but remain underexplored in tasks requiring both perception and logical reasoning. To address this, we introduce SEED-Bench-R1, a benchmark designed to systematically evaluate post-training methods for MLLMs in video understanding. It includes intricate real-world videos and complex everyday planning tasks in the format of multiple-choice questions, requiring sophisticated perception and reasoning. SEED-Bench-R1 assesses generalization through a three-level hierarchy: in-distribution, cross-environment, and cross-environment-task scenarios, equipped with a large-scale training dataset with easily verifiable ground-truth answers. Using Qwen2-VL-Instruct-7B as a base model, we compare RL with supervised fine-tuning (SFT), demonstrating RL’s data efficiency and superior performance on both in-distribution and out-of-distribution tasks, even outperforming SFT on general video understanding benchmarks like LongVideoBench. Our detailed analysis reveals that RL enhances visual perception but often produces less logically coherent reasoning chains. We identify key limitations such as inconsistent reasoning and overlooked visual cues, and suggest future improvements in base model reasoning, reward modeling, and RL robustness against noisy signals.

arxiv情報

著者 Yi Chen,Yuying Ge,Rui Wang,Yixiao Ge,Lu Qiu,Ying Shan,Xihui Liu
発行日 2025-03-31 17:55:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 はコメントを受け付けていません

Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation

要約

現在のビデオ生成コミュニティ内の正確なユーザー意図解釈のボトルネックに対処するために、任意の条件下で制御可能なビデオ生成のための新しいフレームワークであるAny2Captionを提示します。
重要なアイデアは、ビデオ統合ステップからさまざまな条件解釈ステップを切り離すことです。
最新のマルチモーダル大手言語モデル(MLLM)を活用することにより、任意の2Captionは、テキスト、画像、ビデオ、および地域、動き、カメラなどの特殊なキューなど、バックボーンビデオジェネレーターを提供する密集した構造化されたキャプションなど、さまざまな入力を解釈します。
また、337Kインスタンスを備えた大規模なデータセットと、任意の条件とキャプションへの命令チューニングのために407kの条件を紹介します。
包括的な評価は、既存のビデオ生成モデルのさまざまな側面にわたる制御可能性とビデオ品質におけるシステムの大幅な改善を示しています。
プロジェクトページ:https://sqwu.top/any2cap/

要約(オリジナル)

To address the bottleneck of accurate user intent interpretation within the current video generation community, we present Any2Caption, a novel framework for controllable video generation under any condition. The key idea is to decouple various condition interpretation steps from the video synthesis step. By leveraging modern multimodal large language models (MLLMs), Any2Caption interprets diverse inputs–text, images, videos, and specialized cues such as region, motion, and camera poses–into dense, structured captions that offer backbone video generators with better guidance. We also introduce Any2CapIns, a large-scale dataset with 337K instances and 407K conditions for any-condition-to-caption instruction tuning. Comprehensive evaluations demonstrate significant improvements of our system in controllability and video quality across various aspects of existing video generation models. Project Page: https://sqwu.top/Any2Cap/

arxiv情報

著者 Shengqiong Wu,Weicai Ye,Jiahao Wang,Quande Liu,Xintao Wang,Pengfei Wan,Di Zhang,Kun Gai,Shuicheng Yan,Hao Fei,Tat-Seng Chua
発行日 2025-03-31 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation はコメントを受け付けていません