OptimAI: Optimization from Natural Language Using LLM-Powered AI Agents

要約

最適化は科学研究と実用的なアプリケーションで重要な役割を果たしますが、自然言語で説明されている具体的な最適化問題を数学的形式に策定し、問題を解決するための適切なソルバーを選択するには、かなりのドメインの専門知識が必要です。
\ underline {optime} izationの問題を解くためのフレームワークである\ textbf {optimai}を紹介します。LLMを搭載した\ underline {ai}エージェントを活用して、現在の最先端の方法よりも優れたパフォーマンスを達成します。
私たちのフレームワークは、4つの重要な役割に基づいて構築されています。(1)自然言語の問題の説明を正確な数学の定式化に変換するa ​​\ emph {formulator}。
(2)実行前に高レベルのソリューション戦略を構築するA \ emph {planner}。
(3)A \ empond {Coder}と\ empond {code批評家}は、環境と対話し、結果を反映して将来の行動を改善することができます。
アブレーション研究は、すべての役割が不可欠であることを確認しています。
プランナーまたはコード評論家を削除すると、それぞれ5.8ドルのタイム$と$ 3.1 \ Times $の生産性が低下します。
さらに、UCBベースのデバッグスケジューリングを導入して、代替プランを動的に切り替えて、追加の$ 3.3 \ Times $の生産性の向上をもたらします。
私たちのデザインは、マルチエージェントのコラボレーションを強調し、統一されたシステム内で多様なモデルを組み合わせることの相乗効果を便利に探求することができます。
私たちのアプローチは、NLP4LPデータセットで88.1 \%の精度を達成し、Optibench(非線形W/Oテーブル)サブセットで71.2 \%を達成し、以前の最良の結果でそれぞれエラー率を58 \%および50 \%削減します。

要約(オリジナル)

Optimization plays a vital role in scientific research and practical applications, but formulating a concrete optimization problem described in natural language into a mathematical form and selecting a suitable solver to solve the problem requires substantial domain expertise. We introduce \textbf{OptimAI}, a framework for solving \underline{Optim}ization problems described in natural language by leveraging LLM-powered \underline{AI} agents, achieving superior performance over current state-of-the-art methods. Our framework is built upon four key roles: (1) a \emph{formulator} that translates natural language problem descriptions into precise mathematical formulations; (2) a \emph{planner} that constructs a high-level solution strategy prior to execution; and (3) a \emph{coder} and a \emph{code critic} capable of interacting with the environment and reflecting on outcomes to refine future actions. Ablation studies confirm that all roles are essential; removing the planner or code critic results in $5.8\times$ and $3.1\times$ drops in productivity, respectively. Furthermore, we introduce UCB-based debug scheduling to dynamically switch between alternative plans, yielding an additional $3.3\times$ productivity gain. Our design emphasizes multi-agent collaboration, allowing us to conveniently explore the synergistic effect of combining diverse models within a unified system. Our approach attains 88.1\% accuracy on the NLP4LP dataset and 71.2\% on the Optibench (non-linear w/o table) subset, reducing error rates by 58\% and 50\% respectively over prior best results.

arxiv情報

著者 Raghav Thind,Youran Sun,Ling Liang,Haizhao Yang
発行日 2025-04-23 17:45:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | OptimAI: Optimization from Natural Language Using LLM-Powered AI Agents はコメントを受け付けていません

Latent Diffusion Planning for Imitation Learning

要約

模倣学習における最近の進捗状況は、複雑な視覚運動タスク、マルチモーダル分布、および大規模なデータセットにスケーリングするポリシーアーキテクチャによって有効になっています。
ただし、これらの方法は、多くの場合、大量の専門家のデモンストレーションから学習することに依存しています。
これらの欠点に対処するために、潜在的な拡散計画(LDP)、アクションフリーのデモンストレーションを活用できるプランナーで構成されるモジュールアプローチ、および学習した潜在スペースを操作する潜在的なデータを活用できる逆ダイナミクスモデルを提案します。
まず、変動自動エンコーダーを介してコンパクトな潜在スペースを学習し、画像ベースのドメインで将来の状態を効果的に予測できるようにします。
次に、拡散目標を持つプランナーと逆ダイナミクスモデルをトレーニングします。
計画をアクション予測から分離することにより、LDPは、最適でないデータの密度の高い監督シグナルから恩恵を受けることができます。
シミュレートされた視覚的ロボット操作タスクでは、LDPはこのような追加データを活用できないため、最先端の模倣学習アプローチよりも優れています。

要約(オリジナル)

Recent progress in imitation learning has been enabled by policy architectures that scale to complex visuomotor tasks, multimodal distributions, and large datasets. However, these methods often rely on learning from large amount of expert demonstrations. To address these shortcomings, we propose Latent Diffusion Planning (LDP), a modular approach consisting of a planner which can leverage action-free demonstrations, and an inverse dynamics model which can leverage suboptimal data, that both operate over a learned latent space. First, we learn a compact latent space through a variational autoencoder, enabling effective forecasting of future states in image-based domains. Then, we train a planner and an inverse dynamics model with diffusion objectives. By separating planning from action prediction, LDP can benefit from the denser supervision signals of suboptimal and action-free data. On simulated visual robotic manipulation tasks, LDP outperforms state-of-the-art imitation learning approaches, as they cannot leverage such additional data.

arxiv情報

著者 Amber Xie,Oleh Rybkin,Dorsa Sadigh,Chelsea Finn
発行日 2025-04-23 17:53:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Latent Diffusion Planning for Imitation Learning はコメントを受け付けていません

Dual-Camera All-in-Focus Neural Radiance Fields

要約

手動の再焦点を合わせることなく、入力からオールインフォーカスニューラル放射輝度(NERF)を合成できる最初のフレームワークを提示します。
再び焦点を合わせることなく、カメラはすべてのビューの固定オブジェクトに自動的に焦点を合わせ、通常のNERFメソッドは通常、一貫したデフォーカスのぼかしと鋭い参照がないために1つのカメラ障害を使用します。
オールインフォーカスナーフを復元するために、スマートフォンからデュアルカメラを紹介します。ここでは、超幅のカメラにはより広いディープフィールド(DOF)があり、メインカメラはより高い解像度を備えています。
デュアルカメラペアは、メインカメラから高忠実度の詳細を保存し、オールインフォーカスの復元のための参照として、超幅のカメラのディープDOFを使用します。
この目的のために、最初にデュアルカメラを整列させるために空間ワーピングとカラーマッチングを実装し、その後、学習可能なフォージョンモジュールを学習可能なフォージョンパラメーターで実装して、デフォーカスマップを予測し、整列カメラペアを融合します。
また、スマートフォン内のメインカメラと超幅のカメラの画像ペアを含むマルチビューデータセットも構築します。
このデータセットでの広範な実験では、DC-NERFと呼ばれるソリューションが高品質のオールインフォーカスの新規ビューを生成し、定量的および定性的に強力なベースラインと好意的に比較できることを確認します。
さらに、調整可能なぼかし強度と焦点面を備えたDC-NERFのDOFアプリケーションを示し、焦点を吸収したり、ディオプターを分割したりします。

要約(オリジナル)

We present the first framework capable of synthesizing the all-in-focus neural radiance field (NeRF) from inputs without manual refocusing. Without refocusing, the camera will automatically focus on the fixed object for all views, and current NeRF methods typically using one camera fail due to the consistent defocus blur and a lack of sharp reference. To restore the all-in-focus NeRF, we introduce the dual-camera from smartphones, where the ultra-wide camera has a wider depth-of-field (DoF) and the main camera possesses a higher resolution. The dual camera pair saves the high-fidelity details from the main camera and uses the ultra-wide camera’s deep DoF as reference for all-in-focus restoration. To this end, we first implement spatial warping and color matching to align the dual camera, followed by a defocus-aware fusion module with learnable defocus parameters to predict a defocus map and fuse the aligned camera pair. We also build a multi-view dataset that includes image pairs of the main and ultra-wide cameras in a smartphone. Extensive experiments on this dataset verify that our solution, termed DC-NeRF, can produce high-quality all-in-focus novel views and compares favorably against strong baselines quantitatively and qualitatively. We further show DoF applications of DC-NeRF with adjustable blur intensity and focal plane, including refocusing and split diopter.

arxiv情報

著者 Xianrui Luo,Zijin Wu,Juewen Peng,Huiqiang Sun,Zhiguo Cao,Guosheng Lin
発行日 2025-04-23 11:55:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Dual-Camera All-in-Focus Neural Radiance Fields はコメントを受け付けていません

UltraFusion: Ultra High Dynamic Imaging using Exposure Fusion

要約

ハイダイナミックレンジ(HDR)シーンのキャプチャは、カメラのデザインで最も重要な問題の1つです。
カメラの大部分は、さまざまな暴露レベルでキャプチャされた画像を融合してダイナミックレンジを増加させる露出融合を使用します。
ただし、このアプローチは、露出の違いが限られている画像のみを処理できます。通常は3〜4停止します。
大きな露出の違いが必要な非常に高いダイナミックレンジシーンに適用する場合、このアプローチは、入力間の誤ったアライメントまたは一貫性のない照明、またはトーンマッピングアーティファクトのために失敗することがよくあります。
この作業では、入力を9つの停止の違いとマージできる最初の露出融合技術である\モデルを提案します。
重要なアイデアは、曝露融合をガイド付きの入力問題としてモデル化することです。ここでは、過度に暴露されたイメージが、過度に露出された領域の過度に露出されたハイライトの欠落情報を入力するためのガイダンスとして使用されます。
拡大していない画像をソフトガイダンスとして使用して、ハード制約の代わりに、モデルは潜在的なアライメントの問題または照明のバリエーションに対して堅牢です。
さらに、生成モデルの前の画像を利用することにより、私たちのモデルは、非常にダイナミック範囲のシーンであっても、自然なトーンマッピングも生成します。
私たちのアプローチは、最新のHDRベンチマークでHDRトランスフォーカーよりも優れています。
さらに、超高ダイナミックレンジシーンでのパフォーマンスをテストするために、新しい現実世界の露出融合ベンチマーク、超蛍光データセットをキャプチャし、露出の違いが最大9停止し、実験では、超灌流がさまざまなシナリオで美しく高品質の融合結果を生成できることが示されています。
コードとデータは、https://openimaginglab.github.io/ultrafusionで入手できます。

要約(オリジナル)

Capturing high dynamic range (HDR) scenes is one of the most important issues in camera design. Majority of cameras use exposure fusion, which fuses images captured by different exposure levels, to increase dynamic range. However, this approach can only handle images with limited exposure difference, normally 3-4 stops. When applying to very high dynamic range scenes where a large exposure difference is required, this approach often fails due to incorrect alignment or inconsistent lighting between inputs, or tone mapping artifacts. In this work, we propose \model, the first exposure fusion technique that can merge inputs with 9 stops differences. The key idea is that we model exposure fusion as a guided inpainting problem, where the under-exposed image is used as a guidance to fill the missing information of over-exposed highlights in the over-exposed region. Using an under-exposed image as a soft guidance, instead of a hard constraint, our model is robust to potential alignment issue or lighting variations. Moreover, by utilizing the image prior of the generative model, our model also generates natural tone mapping, even for very high-dynamic range scenes. Our approach outperforms HDR-Transformer on latest HDR benchmarks. Moreover, to test its performance in ultra high dynamic range scenes, we capture a new real-world exposure fusion benchmark, UltraFusion dataset, with exposure differences up to 9 stops, and experiments show that UltraFusion can generate beautiful and high-quality fusion results under various scenarios. Code and data will be available at https://openimaginglab.github.io/UltraFusion.

arxiv情報

著者 Zixuan Chen,Yujin Wang,Xin Cai,Zhiyuan You,Zheming Lu,Fan Zhang,Shi Guo,Tianfan Xue
発行日 2025-04-23 11:55:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | UltraFusion: Ultra High Dynamic Imaging using Exposure Fusion はコメントを受け付けていません

RouteWinFormer: A Route-Window Transformer for Middle-range Attention in Image Restoration

要約

トランスモデルは最近、長距離ピクセル依存性をキャプチャする能力により、画像修復に大きな注目を集めています。
ただし、劣化とコンテキストが通常局所化されるため、長距離の注意は実際的に必要とせずに計算オーバーヘッドをもたらすことがよくあります。
さまざまな劣化データセットにわたる正規化された平均注意距離は、画像の復元には中距離の注意が十分であることを示しています。
この洞察に基づいて、画像の復元のための中間コンテキストをモデル化する新しいウィンドウベースの変圧器であるRoutewinformerを提案します。
RoutewInformerには、Route-Windows Attnetionモジュールが組み込まれています。これは、注意集計の地域的類似性に基づいて関連する近くのウィンドウを動的に選択し、受容フィールドをミッドレンジサイズに効率的に拡張します。
さらに、トレーニング中にマルチスケール構造の正則化を導入し、U字型ネットワークのサブスケールが構造情報に焦点を当てることを可能にしますが、元のスケールは一般化された画像構造の事前に基づいて分解パターンを学習します。
広範な実験は、Routewinformerがさまざまな画像修復タスクの9つのデータセットで最新の方法を上回ることを示しています。

要約(オリジナル)

Transformer models have recently garnered significant attention in image restoration due to their ability to capture long-range pixel dependencies. However, long-range attention often results in computational overhead without practical necessity, as degradation and context are typically localized. Normalized average attention distance across various degradation datasets shows that middle-range attention is enough for image restoration. Building on this insight, we propose RouteWinFormer, a novel window-based Transformer that models middle-range context for image restoration. RouteWinFormer incorporates Route-Windows Attnetion Module, which dynamically selects relevant nearby windows based on regional similarity for attention aggregation, extending the receptive field to a mid-range size efficiently. In addition, we introduce Multi-Scale Structure Regularization during training, enabling the sub-scale of the U-shaped network to focus on structural information, while the original-scale learns degradation patterns based on generalized image structure priors. Extensive experiments demonstrate that RouteWinFormer outperforms state-of-the-art methods across 9 datasets in various image restoration tasks.

arxiv情報

著者 Qifan Li,Tianyi Liang,Xingtao Wang,Xiaopeng Fan
発行日 2025-04-23 11:57:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RouteWinFormer: A Route-Window Transformer for Middle-range Attention in Image Restoration はコメントを受け付けていません

SSLR: A Semi-Supervised Learning Method for Isolated Sign Language Recognition

要約

手話は、難聴を無効にする人々の主要なコミュニケーション言語です。
手話認識(SLR)システムは、標識ジェスチャーを認識し、それらを話し言葉に変換することを目的としています。
SLRの主な課題の1つは、注釈付きデータセットの希少性です。
この問題に対処するために、SLR(SSLR)の半監視学習(SSL)アプローチを提案し、非標識サンプルに注釈を付けて擬似ラベル法を採用しています。
サインジェスチャーは、署名者の骨格のジョイントポイントをコードするポーズ情報を使用して表されます。
この情報は、提案されたアプローチで使用されるトランスバックボーンモデルの入力として使用されます。
さまざまなラベル付きデータサイズにわたってSSLの学習機能を実証するために、さまざまな数のクラスを持つラベル付きデータの異なる割合を使用していくつかの実験が行われました。
SSLアプローチのパフォーマンスは、WLASL-100データセットの完全に監視されている学習ベースのモデルと比較されました。
SSLモデルの得られた結果は、多くの場合、ラベル付けされたデータが少ない監視された学習ベースのモデルよりも優れていました。

要約(オリジナル)

Sign language is the primary communication language for people with disabling hearing loss. Sign language recognition (SLR) systems aim to recognize sign gestures and translate them into spoken language. One of the main challenges in SLR is the scarcity of annotated datasets. To address this issue, we propose a semi-supervised learning (SSL) approach for SLR (SSLR), employing a pseudo-label method to annotate unlabeled samples. The sign gestures are represented using pose information that encodes the signer’s skeletal joint points. This information is used as input for the Transformer backbone model utilized in the proposed approach. To demonstrate the learning capabilities of SSL across various labeled data sizes, several experiments were conducted using different percentages of labeled data with varying numbers of classes. The performance of the SSL approach was compared with a fully supervised learning-based model on the WLASL-100 dataset. The obtained results of the SSL model outperformed the supervised learning-based model with less labeled data in many cases.

arxiv情報

著者 Hasan Algafri,Hamzah Luqman,Sarah Alyami,Issam Laradji
発行日 2025-04-23 11:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | SSLR: A Semi-Supervised Learning Method for Isolated Sign Language Recognition はコメントを受け付けていません

HandDiffuse: Generative Controllers for Two-Hand Interactions via Diffusion Models

要約

既存のハンドデータセットはほぼ短距離であり、相互作用のモーション生成の必要性にまだ適合することができない、自己閉鎖と手の自己類似性のために相互作用が弱くなっています。
データ不足を救うために、強力な両手相互作用を持つ時間シーケンスで構成される新しいデータセットであるHandDiffuse12.5Mを提案します。
HandDiffuse12.5Mは、既存の両手データセット間で最大のスケールと最も豊富な相互作用を持っています。
さらに、さまざまなコントローラーを使用して相互作用する手の制御可能なモーション生成のための強力なベースラインメソッドの手ディファーズを提示します。
具体的には、拡散モデルをバックボーンとして適用し、異なるコントローラーの2つのモーション表現を設計します。
アーティファクトを減らすために、動的な相互作用プロセスを明示的に定量化する相互作用損失も提案します。
当社の手フィッシュは、鮮明な両手相互作用、つまり、モーションインボリューションと軌道制御を備えたさまざまなアプリケーションを有効にします。
実験では、この方法がモーション生成における最先端の手法よりも優れていることを示しており、他のデータセットのデータ増強にも貢献できることが示されています。
当社のデータセット、対応するコード、および事前に訓練されたモデルは、両手の相互作用モデリングに向けた将来の研究のためにコミュニティに普及します。

要約(オリジナル)

Existing hands datasets are largely short-range and the interaction is weak due to the self-occlusion and self-similarity of hands, which can not yet fit the need for interacting hands motion generation. To rescue the data scarcity, we propose HandDiffuse12.5M, a novel dataset that consists of temporal sequences with strong two-hand interactions. HandDiffuse12.5M has the largest scale and richest interactions among the existing two-hand datasets. We further present a strong baseline method HandDiffuse for the controllable motion generation of interacting hands using various controllers. Specifically, we apply the diffusion model as the backbone and design two motion representations for different controllers. To reduce artifacts, we also propose Interaction Loss which explicitly quantifies the dynamic interaction process. Our HandDiffuse enables various applications with vivid two-hand interactions, i.e., motion in-betweening and trajectory control. Experiments show that our method outperforms the state-of-the-art techniques in motion generation and can also contribute to data augmentation for other datasets. Our dataset, corresponding codes, and pre-trained models will be disseminated to the community for future research towards two-hand interaction modeling.

arxiv情報

著者 Pei Lin,Sihang Xu,Hongdi Yang,Yiran Liu,Xin Chen,Jingya Wang,Jingyi Yu,Lan Xu
発行日 2025-04-23 12:20:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HandDiffuse: Generative Controllers for Two-Hand Interactions via Diffusion Models はコメントを受け付けていません

WiFi based Human Fall and Activity Recognition using Transformer based Encoder Decoder and Graph Neural Networks

要約

人間のポーズの推定と行動の認識は、ヘルスケアの監視、リハビリテーション、および支援技術における重要な役割により注目を集めています。
この研究では、WiFiチャネル状態情報(CSI)から人間の骨格ポーズを推定するために設計された、トランスベースのエンコーダーデコーダーネットワーク(TED Net)という名前の新しいアーキテクチャを提案しました。
TED Netは、CSI信号から時空上の特徴をキャプチャするために、変圧器ベースの注意メカニズムと畳み込みエンコーダーを統合します。
推定されたスケルトンポーズは、アクション認識のためにカスタマイズされた指示グラフニューラルネットワーク(DGNN)への入力として使用されました。
2つのデータセットでモデルを検証しました。一般に利用可能なマルチモーダルデータセットが一般的に利用可能なポーズ推定値を評価するため、および20人の参加者が関与する秋に関連するシナリオに焦点を当てた新たに収集されたデータセットです。
実験結果は、TEDネットがポーズ推定において既存のアプローチを上回ったこと、およびDGNNがRGBベースのシステムに匹敵するパフォーマンスを備えたCSIベースのスケルトンを使用して信頼できるアクション分類を達成することを実証しました。
特に、TED Netは、秋と非転倒の両方のケースで堅牢なパフォーマンスを維持しています。
これらの発見は、特に高齢者の転倒検出などの家庭環境での効果的な行動認識のためのCSI駆動型の人間の骨格推定の可能性を強調しています。
このような設定では、wifi信号は容易に入手できることが多く、視覚ベースの方法に代わるものを保存するプライバシーを提供し、継続的なカメラの監視に関する懸念を引き起こす可能性があります。

要約(オリジナル)

Human pose estimation and action recognition have received attention due to their critical roles in healthcare monitoring, rehabilitation, and assistive technologies. In this study, we proposed a novel architecture named Transformer based Encoder Decoder Network (TED Net) designed for estimating human skeleton poses from WiFi Channel State Information (CSI). TED Net integrates convolutional encoders with transformer based attention mechanisms to capture spatiotemporal features from CSI signals. The estimated skeleton poses were used as input to a customized Directed Graph Neural Network (DGNN) for action recognition. We validated our model on two datasets: a publicly available multi modal dataset for assessing general pose estimation, and a newly collected dataset focused on fall related scenarios involving 20 participants. Experimental results demonstrated that TED Net outperformed existing approaches in pose estimation, and that the DGNN achieves reliable action classification using CSI based skeletons, with performance comparable to RGB based systems. Notably, TED Net maintains robust performance across both fall and non fall cases. These findings highlight the potential of CSI driven human skeleton estimation for effective action recognition, particularly in home environments such as elderly fall detection. In such settings, WiFi signals are often readily available, offering a privacy preserving alternative to vision based methods, which may raise concerns about continuous camera monitoring.

arxiv情報

著者 Younggeol Cho,Elisa Motta,Olivia Nocentini,Marta Lagomarsino,Andrea Merello,Marco Crepaldi,Arash Ajoudani
発行日 2025-04-23 12:22:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | WiFi based Human Fall and Activity Recognition using Transformer based Encoder Decoder and Graph Neural Networks はコメントを受け付けていません

Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning

要約

次世代のマルチモーダル推論モデルであるSkywork R1v2と、その前身であるSkywork R1Vからのメジャーリープを紹介します。
R1v2は、その中心で、報酬モデルガイダンスをルールベースの戦略と調和させるハイブリッド強化学習パラダイムを導入し、それによって洗練された推論能力と広範な一般化のバランスをとるという長年の課題に対処します。
トレーニング効率をさらに向上させるために、最適化プロセス全体で高価値サンプルに優先順位を付けることにより、グループ相対ポリシー最適化(GRPO)に固有の「消失の利点」ジレンマを効果的にカウンターする選択的サンプルバッファー(SSB)メカニズムを提案します。
特に、過度の補強信号が視覚的な幻覚を誘発する可能性があることが観察されます。これは、トレーニングプロセス全体で調整された報酬のしきい値を体系的に監視および軽減する現象です。
経験的な結果は、R1v2の例外的な能力を確認し、オリンピアドベンチで62.6、AIME2024で79.0、LiveCodebenchで63.6、MMMUで74.0などのベンチマークをリードするパフォーマンスを確認します。
これらの結果は、既存のオープンソースモデルに対するR1v2の優位性を強調し、Gemini 2.5やOpenai O4-Miniを含む最高の独自のシステムでパフォーマンスギャップを埋めることに大きな進歩を示しています。
Skywork R1v2モデルの重量は、開放性と再現性を促進するために公開されていますhttps://huggingface.co/skywork/skywork-r1v2-38b。

要約(オリジナル)

We present Skywork R1V2, a next-generation multimodal reasoning model and a major leap forward from its predecessor, Skywork R1V. At its core, R1V2 introduces a hybrid reinforcement learning paradigm that harmonizes reward-model guidance with rule-based strategies, thereby addressing the long-standing challenge of balancing sophisticated reasoning capabilities with broad generalization. To further enhance training efficiency, we propose the Selective Sample Buffer (SSB) mechanism, which effectively counters the “Vanishing Advantages” dilemma inherent in Group Relative Policy Optimization (GRPO) by prioritizing high-value samples throughout the optimization process. Notably, we observe that excessive reinforcement signals can induce visual hallucinations–a phenomenon we systematically monitor and mitigate through calibrated reward thresholds throughout the training process. Empirical results affirm the exceptional capability of R1V2, with benchmark-leading performances such as 62.6 on OlympiadBench, 79.0 on AIME2024, 63.6 on LiveCodeBench, and 74.0 on MMMU. These results underscore R1V2’s superiority over existing open-source models and demonstrate significant progress in closing the performance gap with premier proprietary systems, including Gemini 2.5 and OpenAI o4-mini. The Skywork R1V2 model weights have been publicly released to promote openness and reproducibility https://huggingface.co/Skywork/Skywork-R1V2-38B.

arxiv情報

著者 Chris,Yichen Wei,Yi Peng,Xiaokun Wang,Weijie Qiu,Wei Shen,Tianyidan Xie,Jiangbo Pei,Jianhao Zhang,Yunzhuo Hao,Xuchen Song,Yang Liu,Yahui Zhou
発行日 2025-04-23 12:24:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning はコメントを受け付けていません

A Time Series Dataset of NIR Spectra and RGB and NIR-HSI Images of the Barley Germination Process

要約

RGBおよびNIR-HSIのオープンソースデータセットを、関連するセグメンテーションマスクと2242個の個々の腐った腐ったオバンカーネルのNIRスペクトルを備えた画像に近いハイパースペクトルイメージングに近い)画像を提供します。
5日間連続して水分にさらされてから24時間ごとに、水分に耐えるすべてのカーネルを撮像しました。
すべての大麦核は、各画像の獲得中に発芽しているか、発芽していないとラベル付けされていました。
大麦の核は、背景として黒いろ紙で画像化され、たとえばオツの方法により、まっすぐな強度のしきい値ベースのセグメンテーションを促進しました。
このデータセットは、RGB画像分析、NIRスペクトル分析、NIR-HSI分析、または本書の組み合わせのいずれかを使用して、大麦核の発芽時間の時系列分析を促進します。

要約(オリジナル)

We provide an open-source dataset of RGB and NIR-HSI (near-infrared hyperspectral imaging) images with associated segmentation masks and NIR spectra of 2242 individual malting barley kernels. We imaged every kernel pre-exposure to moisture and every 24 hours after exposure to moisture for five consecutive days. Every barley kernel was labeled as germinated or not germinated during each image acquisition. The barley kernels were imaged with black filter paper as the background, facilitating straight-forward intensity threshold-based segmentation, e.g., by Otsu’s method. This dataset facilitates time series analysis of germination time for barley kernels using either RGB image analysis, NIR spectral analysis, NIR-HSI analysis, or a combination hereof.

arxiv情報

著者 Ole-Christian Galbo Engstrøm,Erik Schou Dreier,Birthe Møller Jespersen,Kim Steenstrup Pedersen
発行日 2025-04-23 12:25:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Time Series Dataset of NIR Spectra and RGB and NIR-HSI Images of the Barley Germination Process はコメントを受け付けていません