Synergistic Bleeding Region and Point Detection in Laparoscopic Surgical Videos

要約

腹腔鏡手術における術中出血は、手術分野の急速な不明瞭さを引き起こし、外科的プロセスを妨害し、術後合併症のリスクを高めます。
出血領域のインテリジェントな検出は、失血を定量化して意思決定を支援することができますが、出血ポイントを見つけることで、外科医が出血の原因を迅速に特定し、外科的成功率を改善するために時間内に止血を達成することができます。
この研究では、最初に、出血領域とポイント注釈を備えた95の外科的ビデオクリップから5,330フレームで構成されるSurgbloodという名前の実際の腹腔鏡外科出血データセットを構築します。
したがって、腹腔鏡手術の出血領域とポイントの同時検出を実行するように設計されたBloodetと呼ばれるデュアルタスクの相乗的オンライン検出器を開発します。
私たちのフレームワークには、セグメントに基づいてモデル2(SAM 2)に基づいて、デュアルブランチの双方向ガイダンス設計を取り入れています。
マスク分岐は、適応エッジとポイントプロンプトの埋め込みを介して出血領域を検出し、ポイントブランチはマスクメモリをレバレッジして出血点メモリモデリングを誘導し、フレーム間光フローを介してブリードポイントの動きの方向をキャプチャします。
双方向のガイダンスにより、2つのブランチは潜在的な空間的関係を調査しながら、メモリモデリングを活用して現在の出血状態を推測します。
広範な実験は、私たちのベースラインが、出血領域とポイント検出の両方で外科胞子の12の対応物を上回ることを示しています。

要約(オリジナル)

Intraoperative bleeding in laparoscopic surgery causes rapid obscuration of the operative field to hinder the surgical process and increases the risk of postoperative complications. Intelligent detection of bleeding areas can quantify the blood loss to assist decision-making, while locating bleeding points helps surgeons quickly identify the source of bleeding and achieve hemostasis in time to improve surgical success rates. In this study, we first construct a real-world laparoscopic surgical bleeding detection dataset, named SurgBlood, comprising 5,330 frames from 95 surgical video clips with bleeding region and point annotations. Accordingly, we develop a dual-task synergistic online detector called BlooDet, designed to perform simultaneous detection of bleeding regions and points in laparoscopic surgery. Our framework embraces a dual-branch bidirectional guidance design based on Segment Anything Model 2 (SAM 2). The mask branch detects bleeding regions through adaptive edge and point prompt embeddings, and the point branch leverages mask memory to induce bleeding point memory modeling and capture the direction of bleed point movement via inter-frame optical flow. By bidirectional guidance, the two branches explore potential spatial-temporal relationships while leveraging memory modeling to infer the current bleeding condition. Extensive experiments demonstrate that our baseline outperforms 12 counterparts on SurgBlood in both bleeding region and point detection.

arxiv情報

著者 Jialun Pei,Zhangjun Zhou,Diandian Guo,Zhixi Li,Jing Qin,Bo Du,Pheng-Ann Heng
発行日 2025-05-23 17:38:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Synergistic Bleeding Region and Point Detection in Laparoscopic Surgical Videos はコメントを受け付けていません

One RL to See Them All: Visual Triple Unified Reinforcement Learning

要約

強化学習(RL)は、ビジョン言語モデル(VLM)の推論能力を大幅に進めています。
ただし、特にオブジェクトの検出や接地などの知覚濃縮タスクの場合、推論タスクを超えたRLの使用はほとんど未調査のままです。
V-Triuneは、VLMが単一のトレーニングパイプライン内で視覚的な推論と認識タスクを共同で学習できるようにする視覚的なトリプル統合強化学習システムです。
V-Triuneは、サンプルレベルのデータのフォーマット(多様なタスク入力を統一するため)、検証レベルの報酬計算(特殊な検証者を介してカスタム報酬を提供するため)、およびソースレベルのメトリックモニタリング(データソースレベルでの問題を診断する)で構成されています。
さらに、V-Triuneが処理する知覚タスクの適応、進歩的、明確なフィードバックを提供する新しい動的IOU報酬を紹介します。
私たちのアプローチは、オープンソース7Bおよび32Bバックボーンモデルを使用して、既製のRLトレーニングフレームワーク内にインスタンス化されています。
結果のモデルは、Orsta(それらすべてを見るための1つのRL)と呼ばれ、推論と知覚の両方のタスクにわたって一貫した改善を示しています。
この幅広い機能は、多様なデータセットでのトレーニングによって大幅に形成され、4つの代表的な視覚的推論タスク(数学、パズル、チャート、科学)と4つの視覚認識タスク(接地、検出、カウント、OCR)を約束します。
その後、OrstaはMega-Bench Coreの大幅な利益を得ており、+2.1からさまざまな7Bおよび32Bモデルのバリエーションで+2.1から印象的な+14.1の範囲で改善が行われ、パフォーマンスの利点は幅広いダウンストリームタスクに拡大します。
これらの結果は、VLMSの統一されたRLアプローチの有効性とスケーラビリティを強調しています。
V-Triuneシステムは、Orstaモデルとともに、https://github.com/minimax-aiで公開されています。

要約(オリジナル)

Reinforcement learning (RL) has significantly advanced the reasoning capabilities of vision-language models (VLMs). However, the use of RL beyond reasoning tasks remains largely unexplored, especially for perceptionintensive tasks like object detection and grounding. We propose V-Triune, a Visual Triple Unified Reinforcement Learning system that enables VLMs to jointly learn visual reasoning and perception tasks within a single training pipeline. V-Triune comprises triple complementary components: Sample-Level Data Formatting (to unify diverse task inputs), Verifier-Level Reward Computation (to deliver custom rewards via specialized verifiers) , and Source-Level Metric Monitoring (to diagnose problems at the data-source level). We further introduce a novel Dynamic IoU reward, which provides adaptive, progressive, and definite feedback for perception tasks handled by V-Triune. Our approach is instantiated within off-the-shelf RL training framework using open-source 7B and 32B backbone models. The resulting model, dubbed Orsta (One RL to See Them All), demonstrates consistent improvements across both reasoning and perception tasks. This broad capability is significantly shaped by its training on a diverse dataset, constructed around four representative visual reasoning tasks (Math, Puzzle, Chart, and Science) and four visual perception tasks (Grounding, Detection, Counting, and OCR). Subsequently, Orsta achieves substantial gains on MEGA-Bench Core, with improvements ranging from +2.1 to an impressive +14.1 across its various 7B and 32B model variants, with performance benefits extending to a wide range of downstream tasks. These results highlight the effectiveness and scalability of our unified RL approach for VLMs. The V-Triune system, along with the Orsta models, is publicly available at https://github.com/MiniMax-AI.

arxiv情報

著者 Yan Ma,Linge Du,Xuyang Shen,Shaoxiang Chen,Pengfei Li,Qibing Ren,Lizhuang Ma,Yuchao Dai,Pengfei Liu,Junjie Yan
発行日 2025-05-23 17:41:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | One RL to See Them All: Visual Triple Unified Reinforcement Learning はコメントを受け付けていません

BiggerGait: Unlocking Gait Recognition with Layer-wise Representations from Large Vision Models

要約

大型ビジョンモデル(LVM)ベースの歩行認識は、印象的なパフォーマンスを達成しました。
ただし、既存のLVMベースのアプローチは、LVM自体の本質的な価値、特にその多層全体の豊富で明確な表現を無視しながら、歩行事前を強調しすぎている可能性があります。
LVMの可能性を適切にロック解除するために、この作業では、下流の認識タスクに対するレイヤーごとの表現の影響を調査します。
私たちの分析は、LVMの中間層がタスク全体で補完的な特性を提供し、それらを統合することで、豊かな適切に設計された歩行装置がいなくても、印象的な改善が得られることが明らかになりました。
この洞察に基づいて、LVMベースの歩行認識のためのシンプルで普遍的なベースラインを提案します。
CCPG、CAISA-B*、SUSTECH1K、およびCCGR \ _Miniの包括的な評価は、ドメイン内およびクロスクロスの両方のタスクにわたるBiggergaitの優位性を検証し、歩行表現学習のためのシンプルでありながら実用的なベースラインとして確立します。
すべてのモデルとコードが公開されます。

要約(オリジナル)

Large vision models (LVM) based gait recognition has achieved impressive performance. However, existing LVM-based approaches may overemphasize gait priors while neglecting the intrinsic value of LVM itself, particularly the rich, distinct representations across its multi-layers. To adequately unlock LVM’s potential, this work investigates the impact of layer-wise representations on downstream recognition tasks. Our analysis reveals that LVM’s intermediate layers offer complementary properties across tasks, integrating them yields an impressive improvement even without rich well-designed gait priors. Building on this insight, we propose a simple and universal baseline for LVM-based gait recognition, termed BiggerGait. Comprehensive evaluations on CCPG, CAISA-B*, SUSTech1K, and CCGR\_MINI validate the superiority of BiggerGait across both within- and cross-domain tasks, establishing it as a simple yet practical baseline for gait representation learning. All the models and code will be publicly available.

arxiv情報

著者 Dingqing Ye,Chao Fan,Zhanbo Huang,Chengwen Luo,Jianqiang Li,Shiqi Yu,Xiaoming Liu
発行日 2025-05-23 17:41:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | BiggerGait: Unlocking Gait Recognition with Layer-wise Representations from Large Vision Models はコメントを受け付けていません

VideoGameBench: Can Vision-Language Models complete popular video games?

要約

ビジョン言語モデル(VLMS)は、人間にとって挑戦的なコーディングと数学のベンチマークで強い結果を達成しましたが、人間に自然に生じるタスクを実行する能力は、知覚、空間的ナビゲーション、およびメモリ管理など、還元されています。
本物のビデオゲームは、生来の帰納的バイアスを活用することで人間が学習し、習得するために直感的であるように作られており、VLMのそのような機能を評価するための理想的なテストベッドになります。
この目的のために、VLMがリアルタイムで直接対話する1990年代の10の人気ビデオゲームで構成されるベンチマークであるVideoGameBenchを紹介します。
VideoGameBenchは、生の視覚入力のみにアクセスし、目標とコントロールの高レベルの説明でゲーム全体を完了するようにモデルに挑戦します。これは、ゲーム固有の足場と補助情報に依存する既存のセットアップからの大幅な逸脱です。
3つのゲームを秘密にして、目に見えない環境に一般化するソリューションを奨励しています。
私たちの実験は、フロンティアビジョン言語モデルが各ゲームの始まりを超えて進歩するのに苦労していることを示しています。
推論の遅延は、リアルタイム設定でフロンティアモデルの大きな制限であることがわかります。
したがって、LMの次のアクションを待っている間にゲームが一時停止する設定であるVideoGameBench Liteを紹介します。
最高のパフォーマンスモデルであるGemini 2.5 Proは、ビデオゲームベンチの0.48%とVideoGameBench Liteの1.6%のみを完了しています。
上記の人間のスキルをこのベンチマークに形式化することで、これらの研究の方向性の進歩が動機付けられることを願っています。

要約(オリジナル)

Vision-language models (VLMs) have achieved strong results on coding and math benchmarks that are challenging for humans, yet their ability to perform tasks that come naturally to humans–such as perception, spatial navigation, and memory management–remains understudied. Real video games are crafted to be intuitive for humans to learn and master by leveraging innate inductive biases, making them an ideal testbed for evaluating such capabilities in VLMs. To this end, we introduce VideoGameBench, a benchmark consisting of 10 popular video games from the 1990s that VLMs directly interact with in real-time. VideoGameBench challenges models to complete entire games with access to only raw visual inputs and a high-level description of objectives and controls, a significant departure from existing setups that rely on game-specific scaffolding and auxiliary information. We keep three of the games secret to encourage solutions that generalize to unseen environments. Our experiments show that frontier vision-language models struggle to progress beyond the beginning of each game. We find inference latency to be a major limitation of frontier models in the real-time setting; therefore, we introduce VideoGameBench Lite, a setting where the game pauses while waiting for the LM’s next action. The best performing model, Gemini 2.5 Pro, completes only 0.48% of VideoGameBench and 1.6% of VideoGameBench Lite. We hope that the formalization of the human skills mentioned above into this benchmark motivates progress in these research directions.

arxiv情報

著者 Alex L. Zhang,Thomas L. Griffiths,Karthik R. Narasimhan,Ofir Press
発行日 2025-05-23 17:43:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | VideoGameBench: Can Vision-Language Models complete popular video games? はコメントを受け付けていません

Boosting Open Set Recognition Performance through Modulated Representation Learning

要約

オープンセット認識(OSR)問題は、トレーニングクラスの一部ではない新しいセマンティッククラスからテストサンプルを特定することを目的としています。これは、多くの実際のシナリオで重要なタスクです。
ただし、既存のOSRメソッドは、損失関数を適用する前にロジットに一定のスケーリング係数(温度)を使用します。これは、インスタンスレベルからセマンティックレベルの機能まで、表現学習のスペクトルの両端を探索することからモデルを妨げます。
このホワイトペーパーでは、新しいネガティブコサインスケジューリングスキームを使用して温度調整表現学習を可能にすることにより、この問題に対処します。
スケジューリングにより、モデルは、より少ない隣人に焦点を当てることにより、トレーニングの開始時に粗い決定境界を形成し、徐々により多くの隣人を優先して、粗いエッジを滑らかにします。
この段階的なタスクの切り替えは、より豊かで一般化可能な表現スペースにつながります。
他のOSRメソッドは、混乱などの正規化または補助ネガティブサンプルを含めることで利益を得て、それにより重要な計算オーバーヘッドを追加しますが、スキームはオーバーヘッドのない既存のOSRメソッドに折りたたむことができます。
多数のベースラインの上に提案されたスキームを実装して、クロスエントロピーと対照的な損失関数の両方、および他のいくつかのOSRメソッドの両方を使用して、ほとんどの場合、特に厳しいセマンティックシフトベンチマークでOSRパフォーマンスとクローズドセットパフォーマンスの両方を高めることがわかります。

要約(オリジナル)

The open set recognition (OSR) problem aims to identify test samples from novel semantic classes that are not part of the training classes, a task that is crucial in many practical scenarios. However, existing OSR methods use a constant scaling factor (the temperature) to the logits before applying a loss function, which hinders the model from exploring both ends of the spectrum in representation learning — from instance-level to semantic-level features. In this paper, we address this problem by enabling temperature-modulated representation learning using our novel negative cosine scheduling scheme. Our scheduling lets the model form a coarse decision boundary at the beginning of training by focusing on fewer neighbors, and gradually prioritizes more neighbors to smooth out rough edges. This gradual task switching leads to a richer and more generalizable representation space. While other OSR methods benefit by including regularization or auxiliary negative samples, such as with mix-up, thereby adding a significant computational overhead, our scheme can be folded into any existing OSR method with no overhead. We implement the proposed scheme on top of a number of baselines, using both cross-entropy and contrastive loss functions as well as a few other OSR methods, and find that our scheme boosts both the OSR performance and the closed set performance in most cases, especially on the tougher semantic shift benchmarks.

arxiv情報

著者 Amit Kumar Kundu,Vaishnavi Patil,Joseph Jaja
発行日 2025-05-23 17:47:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Boosting Open Set Recognition Performance through Modulated Representation Learning はコメントを受け付けていません

TokBench: Evaluating Your Visual Tokenizer before Visual Generation

要約

この作業では、細粒の特徴を保存する際の視覚トークナザーとVAEの限界を明らかにし、テキストと顔の2つの挑戦的な視覚コンテンツの再構成パフォーマンスを評価するためのベンチマークを提案します。
画像トークン化は、特に離散トークンのモデリングのシンプルさのために、自己回帰モデルを使用して、視覚的な生成とマルチモーダルモデリングを大幅に進めました。
自己回帰モデルは通常、画像トークンザーに依存して画像を離散トークンに圧縮してシーケンシャル予測を行いますが、拡散モデルはしばしばコンピューティングコストを削減するために連続潜在スペースで動作します。
ただし、両方の視覚的圧縮アプローチは必然的に視覚情報を失い、それにより視覚生成の品質の上限が制限されます。
これらの圧縮損失が最も人間に敏感な視覚要素であるテキストと顔にどのように影響するかを評価するために、最初に既存のデータセットから画像のコレクションを収集してキュレートし、明確さと多様性を確保します。
テキストの再構築には、OCRモデルを使用して再構築されたテキストの認識精度を評価し、元の顔と再構築された顔の特徴の類似性を測定して、顔の再構成の忠実度を定量化します。
私たちの方法は非常に軽量で、評価を完了するのにたった2GBのメモリと4分を必要とします。
ベンチマークを使用して、さまざまな画像トークナーとVAEのさまざまなスケールでテキストと顔の再構成品質を分析します。
我々の結果は、現代の視覚トークナーザーが、特に小規模で、微粒の特徴を維持するのに依然として苦労していることを示しています。
さらに、この評価フレームワークをビデオに拡張し、ビデオトークナーの包括的な分析を実施します。
さらに、従来のメトリックは、顔とテキストの再構成パフォーマンスを正確に反映できないことがわかりますが、提案されたメトリックは効果的な補完として機能します。

要約(オリジナル)

In this work, we reveal the limitations of visual tokenizers and VAEs in preserving fine-grained features, and propose a benchmark to evaluate reconstruction performance for two challenging visual contents: text and face. Image tokenization has significantly advanced visual generation and multimodal modeling, particularly with autoregressive models due to the modeling simplicity of discrete tokens. Autoregressive models typically rely on image tokenizers to compress images into discrete tokens for sequential prediction, whereas diffusion models often operate on continuous latent space to reduce computational costs. However, both visual compression approaches inevitably lose visual information, thereby limiting the upper bound of visual generation quality. To evaluate how these compression losses affect text and faces, the most human-sensitive visual elements, we first collect and curate a collection of text and faces images from existing datasets, ensuring clarity and diversity. For text reconstruction, we employ OCR models to assess the recognition accuracy of the reconstructed text, and then we measure feature similarity between original and reconstructed faces thereby quantifying faces reconstruction fidelity. Our method is highly lightweight, requiring just 2GB memory and 4 minutes to complete evaluations. With our benchmark, we analyze the reconstruction quality of text and faces at various scales across different image tokenizers and VAEs. Our results demonstrate that modern visual tokenizers still struggle to preserve fine-grained features, particularly at smaller scales. Furthermore, we extend this evaluation framework to the video, conducting a comprehensive analysis of video tokenizers. Additionally, we find that traditional metrics fail to accurately reflect the reconstruction performance for faces and text, while our proposed metrics serve as an effective complement.

arxiv情報

著者 Junfeng Wu,Dongliang Luo,Weizhi Zhao,Zhihao Xie,Yuanhao Wang,Junyi Li,Xudong Xie,Yuliang Liu,Xiang Bai
発行日 2025-05-23 17:52:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.DB | TokBench: Evaluating Your Visual Tokenizer before Visual Generation はコメントを受け付けていません

WonderPlay: Dynamic 3D Scene Generation from a Single Image and Actions

要約

WonderPlayは、単一の画像からアクションコンディショニングされた動的3Dシーンを生成するためのビデオ生成と物理シミュレーションを統合する新しいフレームワークです。
以前の作品は剛体またはシンプルな弾性ダイナミクスに制限されていますが、WonderPlayは、幅広い3Dダイナミクスを合成するためのハイブリッド生成シミュレーターを備えています。
ハイブリッド生成シミュレーターは、最初に物理ソルバーを使用して粗い3Dダイナミクスをシミュレートし、その後、ビデオジェネレーターを条件付けして、より細かい、より現実的な動きのあるビデオを作成します。
次に、生成されたビデオを使用して、シミュレートされた動的3Dシーンを更新し、物理ソルバーとビデオジェネレーターの間のループを閉じます。
このアプローチにより、直感的なユーザー制御を、物理ベースのシミュレーターの正確なダイナミクスと拡散ベースのビデオジェネレーターの表現力と組み合わせることができます。
実験結果は、WonderPlayにより、ユーザーは布、砂、雪、液体、煙、弾性、剛体など、さまざまなコンテンツのさまざまなシーンと対話できることを示しています。
コードが公開されます。
プロジェクトのウェブサイト:https://kyleleey.github.io/wonderplay/

要約(オリジナル)

WonderPlay is a novel framework integrating physics simulation with video generation for generating action-conditioned dynamic 3D scenes from a single image. While prior works are restricted to rigid body or simple elastic dynamics, WonderPlay features a hybrid generative simulator to synthesize a wide range of 3D dynamics. The hybrid generative simulator first uses a physics solver to simulate coarse 3D dynamics, which subsequently conditions a video generator to produce a video with finer, more realistic motion. The generated video is then used to update the simulated dynamic 3D scene, closing the loop between the physics solver and the video generator. This approach enables intuitive user control to be combined with the accurate dynamics of physics-based simulators and the expressivity of diffusion-based video generators. Experimental results demonstrate that WonderPlay enables users to interact with various scenes of diverse content, including cloth, sand, snow, liquid, smoke, elastic, and rigid bodies — all using a single image input. Code will be made public. Project website: https://kyleleey.github.io/WonderPlay/

arxiv情報

著者 Zizhang Li,Hong-Xing Yu,Wei Liu,Yin Yang,Charles Herrmann,Gordon Wetzstein,Jiajun Wu
発行日 2025-05-23 17:59:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR | WonderPlay: Dynamic 3D Scene Generation from a Single Image and Actions はコメントを受け付けていません

REN: Fast and Efficient Region Encodings from Patch-Based Image Encoders

要約

ポイントプロンプトを使用して地域ベースの画像表現を生成するための高速かつ効果的なモデルであるRegion Encoder Network(REN)を紹介します。
最近の方法では、クラスに依存しないセグメントター(SAMなど)とパッチベースの画像エンコーダー(DINOなど)を組み合わせて、コンパクトで効果的な地域表現を生成しますが、セグメンテーションステップにより高い計算コストに悩まされています。
Renは、領域トークンを直接生成する軽量モジュールを使用してこのボトルネックをバイパスし、35倍少ないメモリで60倍高速なトークン生成を可能にしながら、トークン品質も改善します。
パッチベースの画像エンコーダーのキーと値としてのクエリおよび機能としてポイントプロンプトを使用するいくつかのクロスアテンションブロックを使用して、プロンプトされたオブジェクトに対応する領域トークンを生成します。
RENは、3つの人気のあるエンコーダダノ、DINOV2、およびOpenCLipでトレーニングし、専用のトレーニングなしで他のエンコーダに拡張できることを示しています。
セマンティックセグメンテーションと検索タスクでRenを評価します。ここでは、パフォーマンスとコンパクトさの両方で元のエンコーダーを常に上回り、SAMベースの地域の方法を大幅に高速化しながら一致または上回ります。
特に、Renは挑戦的なEGO4D VQ2Dベンチマークで最先端の結果を達成し、Visual Haystacksのシングルニードルチャレンジで独自のLMMを上回ります。
コードとモデルは、https://github.com/savya08/renで入手できます。

要約(オリジナル)

We introduce the Region Encoder Network (REN), a fast and effective model for generating region-based image representations using point prompts. Recent methods combine class-agnostic segmenters (e.g., SAM) with patch-based image encoders (e.g., DINO) to produce compact and effective region representations, but they suffer from high computational cost due to the segmentation step. REN bypasses this bottleneck using a lightweight module that directly generates region tokens, enabling 60x faster token generation with 35x less memory, while also improving token quality. It uses a few cross-attention blocks that take point prompts as queries and features from a patch-based image encoder as keys and values to produce region tokens that correspond to the prompted objects. We train REN with three popular encoders-DINO, DINOv2, and OpenCLIP-and show that it can be extended to other encoders without dedicated training. We evaluate REN on semantic segmentation and retrieval tasks, where it consistently outperforms the original encoders in both performance and compactness, and matches or exceeds SAM-based region methods while being significantly faster. Notably, REN achieves state-of-the-art results on the challenging Ego4D VQ2D benchmark and outperforms proprietary LMMs on Visual Haystacks’ single-needle challenge. Code and models are available at: https://github.com/savya08/REN.

arxiv情報

著者 Savya Khosla,Sethuraman TV,Barnett Lee,Alexander Schwing,Derek Hoiem
発行日 2025-05-23 17:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | REN: Fast and Efficient Region Encodings from Patch-Based Image Encoders はコメントを受け付けていません

Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models

要約

強化学習(RL)は、ビジョン言語モデル(VLM)の推論を強化するための効果的なトレーニング後の戦略であることが証明されています。
グループ相対ポリシー最適化(GRPO)は、モデルが応答する前に完全な推論トレースを生成することを奨励する最近の顕著な方法であり、トークンの使用と計算コストの増加につながります。
人間のような思考プロセスに触発されました – 人々が簡単な質問を求めて推論をスキップしますが、必要なときは慎重に考えてください。
これを実現するために、2段階のトレーニング戦略であるTonを提案します。(i)シンプルで効果的な「思考ドロップアウト」操作を備えた監視された微調整(SFT)ステージで、推論の痕跡が空の思考にランダムに置き換えられます。
これは、選択的推論のコールドスタートとして機能する思考または非形式を導入します。
(ii)タスク対応の結果の報酬を最大化しながら、モデルがいつ考えるかどうかを自由に調査できるようにするGRPOステージ。
実験結果は、TONがパフォーマンスを犠牲にしたり、改善することなく、バニラGRPOと比較して最大90%減少することができることを示しています。
3Bと7Bの両方のモデルの両方で、さまざまな推論の難しさを覆う多様なビジョン言語タスク全体のさらなる評価は、モデルがトレーニングの進歩に伴う不必要な推論ステップをバイパスすることを徐々に学習することを確認しています。
これらの発見は、強化学習アプローチにおける人間のような推論パターンへの道に光を当てています。
私たちのコードはhttps://github.com/kokolerk/tonで入手できます。

要約(オリジナル)

Reinforcement Learning (RL) has proven to be an effective post-training strategy for enhancing reasoning in vision-language models (VLMs). Group Relative Policy Optimization (GRPO) is a recent prominent method that encourages models to generate complete reasoning traces before answering, leading to increased token usage and computational cost. Inspired by the human-like thinking process-where people skip reasoning for easy questions but think carefully when needed-we explore how to enable VLMs to first decide when reasoning is necessary. To realize this, we propose TON, a two-stage training strategy: (i) a supervised fine-tuning (SFT) stage with a simple yet effective ‘thought dropout’ operation, where reasoning traces are randomly replaced with empty thoughts. This introduces a think-or-not format that serves as a cold start for selective reasoning; (ii) a GRPO stage that enables the model to freely explore when to think or not, while maximizing task-aware outcome rewards. Experimental results show that TON can reduce the completion length by up to 90% compared to vanilla GRPO, without sacrificing performance or even improving it. Further evaluations across diverse vision-language tasks-covering a range of reasoning difficulties under both 3B and 7B models-consistently reveal that the model progressively learns to bypass unnecessary reasoning steps as training advances. These findings shed light on the path toward human-like reasoning patterns in reinforcement learning approaches. Our code is available at https://github.com/kokolerk/TON.

arxiv情報

著者 Jiaqi Wang,Kevin Qinghong Lin,James Cheng,Mike Zheng Shou
発行日 2025-05-23 16:09:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models はコメントを受け付けていません

TULiP: Test-time Uncertainty Estimation via Linearization and Weight Perturbation

要約

信頼できる不確実性推定方法は、オープンワールドの深い学習モデルの安全な展開に不可欠な多くの最新の分散(OOD)検出器の基礎です。
この作業では、OOD検出の理論的に駆動される事後不確実性推定器であるチューリップを提案します。
私たちのアプローチは、収束前にネットワークに適用される仮想的な摂動を考慮します。
線形化されたトレーニングのダイナミクスに基づいて、このような摂動の効果をバウンドし、摂動モデルパラメーターによって計算可能な不確実性スコアをもたらします。
最終的に、私たちのアプローチは、サンプリングされた予測のセットから不確実性を計算します。
合成回帰データセットと分類データセットのバウンドを視覚化します。
さらに、画像分類のために大規模なOOD検出ベンチマークを使用してチューリップの有効性を示します。
私たちの方法は、特に分散近くのサンプルの場合、最先端のパフォーマンスを示しています。

要約(オリジナル)

A reliable uncertainty estimation method is the foundation of many modern out-of-distribution (OOD) detectors, which are critical for safe deployments of deep learning models in the open world. In this work, we propose TULiP, a theoretically-driven post-hoc uncertainty estimator for OOD detection. Our approach considers a hypothetical perturbation applied to the network before convergence. Based on linearized training dynamics, we bound the effect of such perturbation, resulting in an uncertainty score computable by perturbing model parameters. Ultimately, our approach computes uncertainty from a set of sampled predictions. We visualize our bound on synthetic regression and classification datasets. Furthermore, we demonstrate the effectiveness of TULiP using large-scale OOD detection benchmarks for image classification. Our method exhibits state-of-the-art performance, particularly for near-distribution samples.

arxiv情報

著者 Yuhui Zhang,Dongshen Wu,Yuichiro Wada,Takafumi Kanamori
発行日 2025-05-23 13:47:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | TULiP: Test-time Uncertainty Estimation via Linearization and Weight Perturbation はコメントを受け付けていません