Stroke-based Cyclic Amplifier: Image Super-Resolution at Arbitrary Ultra-Large Scales

要約

以前の任意のスケール画像スーパー解像度(ASISR)メソッドは、アップサンプリング係数がトレーニングデータでカバーされている範囲を超えて、かなりのぼやけを導入すると、大幅なパフォーマンスの低下を経験することがよくあります。
この問題に対処するために、超大規模なアップサンプリングタスクのために、統一モデル、ストロークベースの環状アンプ(SBCA)を提案します。
SBCAのキーは、ストロークベクターアンプであり、拡大のためのベクトルグラフィックスとして表される一連のストロークに画像を分解します。
次に、詳細完了モジュールでは詳細が欠落していることも復元され、忠実度の高い画像の再構成が確保されます。
私たちの環状戦略は、この統合されたSBCAモデルを使用して詳細を繰り返し洗練することにより、トレーニング範囲内にサブスケールを維持しながら、すべてのために1回だけトレーニングされることにより、超大規模なアップサンプリングを実現します。
私たちのアプローチは、分布ドリフトの問題に効果的に対処し、アーティファクト、ノイズ、ぼやけを排除し、高品質の高解像度の超解凍画像を生成します。
合成データセットと現実世界の両方のデータセットでの実験的検証は、私たちのアプローチが超大規模なアップサンプリングタスク($ \ Times100 $など)の既存の方法を大幅に上回り、最先端の技術よりもはるかに優れた視覚品質を提供することを示しています。

要約(オリジナル)

Prior Arbitrary-Scale Image Super-Resolution (ASISR) methods often experience a significant performance decline when the upsampling factor exceeds the range covered by the training data, introducing substantial blurring. To address this issue, we propose a unified model, Stroke-based Cyclic Amplifier (SbCA), for ultra-large upsampling tasks. The key of SbCA is the stroke vector amplifier, which decomposes the image into a series of strokes represented as vector graphics for magnification. Then, the detail completion module also restores missing details, ensuring high-fidelity image reconstruction. Our cyclic strategy achieves ultra-large upsampling by iteratively refining details with this unified SbCA model, trained only once for all, while keeping sub-scales within the training range. Our approach effectively addresses the distribution drift issue and eliminates artifacts, noise and blurring, producing high-quality, high-resolution super-resolved images. Experimental validations on both synthetic and real-world datasets demonstrate that our approach significantly outperforms existing methods in ultra-large upsampling tasks (e.g. $\times100$), delivering visual quality far superior to state-of-the-art techniques.

arxiv情報

著者 Wenhao Guo,Peng Lu,Xujun Peng,Zhaoran Zhao,Sheng Li
発行日 2025-06-12 14:51:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Stroke-based Cyclic Amplifier: Image Super-Resolution at Arbitrary Ultra-Large Scales はコメントを受け付けていません

SlotPi: Physics-informed Object-centric Reasoning Models

要約

現実世界の人間の能力に似た視覚的観察を通じて、物理的法則によって支配されるダイナミクスについての理解と推論は、大きな課題をもたらします。
現在、人間の行動をエミュレートするオブジェクト中心の動的シミュレーション方法は、顕著な進歩を達成しましたが、2つの重要な側面を見落としています。1)物理的知識のモデルへの統合。
人間は世界を観察することによって身体的洞察を得、この知識をさまざまな動的なシナリオについて正確に推論するために適用します。
2)多様なシナリオ全体のモデル適応性の検証。
実際のダイナミクス、特に流体とオブジェクトを含むダイナミクスは、オブジェクトの相互作用をキャプチャするだけでなく、流体の流れの特性をシミュレートするモデルを要求します。
これらのギャップに対処するために、スロットベースの物理情報に基づいたオブジェクト中心の推論モデルであるSlotPiを導入します。
SLOTPIは、ハミルトニアンの原理に基づいた物理モジュールを、動的予測のための時空間予測モジュールと統合します。
私たちの実験は、ベンチマークや流体データセットの予測や視覚的質問の回答(VQA)などのタスクにおけるモデルの強みを強調しています。
さらに、オブジェクトの相互作用、流体ダイナミクス、および流体オブジェクトの相互作用を含む実際のデータセットを作成し、モデルの機能を検証しました。
すべてのデータセットにおけるモデルの堅牢なパフォーマンスは、その強力な適応性を強調し、より高度な世界モデルを開発するための基盤を築きます。

要約(オリジナル)

Understanding and reasoning about dynamics governed by physical laws through visual observation, akin to human capabilities in the real world, poses significant challenges. Currently, object-centric dynamic simulation methods, which emulate human behavior, have achieved notable progress but overlook two critical aspects: 1) the integration of physical knowledge into models. Humans gain physical insights by observing the world and apply this knowledge to accurately reason about various dynamic scenarios; 2) the validation of model adaptability across diverse scenarios. Real-world dynamics, especially those involving fluids and objects, demand models that not only capture object interactions but also simulate fluid flow characteristics. To address these gaps, we introduce SlotPi, a slot-based physics-informed object-centric reasoning model. SlotPi integrates a physical module based on Hamiltonian principles with a spatio-temporal prediction module for dynamic forecasting. Our experiments highlight the model’s strengths in tasks such as prediction and Visual Question Answering (VQA) on benchmark and fluid datasets. Furthermore, we have created a real-world dataset encompassing object interactions, fluid dynamics, and fluid-object interactions, on which we validated our model’s capabilities. The model’s robust performance across all datasets underscores its strong adaptability, laying a foundation for developing more advanced world models.

arxiv情報

著者 Jian Li,Wan Han,Ning Lin,Yu-Liang Zhan,Ruizhi Chengze,Haining Wang,Yi Zhang,Hongsheng Liu,Zidong Wang,Fan Yu,Hao Sun
発行日 2025-06-12 14:53:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | SlotPi: Physics-informed Object-centric Reasoning Models はコメントを受け付けていません

Human-Robot Navigation using Event-based Cameras and Reinforcement Learning

要約

この作業では、イベントカメラとその他のセンサーを補強学習と組み合わせて、リアルタイムのヒューマン中心のナビゲーションと障害物回避を可能にするロボットナビゲーションコントローラーを紹介します。
固定レートで動作し、モーションブラーとレイテンシに苦しむ従来の画像ベースのコントローラーとは異なり、このアプローチはイベントカメラの非同期性を活用して、柔軟な時間間隔で視覚情報を処理し、適応的な推論と制御を可能にします。
フレームワークは、サンプル効率を改善するための初期模倣学習フェーズと、深い決定論的ポリシーグラデーションを介したイベントベースの知覚、追加の範囲センシング、およびポリシーの最適化を統合します。
シミュレートされた環境で有望な結果が達成され、堅牢なナビゲーション、歩行者のフォロー、および障害物の回避を実証します。
デモビデオはプロジェクトWebサイトで入手できます。

要約(オリジナル)

This work introduces a robot navigation controller that combines event cameras and other sensors with reinforcement learning to enable real-time human-centered navigation and obstacle avoidance. Unlike conventional image-based controllers, which operate at fixed rates and suffer from motion blur and latency, this approach leverages the asynchronous nature of event cameras to process visual information over flexible time intervals, enabling adaptive inference and control. The framework integrates event-based perception, additional range sensing, and policy optimization via Deep Deterministic Policy Gradient, with an initial imitation learning phase to improve sample efficiency. Promising results are achieved in simulated environments, demonstrating robust navigation, pedestrian following, and obstacle avoidance. A demo video is available at the project website.

arxiv情報

著者 Ignacio Bugueno-Cordova,Javier Ruiz-del-Solar,Rodrigo Verschae
発行日 2025-06-12 15:03:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Human-Robot Navigation using Event-based Cameras and Reinforcement Learning はコメントを受け付けていません

Modality-AGnostic Image Cascade (MAGIC) for Multi-Modality Cardiac Substructure Segmentation

要約

心臓の下部構造は、放射線誘発性心疾患のリスクを最小限に抑えるために胸部放射線療法計画に不可欠です。
Deep Learning(DL)は、輪郭の負担を軽減する効率的な方法を提供しますが、さまざまなモダリティと重複構造にわたる一般化可能性がありません。
この作品は、包括的およびマルチモーダル心臓の下部構造セグメンテーションのために、モダリティに依存しない画像カスケード(MAGIC)を導入および検証します。
魔法は、単一のモデルの機能を保存するNNU-NETベースのU字型バックボーンの分岐を複製およびデコードすることにより実装されます。
シミュレーションCT(SIM-CT)、低フィールドMR-LINAC、および心臓CT血管造影(CCTA)モダリティからの20の心臓の下部構造(心臓、チャンバー、偉大な血管(GV)、バルブ、冠動脈(CAS)、および伝導ノード)は、手動で溶解していました(n = 76)、検証(n = 76)、検証(n = 76)、
12の比較モデル(3つのモダリティにわたる4つのセグメンテーションサブグループ)が同等に訓練されました。
すべての方法は、トレーニング効率と、サイコロの類似性係数(DSC)と両側ウィルコクソン署名ランクテスト(しきい値、p <0.05)を使用して、参照輪郭に対して比較されました。 平均DSCスコアは、SIM-CTで0.75(0.16)、MR-LINACで0.68(0.21)、CCTAで0.80(0.16)でした。 魔法は、統計的な違いが限られている場合、症例の57%で比較を上回っています。 Magicは、単一のモデルで複数のモダリティと重複構造をセグメント化できる効果的で正確なセグメンテーションソリューションを提供します。 MAGICは、計算要件を簡素化し、臨床環境に比類のない柔軟性を提供することにより、さらに臨床的実装を可能にします。

要約(オリジナル)

Cardiac substructures are essential in thoracic radiation therapy planning to minimize risk of radiation-induced heart disease. Deep learning (DL) offers efficient methods to reduce contouring burden but lacks generalizability across different modalities and overlapping structures. This work introduces and validates a Modality-AGnostic Image Cascade (MAGIC) for comprehensive and multi-modal cardiac substructure segmentation. MAGIC is implemented through replicated encoding and decoding branches of an nnU-Net-based, U-shaped backbone conserving the function of a single model. Twenty cardiac substructures (heart, chambers, great vessels (GVs), valves, coronary arteries (CAs), and conduction nodes) from simulation CT (Sim-CT), low-field MR-Linac, and cardiac CT angiography (CCTA) modalities were manually delineated and used to train (n=76), validate (n=15), and test (n=30) MAGIC. Twelve comparison models (four segmentation subgroups across three modalities) were equivalently trained. All methods were compared for training efficiency and against reference contours using the Dice Similarity Coefficient (DSC) and two-tailed Wilcoxon Signed-Rank test (threshold, p<0.05). Average DSC scores were 0.75(0.16) for Sim-CT, 0.68(0.21) for MR-Linac, and 0.80(0.16) for CCTA. MAGIC outperforms the comparison in 57% of cases, with limited statistical differences. MAGIC offers an effective and accurate segmentation solution that is lightweight and capable of segmenting multiple modalities and overlapping structures in a single model. MAGIC further enables clinical implementation by simplifying the computational requirements and offering unparalleled flexibility for clinical settings.

arxiv情報

著者 Nicholas Summerfield,Qisheng He,Alex Kuo,Ahmed I. Ghanem,Simeng Zhu,Chase Ruff,Joshua Pan,Anudeep Kumar,Prashant Nagpal,Jiwei Zhao,Ming Dong,Carri K. Glide-Hurst
発行日 2025-06-12 15:10:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, physics.med-ph | Modality-AGnostic Image Cascade (MAGIC) for Multi-Modality Cardiac Substructure Segmentation はコメントを受け付けていません

Prompts to Summaries: Zero-Shot Language-Guided Video Summarization

要約

ビデオデータの爆発的な成長により、ドメイン固有のトレーニングデータなしで動作できる柔軟なユーザー制御可能な要約ツールが必要になりました。
既存の方法は、データセットに依存し、一般化を制限するか、自然言語で表現されたユーザーの意図を組み込むことができません。
プロンプトからサマリーを紹介します。最初のゼロショット、テキストクエリ可能なビデオ要約は、既製のビデオ言語モデル(VIDLMS)キャプションを、トレーニングデータをまったく使用せずに、大規模な言語モデル(LLMS)審査を介してユーザー誘導スキムに変換し、監督されていない方法とマッチングのすべての監督の方法を破ります。
パイプライン(i)セグメントの生のビデオ映像を一貫したシーンにセグメント化します。
セグメントは、一貫性(時間的一貫性)と一意性(目新しさ)の2つの新しいメトリックを介してレベルを付け、微調整されたフレームの重要性をもたらします。
SummeとTVSumでは、データフリーのアプローチは、以前のデータに飢えているすべての監視されていない方法を上回ります。
また、トレーニングデータがなく、監督されたフレームレベルの重要性を必要とする競合する方法を使用していないにもかかわらず、クエリ中心のビデオ要約(QFVS)ベンチマークで競合します。
さらなる研究に拍車をかけるために、vidsum-reasonをリリースします。これは、長い尾のある概念とマルチステップの推論を備えた新しいクエリ駆動型のデータセットです。
私たちのフレームワークは、堅牢なF1スコアを達成し、最初の挑戦的なベースラインとして機能します。
全体として、我々の結果は、原則的なプロンプトとスコアの伝播で調整されたときに、前提条件のマルチモダンモデルが、普遍的でテキストクロースのビデオ要約の強力な基盤をすでに提供していることを示しています。

要約(オリジナル)

The explosive growth of video data intensified the need for flexible user-controllable summarization tools that can operate without domain-specific training data. Existing methods either rely on datasets, limiting generalization, or cannot incorporate user intent expressed in natural language. We introduce Prompts-to-Summaries: the first zero-shot, text-queryable video summarizer that converts off-the-shelf video-language models (VidLMs) captions into user-guided skims via large language models (LLMs) judging, without the use of training data at all, beating all unsupervised and matching supervised methods. Our pipeline (i) segments raw video footage into coherent scenes, (ii) generates rich scene-level descriptions through a memory-efficient, batch-style VidLM prompting scheme that scales to hours-long videos on a single GPU, (iii) leverages an LLM as a judge to assign scene-level importance scores under a carefully crafted prompt, and finally, (iv) propagates those scores to short segments level via two new metrics: consistency (temporal coherency) and uniqueness (novelty), yielding fine-grained frame importance. On SumMe and TVSum, our data-free approach surpasses all prior data-hungry unsupervised methods. It also performs competitively on the Query-Focused Video Summarization (QFVS) benchmark, despite using no training data and the competing methods requiring supervised frame-level importance. To spur further research, we release VidSum-Reason, a new query-driven dataset featuring long-tailed concepts and multi-step reasoning; our framework attains robust F1 scores and serves as the first challenging baseline. Overall, our results demonstrate that pretrained multimodal models, when orchestrated with principled prompting and score propagation, already provide a powerful foundation for universal, text-queryable video summarization.

arxiv情報

著者 Mario Barbara,Alaa Maalouf
発行日 2025-06-12 15:23:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Prompts to Summaries: Zero-Shot Language-Guided Video Summarization はコメントを受け付けていません

Unsupervised Deformable Image Registration with Structural Nonparametric Smoothing

要約

学習ベースの変形可能な画像登録(DIR)は、ニューラルネットワークを介した従来の最適化を償却することにより、アライメントを加速します。
ラベルの監督により、精度がさらに向上し、目に見えないスキャンの効率的かつ正確な非線形アライメントが可能になります。
ただし、網膜容器などの大きな滑らかな領域の中のまばらな特徴を備えた画像は、監視されていないDIRメソッドが対処するのに苦労している開口部と大きなディスプレースメントの課題を導入します。
この制限は、ニューラルネットワークが単一のフォワードパスで変形フィールドを予測し、訓練後に制約のないフィールドを残し、正則化の負担を完全にネットワークの重みにシフトするために発生します。
これらの問題に対処するために、SmoothProperを紹介します。SmoothProperは、滑らかさを強制し、ネットワークのフォワードパス内を通過するメッセージを促進するプラグアンドプレイのニューラルモジュールを紹介します。
二重性ベースの最適化レイヤーを調整された相互作用項と統合することにより、SmoothProperは空間位置全体のフロー信号を効率的に伝播し、滑らかさを強制し、構造の一貫性を維持します。
これはモデルに依存しており、既存の登録フレームワークにシームレスに統合され、最小限のパラメーターオーバーヘッドを使用して、正規者ハイパーパラメーターのチューニングを排除します。
網膜容器データセットの予備的な結果は、開口部と大規模な変位の課題を示しています。この方法により、2912×2912の画像で登録エラーが1.88ピクセルに減少し、両方の課題に効果的に対処するための最初の監視されていないDIRアプローチをマークします。
ソースコードは、https://github.com/tinymilky/smoothproperで入手できます。

要約(オリジナル)

Learning-based deformable image registration (DIR) accelerates alignment by amortizing traditional optimization via neural networks. Label supervision further enhances accuracy, enabling efficient and precise nonlinear alignment of unseen scans. However, images with sparse features amid large smooth regions, such as retinal vessels, introduce aperture and large-displacement challenges that unsupervised DIR methods struggle to address. This limitation occurs because neural networks predict deformation fields in a single forward pass, leaving fields unconstrained post-training and shifting the regularization burden entirely to network weights. To address these issues, we introduce SmoothProper, a plug-and-play neural module enforcing smoothness and promoting message passing within the network’s forward pass. By integrating a duality-based optimization layer with tailored interaction terms, SmoothProper efficiently propagates flow signals across spatial locations, enforces smoothness, and preserves structural consistency. It is model-agnostic, seamlessly integrates into existing registration frameworks with minimal parameter overhead, and eliminates regularizer hyperparameter tuning. Preliminary results on a retinal vessel dataset exhibiting aperture and large-displacement challenges demonstrate our method reduces registration error to 1.88 pixels on 2912×2912 images, marking the first unsupervised DIR approach to effectively address both challenges. The source code will be available at https://github.com/tinymilky/SmoothProper.

arxiv情報

著者 Hang Zhang,Xiang Chen,Renjiu Hu,Rongguang Wang,Jinwei Zhang,Min Liu,Yaonan Wang,Gaolei Li,Xinxing Cheng,Jinming Duan
発行日 2025-06-12 15:26:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV, eess.SP | Unsupervised Deformable Image Registration with Structural Nonparametric Smoothing はコメントを受け付けていません

Occlusion-Aware 3D Hand-Object Pose Estimation with Masked AutoEncoders

要約

単眼のRGB画像からのハンドオブジェクトのポーズ推定は、主に手観書の相互作用に固有の重度の閉塞のために、重要な課題のままです。
既存の方法では、グローバルな構造的認識と推論を十分に調査していないため、閉塞された手観察相互作用の処理における有効性が制限されます。
この課題に対処するために、ホマエと呼ばれるマスクされた自動エンコーダーに基づいて、閉塞を意識したハンドオブジェクトのポーズ推定方法を提案します。
具体的には、手観察の相互作用の領域に構造化された閉塞を課すターゲット中心のマスキング戦略を提案し、モデルが閉塞した構造に関するコンテキスト認識の特徴と理由を学習するよう促します。
さらに、デコーダーから抽出されたマルチスケール機能を統合して、署名された距離フィールド(SDF)を予測し、グローバルコンテキストと細かいジオメトリの両方をキャプチャします。
幾何学的知覚を高めるために、暗黙のSDFとSDFから派生した明示的なポイントクラウドを組み合わせて、両方の表現の相補的強度を活用します。
この融合により、SDFのグローバルなコンテキストとポイントクラウドが提供する正確なローカルジオメトリを組み合わせることにより、閉塞領域のより堅牢な取り扱いが可能になります。
挑戦的なDexyCBおよびHO3DV2ベンチマークに関する広範な実験は、Homaeが手観オブジェクトのポーズ推定で最先端のパフォーマンスを達成することを示しています。
コードとモデルをリリースします。

要約(オリジナル)

Hand-object pose estimation from monocular RGB images remains a significant challenge mainly due to the severe occlusions inherent in hand-object interactions. Existing methods do not sufficiently explore global structural perception and reasoning, which limits their effectiveness in handling occluded hand-object interactions. To address this challenge, we propose an occlusion-aware hand-object pose estimation method based on masked autoencoders, termed as HOMAE. Specifically, we propose a target-focused masking strategy that imposes structured occlusion on regions of hand-object interaction, encouraging the model to learn context-aware features and reason about the occluded structures. We further integrate multi-scale features extracted from the decoder to predict a signed distance field (SDF), capturing both global context and fine-grained geometry. To enhance geometric perception, we combine the implicit SDF with an explicit point cloud derived from the SDF, leveraging the complementary strengths of both representations. This fusion enables more robust handling of occluded regions by combining the global context from the SDF with the precise local geometry provided by the point cloud. Extensive experiments on challenging DexYCB and HO3Dv2 benchmarks demonstrate that HOMAE achieves state-of-the-art performance in hand-object pose estimation. We will release our code and model.

arxiv情報

著者 Hui Yang,Wei Sun,Jian Liu,Jin Zheng,Jian Xiao,Ajmal Mian
発行日 2025-06-12 15:30:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Occlusion-Aware 3D Hand-Object Pose Estimation with Masked AutoEncoders はコメントを受け付けていません

VideoDeepResearch: Long Video Understanding With Agentic Tool Using

要約

長いビデオ理解(LVU)は、タスクに固有の複雑さとコンテキストウィンドウの制約のため、現在のマルチモーダル大手言語モデル(MLLMS)に大きな課題を提示します。
LVUタスクに対処するには、拡張されたコンテキストウィンドウ、強力な視覚的知覚能力、および熟練したドメインの専門知識を備えた基礎MLLMが必要であると広く想定されています。
この作業では、長いビデオ理解のための新しいエージェントフレームワークであるVidedePresearchを導入することにより、この共通の信念に挑戦します。
私たちのアプローチは、マルチモーダルレトリバーや視覚的知覚を含むモジュラーマルチモーダルツールキットと組み合わせたテキストのみの大規模推論モデル(LRM)のみに依存しています。
各LVUタスクについて、システムは推論を通じて問題解決戦略を策定し、ツールを使用して必須のビデオコンテンツに選択的にアクセスし、利用します。
MLVU、Video-MME、LVBenchなど、人気のあるLVUベンチマークで広範な実験を実施しています。
我々の結果は、Videodeepresearchが既存のMLLMベースラインよりも大幅に改善され、MLVU(TEST)、LVBench、およびLongvidebench、それぞれ9.6%、6.6%、および3.9%を上回っていることを示しています。
これらの調査結果は、LVUの問題における重要な課題を克服する際のエージェントシステムの約束を強調しています。

要約(オリジナル)

Long video understanding (LVU) presents a significant challenge for current multi-modal large language models (MLLMs) due to the task’s inherent complexity and context window constraint. It is widely assumed that addressing LVU tasks requires foundation MLLMs with extended context windows, strong visual perception capabilities, and proficient domain expertise. In this work, we challenge this common belief by introducing VideoDeepResearch, a novel agentic framework for long video understanding. Our approach relies solely on a text-only large reasoning model (LRM) combined with a modular multi-modal toolkit, including multimodal retrievers and visual perceivers, all of which are readily available in practice. For each LVU task, the system formulates a problem-solving strategy through reasoning, while selectively accessing and utilizing essential video content via tool using. We conduct extensive experiments on popular LVU benchmarks, including MLVU, Video-MME, and LVBench. Our results demonstrate that VideoDeepResearch achieves substantial improvements over existing MLLM baselines, surpassing the previous state-of-the-art by 9.6%, 6.6%, and 3.9% on MLVU (test), LVBench, and LongVideoBench, respectively. These findings highlight the promise of agentic systems in overcoming key challenges in LVU problems.

arxiv情報

著者 Huaying Yuan,Zheng Liu,Junjie Zhou,Ji-Rong Wen,Zhicheng Dou
発行日 2025-06-12 15:39:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | VideoDeepResearch: Long Video Understanding With Agentic Tool Using はコメントを受け付けていません

Generalist Models in Medical Image Segmentation: A Survey and Performance Comparison with Task-Specific Approaches

要約

大規模な言語モデルのパラダイムシフトが成功し、データの大規模なコーパスでの事前トレーニングを活用し、さまざまな下流タスクで微調整することに続いて、ジェネラリストモデルはコンピュータービジョンに進出しました。
セグメントの導入Anything Model(SAM)は、自然画像のセグメンテーションに関するマイルストーンを設定し、医療画像セグメンテーションのための多数のアーキテクチャの設計を刺激します。
この調査では、医療画像セグメンテーションのためのジェネラリストモデルに関する包括的かつ詳細な調査を提供します。
私たちは、それらの開発を支える基礎概念に関する紹介から始めます。
次に、最近のSAM 2で、画像のみで訓練された他の革新的なモデルや、テキストと画像の両方で訓練された他のモデルで、ゼロショット、少数のショット、微調整、アダプター、およびゼロショット、少数のショット、微調整、アダプターの観点から、SAMのさまざまな衰退に関する分類法を提供します。
主要な研究と文学最高の両方のレベルで彼らのパフォーマンスを徹底的に分析し、その後、最先端のタスク固有のモデルと厳密に比較します。
規制の枠組み、プライバシーとセキュリティ法、予算、信頼できる人工知能(AI)の順守という点で課題に対処する必要性を強調しています。
最後に、合成データ、早期融合、自然言語加工の一般主義モデルから学んだ教訓、エージェントAIおよび物理AI、および臨床翻訳に関する将来の方向性に関する視点を共有します。

要約(オリジナル)

Following the successful paradigm shift of large language models, leveraging pre-training on a massive corpus of data and fine-tuning on different downstream tasks, generalist models have made their foray into computer vision. The introduction of Segment Anything Model (SAM) set a milestone on segmentation of natural images, inspiring the design of a multitude of architectures for medical image segmentation. In this survey we offer a comprehensive and in-depth investigation on generalist models for medical image segmentation. We start with an introduction on the fundamentals concepts underpinning their development. Then, we provide a taxonomy on the different declinations of SAM in terms of zero-shot, few-shot, fine-tuning, adapters, on the recent SAM 2, on other innovative models trained on images alone, and others trained on both text and images. We thoroughly analyze their performances at the level of both primary research and best-in-literature, followed by a rigorous comparison with the state-of-the-art task-specific models. We emphasize the need to address challenges in terms of compliance with regulatory frameworks, privacy and security laws, budget, and trustworthy artificial intelligence (AI). Finally, we share our perspective on future directions concerning synthetic data, early fusion, lessons learnt from generalist models in natural language processing, agentic AI and physical AI, and clinical translation.

arxiv情報

著者 Andrea Moglia,Matteo Leccardi,Matteo Cavicchioli,Alice Maccarini,Marco Marcon,Luca Mainardi,Pietro Cerveri
発行日 2025-06-12 15:44:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: A.1, cs.AI, cs.CV, eess.IV | Generalist Models in Medical Image Segmentation: A Survey and Performance Comparison with Task-Specific Approaches はコメントを受け付けていません

Video-CoT: A Comprehensive Dataset for Spatiotemporal Understanding of Videos Based on Chain-of-Thought

要約

ビデオ分析からインタラクティブなシステムに至るまで、ビデオコンテンツの理解は、さまざまなアプリケーションに不可欠です。
大規模なビジョン言語モデル(VLM)の進歩にもかかわらず、これらのモデルは、徹底的なビデオ分析に不可欠な微妙で空間的な詳細を捉えるのに苦労しています。
このギャップに対処するために、チェーン思考(COT)の方法論を使用して時空間的理解を強化するように設計された画期的なデータセットであるビデオコットを紹介します。
ビデオコットには、192,000個の細粒のスパチオティオティオティオティオ型の質問分配ペアと23,000個の高品質のCOT解剖されたサンプルが含まれており、ビデオ理解における空間的理解を評価するための強固な基盤を提供します。
さらに、これらのタスクを評価するための包括的なベンチマークを提供します。各タスクには750の画像とカスタマイズされた評価メトリックが特徴です。
私たちの広範な実験は、現在のVLMSが満足のいくパフォーマンスを達成する上で重要な課題に直面しており、効果的な空間的理解の困難を高く示していることが明らかになりました。
全体として、ビデオコットデータセットとベンチマークは、高度なビデオ分析機能を必要とするインテリジェントシステムの将来の革新を理解し、サポートするための新しい道をオープンします。
これらのリソースを公開することにより、この重要な分野でのさらなる調査を奨励することを目指しています。
プロジェクトWebサイト:https://video-cot.github.io/。

要約(オリジナル)

Video content comprehension is essential for various applications, ranging from video analysis to interactive systems. Despite advancements in large-scale vision-language models (VLMs), these models often struggle to capture the nuanced, spatiotemporal details essential for thorough video analysis. To address this gap, we introduce Video-CoT, a groundbreaking dataset designed to enhance spatiotemporal understanding using Chain-of-Thought (CoT) methodologies. Video-CoT contains 192,000 fine-grained spa-tiotemporal question-answer pairs and 23,000 high-quality CoT-annotated samples, providing a solid foundation for evaluating spatiotemporal understanding in video comprehension. Additionally, we provide a comprehensive benchmark for assessing these tasks, with each task featuring 750 images and tailored evaluation metrics. Our extensive experiments reveal that current VLMs face significant challenges in achieving satisfactory performance, high-lighting the difficulties of effective spatiotemporal understanding. Overall, the Video-CoT dataset and benchmark open new avenues for research in multimedia understanding and support future innovations in intelligent systems requiring advanced video analysis capabilities. By making these resources publicly available, we aim to encourage further exploration in this critical area. Project website:https://video-cot.github.io/ .

arxiv情報

著者 Shuyi Zhang,Xiaoshuai Hao,Yingbo Tang,Lingfeng Zhang,Pengwei Wang,Zhongyuan Wang,Hongxuan Ma,Shanghang Zhang
発行日 2025-06-12 15:51:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Video-CoT: A Comprehensive Dataset for Spatiotemporal Understanding of Videos Based on Chain-of-Thought はコメントを受け付けていません