Towards Accurate and Interpretable Neuroblastoma Diagnosis via Contrastive Multi-scale Pathological Image Analysis

要約

副腎由来の神経芽細胞腫は、有意な臨床的不均一性を特徴とする最も一般的な小児固形悪性の一つです。
ヘマトキシリンとエオシン染色全体のスライド画像からのタイムリーで正確な病理学的診断は、患者の予後に重要です。
ただし、現在の診断慣行は主に病理学者による主観的な手動検査に依存しており、一貫性のない精度につながります。
既存の自動化された全体のスライド画像分類方法は、解釈可能性の低さ、限られた特徴抽出機能、高い計算コストなどの課題に遭遇し、実際の臨床展開を制限します。
これらの制限を克服するために、病理学的画像分類に合わせた対照的な学習ベースのマルチスケール機能融合モデルであるCmswinkanを提案します。これは、マルチレイヤーパーセプトロンと分類ヘッドモジュール内のカーネルアクティベーションネットワークを統合し、解釈と正確性の両方を大幅に改善することにより、SWINトランスネットワークを強化します。
マルチスケールの機能を融合させ、対照的な学習戦略を活用することにより、CMSwinkanは臨床医の包括的なアプローチを模倣し、グローバルおよびローカル組織の特性を効果的に獲得します。
さらに、臨床的洞察に導かれたヒューリスティックなソフト投票メカニズムを紹介し、パッチレベルの予測をシームレスにブリッジする画像レベルの分類全体にシームレスに橋渡しします。
PPNTSデータセットでCmswinkanを検証します。これは、パートナー病院と公開可能なBreakhisデータセットと協力して確立されました。
結果は、Cmswinkanが大規模なデータセットで事前に訓練された既存の最先端の病理固有のモデルよりも優れていることを示しています。
ソースコードは、https://github.com/jsliam94/cmswinkanで入手できます。

要約(オリジナル)

Neuroblastoma, adrenal-derived, is among the most common pediatric solid malignancies, characterized by significant clinical heterogeneity. Timely and accurate pathological diagnosis from hematoxylin and eosin-stained whole slide images is critical for patient prognosis. However, current diagnostic practices primarily rely on subjective manual examination by pathologists, leading to inconsistent accuracy. Existing automated whole slide image classification methods encounter challenges such as poor interpretability, limited feature extraction capabilities, and high computational costs, restricting their practical clinical deployment. To overcome these limitations, we propose CMSwinKAN, a contrastive-learning-based multi-scale feature fusion model tailored for pathological image classification, which enhances the Swin Transformer architecture by integrating a Kernel Activation Network within its multilayer perceptron and classification head modules, significantly improving both interpretability and accuracy. By fusing multi-scale features and leveraging contrastive learning strategies, CMSwinKAN mimics clinicians’ comprehensive approach, effectively capturing global and local tissue characteristics. Additionally, we introduce a heuristic soft voting mechanism guided by clinical insights to seamlessly bridge patch-level predictions to whole slide image-level classifications. We validate CMSwinKAN on the PpNTs dataset, which was collaboratively established with our partner hospital and the publicly accessible BreakHis dataset. Results demonstrate that CMSwinKAN performs better than existing state-of-the-art pathology-specific models pre-trained on large datasets. Our source code is available at https://github.com/JSLiam94/CMSwinKAN.

arxiv情報

著者 Zhu Zhu,Shuo Jiang,Jingyuan Zheng,Yawen Li,Yifei Chen,Manli Zhao,Weizhong Gu,Feiwei Qin,Jinhu Wang,Gang Yu
発行日 2025-04-18 15:39:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Towards Accurate and Interpretable Neuroblastoma Diagnosis via Contrastive Multi-scale Pathological Image Analysis はコメントを受け付けていません

Fragile Watermarking for Image Certification Using Deep Steganographic Embedding

要約

最新のアイデンティティ検証システムは、電子パスポートなどの生体認証文書に埋め込まれた顔の画像にますます依存しています。
グローバルな相互運用性とセキュリティを確保するために、これらの画像は、取得、品質、および形式の要件を指定する国際民間航空機関(ICAO)によって定義された厳格な基準に準拠する必要があります。
ただし、発行されると、これらの画像は、意図しない劣化(たとえば、圧縮、サイズ変更)または悪意のある操作(モーフィングなど)を受け、顔認識システムを欺く可能性があります。
この研究では、ICAOに準拠した顔の画像の信頼性を証明するための積極的なメカニズムとしての深いステガノグラフィ埋め込みに基づいて、脆弱な透かしを探ります。
発行時に公式の写真に隠された画像を埋め込むことにより、あらゆる問題の変更に敏感になる整合性マーカーを確立します。
さまざまな画像操作が回収された隠された画像にどのように影響するかを評価し、劣化アーティファクトが堅牢な法医学的キューとして機能することを示します。
さらに、適用された操作の種類を検出および分類するために、明らかにされたコンテンツを分析する分類フレームワークを提案します。
私たちの実験は、複数の深いステガノグラフィベースのモデルを備えたクロスメソッドシナリオを含む、高い検出精度を示しています。
これらの発見は、生体認証文書の整合性検証のための貴重なツールとしてのステガノグラフィ埋め込みによる脆弱な透かしの実行可能性をサポートしています。

要約(オリジナル)

Modern identity verification systems increasingly rely on facial images embedded in biometric documents such as electronic passports. To ensure global interoperability and security, these images must comply with strict standards defined by the International Civil Aviation Organization (ICAO), which specify acquisition, quality, and format requirements. However, once issued, these images may undergo unintentional degradations (e.g., compression, resizing) or malicious manipulations (e.g., morphing) and deceive facial recognition systems. In this study, we explore fragile watermarking, based on deep steganographic embedding as a proactive mechanism to certify the authenticity of ICAO-compliant facial images. By embedding a hidden image within the official photo at the time of issuance, we establish an integrity marker that becomes sensitive to any post-issuance modification. We assess how a range of image manipulations affects the recovered hidden image and show that degradation artifacts can serve as robust forensic cues. Furthermore, we propose a classification framework that analyzes the revealed content to detect and categorize the type of manipulation applied. Our experiments demonstrate high detection accuracy, including cross-method scenarios with multiple deep steganography-based models. These findings support the viability of fragile watermarking via steganographic embedding as a valuable tool for biometric document integrity verification.

arxiv情報

著者 Davide Ghiani,Jefferson David Rodriguez Chivata,Stefano Lilliu,Simone Maurizio La Cava,Marco Micheletto,Giulia Orrù,Federico Lama,Gian Luca Marcialis
発行日 2025-04-18 15:51:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Fragile Watermarking for Image Certification Using Deep Steganographic Embedding はコメントを受け付けていません

Rethinking Temporal Fusion with a Unified Gradient Descent View for 3D Semantic Occupancy Prediction

要約

視力ベースの3Dセマンティック占有率予測(VisionCC)の時間的融合法であるGDFusionを提示します。
GDFusionは、VisionCCフレームワーク内の一時的な融合の未使用の側面を開き、時間的キューと融合戦略の両方に焦点を当てます。
VisionOCCパイプライン全体を体系的に調べて、3つの基本的でありながら以前見落とされがちな時間的キューを特定します。シーンレベルの一貫性、モーションキャリブレーション、幾何学的補完です。
これらのキューは、時間的進化の多様な側面をキャプチャし、VisionCCフレームワークのさまざまなモジュールにわたって明確な貢献をします。
不均一な表現全体で時間信号を効果的に融合するために、バニラRNNの定式化を再解釈することにより、新しい融合戦略を提案します。
この再解釈は、多様な時間情報の統合を統合するために機能に勾配降下を活用し、提案された時間的キューをネットワークにシームレスに埋め込みます。
ヌスセンに関する広範な実験は、GdFusionが確立されたベースラインを大幅に上回ることを示しています。
特に、OCC3Dベンチマークでは、1.4 \%-4.8 \%MIOUの改善を達成し、メモリ消費を27 \%-72 \%減少させます。

要約(オリジナル)

We present GDFusion, a temporal fusion method for vision-based 3D semantic occupancy prediction (VisionOcc). GDFusion opens up the underexplored aspects of temporal fusion within the VisionOcc framework, focusing on both temporal cues and fusion strategies. It systematically examines the entire VisionOcc pipeline, identifying three fundamental yet previously overlooked temporal cues: scene-level consistency, motion calibration, and geometric complementation. These cues capture diverse facets of temporal evolution and make distinct contributions across various modules in the VisionOcc framework. To effectively fuse temporal signals across heterogeneous representations, we propose a novel fusion strategy by reinterpreting the formulation of vanilla RNNs. This reinterpretation leverages gradient descent on features to unify the integration of diverse temporal information, seamlessly embedding the proposed temporal cues into the network. Extensive experiments on nuScenes demonstrate that GDFusion significantly outperforms established baselines. Notably, on Occ3D benchmark, it achieves 1.4\%-4.8\% mIoU improvements and reduces memory consumption by 27\%-72\%.

arxiv情報

著者 Dubing Chen,Huan Zheng,Jin Fang,Xingping Dong,Xianfei Li,Wenlong Liao,Tao He,Pai Peng,Jianbing Shen
発行日 2025-04-18 15:58:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Rethinking Temporal Fusion with a Unified Gradient Descent View for 3D Semantic Occupancy Prediction はコメントを受け付けていません

Decoding Vision Transformers: the Diffusion Steering Lens

要約

Logit Lensは、変圧器ベースの言語モデルの機械的解釈性のための広く採用されている方法であり、それらを出力語彙空間に投影することにより、層全体で内部表現がどのように進化するかを分析することができます。
ロジットレンズをVision Transformers(VITS)に適用することは技術的に簡単ですが、視覚表現の豊かさをキャプチャする上での直接的な使用の制限があります。
Toker et al。
(2024)〜\ cite {toker2024-ve}は、拡散レンズを導入してテキストからイメージへの拡散モデルのテキストエンコーダの中間表現を視覚化しますが、拡散レンズは画像エンコーダーの残留ストリーム表現を効果的に視覚化できる一方で、個々のサブモジュールの直接的な寄与を獲得できないことを示しています。
この制限を克服するために、\ textBf {拡散ステアリングレンズ}(DSL)を提案します。これは、サブモジュールの出力とその後の間接的な貢献をパッチする新しいトレーニングなしのアプローチです。
介入研究を通じて私たちの方法を検証し、DSLがVITSの内部処理の直感的で信頼できる解釈を提供することを示しています。

要約(オリジナル)

Logit Lens is a widely adopted method for mechanistic interpretability of transformer-based language models, enabling the analysis of how internal representations evolve across layers by projecting them into the output vocabulary space. Although applying Logit Lens to Vision Transformers (ViTs) is technically straightforward, its direct use faces limitations in capturing the richness of visual representations. Building on the work of Toker et al. (2024)~\cite{Toker2024-ve}, who introduced Diffusion Lens to visualize intermediate representations in the text encoders of text-to-image diffusion models, we demonstrate that while Diffusion Lens can effectively visualize residual stream representations in image encoders, it fails to capture the direct contributions of individual submodules. To overcome this limitation, we propose \textbf{Diffusion Steering Lens} (DSL), a novel, training-free approach that steers submodule outputs and patches subsequent indirect contributions. We validate our method through interventional studies, showing that DSL provides an intuitive and reliable interpretation of the internal processing in ViTs.

arxiv情報

著者 Ryota Takatsuki,Sonia Joseph,Ippei Fujisawa,Ryota Kanai
発行日 2025-04-18 16:00:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Decoding Vision Transformers: the Diffusion Steering Lens はコメントを受け付けていません

Fighting Fires from Space: Leveraging Vision Transformers for Enhanced Wildfire Detection and Characterization

要約

人為的気候変動の結果として、世界の大部分で強度、頻度、および期間が増加しています。
山火事を扱う最新のハザード検出と応答システムは、持続的な山火事の季節には装備が不十分です。
最近の研究により、衛星画像で訓練された畳み込みニューラルネットワーク(CNN)を使用した自動化された山火事検出は、高精度の結果が得られることが証明されています。
ただし、CNNはトレーニングするのに計算的に費用がかかり、ローカル画像コンテキストのみが組み込まれています。
最近、Vision Transformers(VITS)は、効率的なトレーニングと、ローカルおよびグローバルなコンテキスト情報の両方を含める能力で人気を博しています。
この作業では、VITがよく訓練された特殊なCNNを上回って、Landsat-8画像の以前に公開されたデータセットで山火事を検出できることを示しています。
私たちのVITの1つは、ベースラインCNN比較を0.92%上回っています。
ただし、CNNベースのUNETの独自の実装は、すべてのカテゴリで最高のパフォーマンスを発揮し、画像タスクに持続的なユーティリティを示しています。
全体として、VITはCNNとして山火事を検出するのに同等の能力がありますが、よく調整されたCNNは、ベースラインUNETよりも約4.58%である93.58%を提供するUNETを提供するUNETで山火事を検出するための最良の手法です。

要約(オリジナル)

Wildfires are increasing in intensity, frequency, and duration across large parts of the world as a result of anthropogenic climate change. Modern hazard detection and response systems that deal with wildfires are under-equipped for sustained wildfire seasons. Recent work has proved automated wildfire detection using Convolutional Neural Networks (CNNs) trained on satellite imagery are capable of high-accuracy results. However, CNNs are computationally expensive to train and only incorporate local image context. Recently, Vision Transformers (ViTs) have gained popularity for their efficient training and their ability to include both local and global contextual information. In this work, we show that ViT can outperform well-trained and specialized CNNs to detect wildfires on a previously published dataset of LandSat-8 imagery. One of our ViTs outperforms the baseline CNN comparison by 0.92%. However, we find our own implementation of CNN-based UNet to perform best in every category, showing their sustained utility in image tasks. Overall, ViTs are comparably capable in detecting wildfires as CNNs, though well-tuned CNNs are still the best technique for detecting wildfire with our UNet providing an IoU of 93.58%, better than the baseline UNet by some 4.58%.

arxiv情報

著者 Aman Agarwal,James Gearon,Raksha Rank,Etienne Chenevert
発行日 2025-04-18 16:25:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Fighting Fires from Space: Leveraging Vision Transformers for Enhanced Wildfire Detection and Characterization はコメントを受け付けていません

Learning Through Retrospection: Improving Trajectory Prediction for Automated Driving with Error Feedback

要約

自動運転では、周囲の車両の軌跡を予測することは、シーンのダイナミクスに関する推論をサポートし、エゴ車両の安全な計画を可能にします。
ただし、既存のモデルは、観察された情報に基づいて将来の軌跡を予測する瞬間的なタスクとして予測を処理します。
時間が経過すると、次の予測は前の予測とは独立して行われます。つまり、モデルは推論中にエラーを修正できず、繰り返します。
この問題を軽減し、一時的なデータをよりよく活用するために、新しい回顧技術を提案します。
閉ループロールアウトのトレーニングを通じて、モデルは集約されたフィードバックを使用することを学びます。
新しい観察結果を考えると、それは以前の予測を反映し、そのエラーを分析して、その後の予測の品質を改善します。
したがって、モデルは、推論中に体系的なエラーを修正することを学ぶことができます。
ヌスセンとアラウブに関する包括的な実験は、遡及のない最先端のベースラインと比較して、最大31.9%の最小平均変位誤差の大幅な減少を示しています。
さらに、検出されていない道路ユーザーを使用して、分散型シナリオをより適切に処理することを実証することにより、テクニックの堅牢性をさらに紹介します。

要約(オリジナル)

In automated driving, predicting trajectories of surrounding vehicles supports reasoning about scene dynamics and enables safe planning for the ego vehicle. However, existing models handle predictions as an instantaneous task of forecasting future trajectories based on observed information. As time proceeds, the next prediction is made independently of the previous one, which means that the model cannot correct its errors during inference and will repeat them. To alleviate this problem and better leverage temporal data, we propose a novel retrospection technique. Through training on closed-loop rollouts the model learns to use aggregated feedback. Given new observations it reflects on previous predictions and analyzes its errors to improve the quality of subsequent predictions. Thus, the model can learn to correct systematic errors during inference. Comprehensive experiments on nuScenes and Argoverse demonstrate a considerable decrease in minimum Average Displacement Error of up to 31.9% compared to the state-of-the-art baseline without retrospection. We further showcase the robustness of our technique by demonstrating a better handling of out-of-distribution scenarios with undetected road-users.

arxiv情報

著者 Steffen Hagedorn,Aron Distelzweig,Marcel Hallgarten,Alexandru P. Condurache
発行日 2025-04-18 16:35:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Learning Through Retrospection: Improving Trajectory Prediction for Automated Driving with Error Feedback はコメントを受け付けていません

RefComp: A Reference-guided Unified Framework for Unpaired Point Cloud Completion

要約

対応のないポイントクラウド完了タスクは、グラウンドトゥルースなしで訓練されたモデルを使用して、部分ポイントクラウドを完成させることを目的としています。
既存の対応のないポイントクラウド完了方法はクラスを意識しています。つまり、各オブジェクトクラスに別のモデルが必要です。
一般化能力が限られているため、これらのメソッドは、一般的な3Dオブジェクトの幅広いポイントクラウドに直面した場合、実際のシナリオでは性能が低くなります。
このホワイトペーパーでは、斬新な対応のないポイントクラウド完了フレームワーク、つまり、クラスアウェアとクラスに依存しないトレーニング設定の両方で強力なパフォーマンスを達成する参照ガイド付き完了(RefComp)フレームワークを提案します。
RefCOMPフレームワークは、未熟な完了問題を形状翻訳問題に変換します。これは、部分ポイント雲の潜在的な特徴空間で解決されます。
この目的のために、部分的なポイントクラウドペアの使用を導入します。これは、部分的なポイントクラウドを使用してテンプレートとして完了することによって取得されます。
これらのポイントクラウドペアは、完了プロセスをガイドするための参照データとして使用されます。
RefCompフレームワークは、参照ブランチとターゲットブランチを使用して、潜在形状融合モジュール(LSFM)を介した形状融合と形状翻訳の共有パラメーターを備えたパラメーターを使用して、完了パイプラインに沿った構造的特徴を強化します。
広範な実験は、RefCompフレームワークがクラ​​スを意識したトレーニング設定で最先端のパフォーマンスを達成するだけでなく、仮想スキャンと現実世界のデータセットの両方でクラスに依存しないトレーニング設定で競争力のある結果を達成することを示しています。

要約(オリジナル)

The unpaired point cloud completion task aims to complete a partial point cloud by using models trained with no ground truth. Existing unpaired point cloud completion methods are class-aware, i.e., a separate model is needed for each object class. Since they have limited generalization capabilities, these methods perform poorly in real-world scenarios when confronted with a wide range of point clouds of generic 3D objects. In this paper, we propose a novel unpaired point cloud completion framework, namely the Reference-guided Completion (RefComp) framework, which attains strong performance in both the class-aware and class-agnostic training settings. The RefComp framework transforms the unpaired completion problem into a shape translation problem, which is solved in the latent feature space of the partial point clouds. To this end, we introduce the use of partial-complete point cloud pairs, which are retrieved by using the partial point cloud to be completed as a template. These point cloud pairs are used as reference data to guide the completion process. Our RefComp framework uses a reference branch and a target branch with shared parameters for shape fusion and shape translation via a Latent Shape Fusion Module (LSFM) to enhance the structural features along the completion pipeline. Extensive experiments demonstrate that the RefComp framework achieves not only state-of-the-art performance in the class-aware training setting but also competitive results in the class-agnostic training setting on both virtual scans and real-world datasets.

arxiv情報

著者 Yixuan Yang,Jinyu Yang,Zixiang Zhao,Victor Sanchez,Feng Zheng
発行日 2025-04-18 16:40:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RefComp: A Reference-guided Unified Framework for Unpaired Point Cloud Completion はコメントを受け付けていません

VCR: A Task for Pixel-Level Complex Reasoning in Vision Language Models via Restoring Occluded Text

要約

画像内のピクセルレベルのヒントを使用して部分的に不明瞭なテキストを正確に復元するようにモデルに挑戦する新しいビジョン言語タスクである視覚的なキャプション修復(VCR)を紹介します。
このタスクは、画像に埋め込まれたテキストは、画像に埋め込まれた視覚、テキスト、テキストのモダリティを調整する必要があるため、一般的な視覚要素や自然言語と本質的に異なるという観察から生じます。
多くの作品では、画像に視覚的な質問回答タスクに埋め込まれたテキストを統合していますが、これらのタスクへのアプローチは一般に光学的文字認識またはマスクされた言語モデリングに依存しているため、タスクを主にテキストベースの処理に減らします。
ただし、正確なテキストの復元は、提供された画像、コンテキスト、およびマスクされたテキストの小さな露出領域からの微妙な手がかりからの組み合わせ情報に依存するため、VCRでテキストベースの処理が効果的になります。
画像キャプションペアを使用してVCRタスクの合成画像を生成するパイプラインを開発し、タスクの難易度を制御するための調整可能なキャプションの可視性を備えています。
このパイプラインを使用すると、Wikipediaのキャプションを備えた画像を使用してVCR-Wikiと呼ばれるVCRのデータセットを構築します。
私たちの結果は、現在のビジョン言語モデルがVCRタスクで人間のパフォーマンスに大きく遅れていることを明らかにしており、データセットのモデルを微調整しても顕著な改善につながらないことがわかります。
将来の研究を促進するために、VCR-Wikiとデータ構築コードをリリースします。

要約(オリジナル)

We introduce Visual Caption Restoration (VCR), a novel vision-language task that challenges models to accurately restore partially obscured texts using pixel-level hints within images. This task stems from the observation that text embedded in images is intrinsically different from common visual elements and natural language due to the need to align the modalities of vision, text, and text embedded in images. While numerous works have integrated text embedded in images into visual question-answering tasks, approaches to these tasks generally rely on optical character recognition or masked language modeling, thus reducing the task to mainly text-based processing. However, text-based processing becomes ineffective in VCR as accurate text restoration depends on the combined information from provided images, context, and subtle cues from the tiny exposed areas of masked texts. We develop a pipeline to generate synthetic images for the VCR task using image-caption pairs, with adjustable caption visibility to control the task difficulty. With this pipeline, we construct a dataset for VCR called VCR-Wiki using images with captions from Wikipedia, comprising 2.11M English and 346K Chinese entities in both easy and hard split variants. Our results reveal that current vision language models significantly lag behind human performance in the VCR task, and merely fine-tuning the models on our dataset does not lead to notable improvements. We release VCR-Wiki and the data construction code to facilitate future research.

arxiv情報

著者 Tianyu Zhang,Suyuchen Wang,Lu Li,Ge Zhang,Perouz Taslakian,Sai Rajeswar,Jie Fu,Bang Liu,Yoshua Bengio
発行日 2025-04-18 16:42:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | VCR: A Task for Pixel-Level Complex Reasoning in Vision Language Models via Restoring Occluded Text はコメントを受け付けていません

GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents

要約

グラフィカルユーザーインターフェイス(GUI)エージェントの構築における既存の取り組みは、大規模な視覚言語モデル(LVLMS)で監視された微調整のトレーニングパラダイムに大きく依存しています。
ただし、このアプローチには、幅広いトレーニングデータが必要であるだけでなく、GUIスクリーンショットを効果的に理解し、目に見えないインターフェイスに一般化するのに苦労しています。
この問題は、特に高レベルのタスクでは、実際のシナリオでのアプリケーションを大幅に制限しています。
大規模な推論モデル(例えば、Deepseek-R1)の強化微調整(RFT)に触発され、実際の設定での大規模な言語モデルの問題解決機能を効率的に強化します。
By leveraging a small amount of carefully curated high-quality data across multiple platforms (including Windows, Linux, MacOS, Android, and Web) and employing policy optimization algorithms such as Group Relative Policy Optimization (GRPO) to update the model, \name achieves superior performance using only 0.02\% of the data (3K vs. 13M) compared to previous state-of-the-art methods like OS-Atlas across eight benchmarks spanning three different
プラットフォーム(モバイル、デスクトップ、およびWeb)。
これらの結果は、実世界のGUIエージェントタスクのLVLMSの実行能力を改善する際の統一されたアクション空間ルールモデリングに基づいて、強化学習の計り知れない可能性を示しています。

要約(オリジナル)

Existing efforts in building Graphical User Interface (GUI) agents largely rely on the training paradigm of supervised fine-tuning on Large Vision-Language Models (LVLMs). However, this approach not only demands extensive amounts of training data but also struggles to effectively understand GUI screenshots and generalize to unseen interfaces. The issue significantly limits its application in real-world scenarios, especially for high-level tasks. Inspired by Reinforcement Fine-Tuning (RFT) in large reasoning models (e.g., DeepSeek-R1), which efficiently enhances the problem-solving capabilities of large language models in real-world settings, we propose \name, the first reinforcement learning framework designed to enhance the GUI capabilities of LVLMs in high-level real-world task scenarios, through unified action space rule modeling. By leveraging a small amount of carefully curated high-quality data across multiple platforms (including Windows, Linux, MacOS, Android, and Web) and employing policy optimization algorithms such as Group Relative Policy Optimization (GRPO) to update the model, \name achieves superior performance using only 0.02\% of the data (3K vs. 13M) compared to previous state-of-the-art methods like OS-Atlas across eight benchmarks spanning three different platforms (mobile, desktop, and web). These results demonstrate the immense potential of reinforcement learning based on unified action space rule modeling in improving the execution capabilities of LVLMs for real-world GUI agent tasks.

arxiv情報

著者 Run Luo,Lu Wang,Wanwei He,Xiaobo Xia
発行日 2025-04-18 16:57:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.HC | GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents はコメントを受け付けていません

High-Resolution Frame Interpolation with Patch-based Cascaded Diffusion

要約

最近の進歩にもかかわらず、既存のフレーム補間方法は、非常に高解像度の入力の処理と、繰り返しテクスチャ、薄いオブジェクト、大きな動きなどの困難なケースの処理に依然として苦労しています。
これらの問題に対処するために、標準ベンチマークで競争力のあるパフォーマンスを達成しながら、これらのシナリオに優れている高解像度フレーム補間HIFIのパッチベースのカスケードピクセル拡散モデルを導入します。
低解像度から高解像度から高解像度から高解像度まで一連の画像を生成するカスケードは、粗いソリューションのグローバルコンテキストと高解像度出力の詳細なコンテキストの両方を必要とする大規模または複雑な動きで大幅に役立ちます。
ただし、ますます大規模な解像度で拡散を実行するカスケード拡散モデルに関する以前の作業とは反対に、入力のパッチと以前のソリューションを処理することにより、同じ解像度で常に拡散を実行し、拡散を実行する単一のモデルを使用します。
推論時に、これによりメモリの使用量が大幅に削減され、単一のモデルが許可され、フレーム補間(ベースモデルのタスク)と空間的アップサンプリングの両方を解き、トレーニングコストも節約できます。
HIFIは、さまざまなベンチマーク(Vimeo、XIPH、X-Test、およびSEPE-8K)で同等または最先端のパフォーマンスを実現し、グローバルなコンテキストを必要とする高解像度の画像と複雑な繰り返しテクスチャに優れています。
さらに、特に挑戦的なケースに焦点を当てた新しいデータセット、Lamorを紹介し、HiFiは他のベースラインを大幅に上回ります。
ビデオの結果については、プロジェクトページをご覧ください:https://hifi-diffusion.github.io

要約(オリジナル)

Despite the recent progress, existing frame interpolation methods still struggle with processing extremely high resolution input and handling challenging cases such as repetitive textures, thin objects, and large motion. To address these issues, we introduce a patch-based cascaded pixel diffusion model for high resolution frame interpolation, HIFI, that excels in these scenarios while achieving competitive performance on standard benchmarks. Cascades, which generate a series of images from low to high resolution, can help significantly with large or complex motion that require both global context for a coarse solution and detailed context for high resolution output. However, contrary to prior work on cascaded diffusion models which perform diffusion on increasingly large resolutions, we use a single model that always performs diffusion at the same resolution and upsamples by processing patches of the inputs and the prior solution. At inference time, this drastically reduces memory usage and allows a single model, solving both frame interpolation (base model’s task) and spatial up-sampling, saving training cost as well. HIFI excels at high-resolution images and complex repeated textures that require global context, achieving comparable or state-of-the-art performance on various benchmarks (Vimeo, Xiph, X-Test, and SEPE-8K). We further introduce a new dataset, LaMoR, that focuses on particularly challenging cases, and HIFI significantly outperforms other baselines. Please visit our project page for video results: https://hifi-diffusion.github.io

arxiv情報

著者 Junhwa Hur,Charles Herrmann,Saurabh Saxena,Janne Kontkanen,Wei-Sheng Lai,Yichang Shih,Michael Rubinstein,David J. Fleet,Deqing Sun
発行日 2025-04-18 17:32:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | High-Resolution Frame Interpolation with Patch-based Cascaded Diffusion はコメントを受け付けていません