Breaking the Data Barrier — Building GUI Agents Through Task Generalization

要約

グラフィカルユーザーインターフェイス(GUI)エージェントは、生産性ワークフローを変換する大きな可能性を備えた、複雑なデジタルタスクを自動化するためのクロスプラットフォームソリューションを提供しています。
ただし、それらのパフォーマンスは、多くの場合、高品質の軌跡データの希少性によって制約されます。
この制限に対処するために、専用のトレーニング段階でデータが豊富で推論集約型のタスクに関するトレーニングビジョン言語モデル(VLM)を提案し、これらのタスクを組み込むことでGUI計画シナリオへの一般化をどのように促進するかを調べます。
具体的には、GUI認識、マルチモーダル推論、テキストの推論など、容易に利用可能な命令調整データを備えたさまざまなタスクを調査します。
11の中間トレーニングタスクにわたる広範な実験を通じて、次のことを実証します。(1)タスクの一般化は非常に効果的であり、ほとんどの設定で大幅な改善をもたらします。
たとえば、マルチモーダルの数学的推論は、Androidworldのパフォーマンスを絶対6.3%増加させます。
驚くべきことに、テキストのみの数学データは、GUI Webエージェントのパフォーマンスを大幅に向上させ、WebArenaの5.6%の改善とAndroidworldの5.4%の改善を達成し、テキストベースから視覚ドメインまでの顕著なクロスモーダルの一般化を強調しています。
(2)以前の仮定に反して、GUI認識データ(以前はGUIエージェントタスクと密接に整合し、トレーニングに広く利用されていた)は、最終パフォーマンスに比較的限られた影響を及ぼします。
(3)これらの洞察に基づいて、最も効果的なミッドトレーニングタスクを特定し、最適化された混合データセットをキュレートし、WebArenaで8.0%、AndroidWorldで12.2%の絶対パフォーマンスの向上をもたらします。
私たちの作品は、GUIエージェントのクロスドメイン知識移転に関する貴重な洞察を提供し、この新興分野でのデータ不足の課題に対処するための実用的なアプローチを提供します。
コード、データ、モデルはhttps://github.com/hkust-nlp/guimidで入手できます。

要約(オリジナル)

Graphical User Interface (GUI) agents offer cross-platform solutions for automating complex digital tasks, with significant potential to transform productivity workflows. However, their performance is often constrained by the scarcity of high-quality trajectory data. To address this limitation, we propose training Vision Language Models (VLMs) on data-rich, reasoning-intensive tasks during a dedicated mid-training stage, and then examine how incorporating these tasks facilitates generalization to GUI planning scenarios. Specifically, we explore a range of tasks with readily available instruction-tuning data, including GUI perception, multimodal reasoning, and textual reasoning. Through extensive experiments across 11 mid-training tasks, we demonstrate that: (1) Task generalization proves highly effective, yielding substantial improvements across most settings. For instance, multimodal mathematical reasoning enhances performance on AndroidWorld by an absolute 6.3%. Remarkably, text-only mathematical data significantly boosts GUI web agent performance, achieving a 5.6% improvement on WebArena and 5.4% improvement on AndroidWorld, underscoring notable cross-modal generalization from text-based to visual domains; (2) Contrary to prior assumptions, GUI perception data – previously considered closely aligned with GUI agent tasks and widely utilized for training – has a comparatively limited impact on final performance; (3) Building on these insights, we identify the most effective mid-training tasks and curate optimized mixture datasets, resulting in absolute performance gains of 8.0% on WebArena and 12.2% on AndroidWorld. Our work provides valuable insights into cross-domain knowledge transfer for GUI agents and offers a practical approach to addressing data scarcity challenges in this emerging field. The code, data and models will be available at https://github.com/hkust-nlp/GUIMid.

arxiv情報

著者 Junlei Zhang,Zichen Ding,Chang Ma,Zijie Chen,Qiushi Sun,Zhenzhong Lan,Junxian He
発行日 2025-04-15 17:13:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Breaking the Data Barrier — Building GUI Agents Through Task Generalization はコメントを受け付けていません

Kimi-VL Technical Report

要約

高度なマルチモーダル推論、長いコンテキストの理解、強力なエージェント機能を提供する効率的なオープンソース混合物(MOE)ビジョン言語モデル(VLM)であるKimi-VLを提示します。
Kimi-VLは、挑戦的なドメイン全体で強力なパフォーマンスを示します。一般的な目的のVLMとして、Kimi-VLはマルチターンエージェントタスク(OSWORLDなど)に優れており、フラッグシップモデルと一致します。
さらに、大学レベルの画像とビデオ理解、OCR、数学的推論、マルチイメージの理解など、多様な挑戦的なビジョン言語タスク全体に顕著な能力を示しています。
比較評価では、いくつかの重要なドメインでGPT-4Oを上回りながら、GPT-4O-MINI、QWEN2.5-VL-7B、GEMMA-3-12B-ITなどの最先端の効率的なVLMと効果的に競合しています。
Kimi-VLは、長いコンテキストの処理と明確な知覚にも進みます。
128kの拡張コンテキストウィンドウを使用すると、Kimi-VLは多様な長い入力を処理でき、Mmlongbench-Docで64.5、35.1の印象的なスコアを達成できます。
ネイティブ解像度の視覚エンコーダーであるMoonVitは、さらに超高解像度の視覚入力を見て理解することができ、InfoVQAで83.2、Screenspot-Proで34.5を達成し、一般的なタスクの計算コストを維持します。
Kimi-Vlに基づいて、高度な長期にわたる変化のバリアント、Kimi-Vl考えを紹介します。
長い考え方(COT)の監視された微調整(SFT)および強化学習(RL)を通じて開発されたこのモデルは、強力な長期推論能力を示しています。
MMMUで61.7、MathVisionで36.8、Mathvistaで71.3のスコアを達成し、Compact 2.8B活性化LLMパラメーターを維持し、効率的なマルチモーダル思考モデルの新しい標準を設定します。
コードとモデルは、https://github.com/moonshotai/kimi-vlで公開されています。

要約(オリジナル)

We present Kimi-VL, an efficient open-source Mixture-of-Experts (MoE) vision-language model (VLM) that offers advanced multimodal reasoning, long-context understanding, and strong agent capabilities – all while activating only 2.8B parameters in its language decoder (Kimi-VL-A3B). Kimi-VL demonstrates strong performance across challenging domains: as a general-purpose VLM, Kimi-VL excels in multi-turn agent tasks (e.g., OSWorld), matching flagship models. Furthermore, it exhibits remarkable capabilities across diverse challenging vision language tasks, including college-level image and video comprehension, OCR, mathematical reasoning, and multi-image understanding. In comparative evaluations, it effectively competes with cutting-edge efficient VLMs such as GPT-4o-mini, Qwen2.5-VL-7B, and Gemma-3-12B-IT, while surpassing GPT-4o in several key domains. Kimi-VL also advances in processing long contexts and perceiving clearly. With a 128K extended context window, Kimi-VL can process diverse long inputs, achieving impressive scores of 64.5 on LongVideoBench and 35.1 on MMLongBench-Doc. Its native-resolution vision encoder, MoonViT, further allows it to see and understand ultra-high-resolution visual inputs, achieving 83.2 on InfoVQA and 34.5 on ScreenSpot-Pro, while maintaining lower computational cost for common tasks. Building upon Kimi-VL, we introduce an advanced long-thinking variant: Kimi-VL-Thinking. Developed through long chain-of-thought (CoT) supervised fine-tuning (SFT) and reinforcement learning (RL), this model exhibits strong long-horizon reasoning capabilities. It achieves scores of 61.7 on MMMU, 36.8 on MathVision, and 71.3 on MathVista while maintaining the compact 2.8B activated LLM parameters, setting a new standard for efficient multimodal thinking models. Code and models are publicly accessible at https://github.com/MoonshotAI/Kimi-VL.

arxiv情報

著者 Kimi Team,Angang Du,Bohong Yin,Bowei Xing,Bowen Qu,Bowen Wang,Cheng Chen,Chenlin Zhang,Chenzhuang Du,Chu Wei,Congcong Wang,Dehao Zhang,Dikang Du,Dongliang Wang,Enming Yuan,Enzhe Lu,Fang Li,Flood Sung,Guangda Wei,Guokun Lai,Han Zhu,Hao Ding,Hao Hu,Hao Yang,Hao Zhang,Haoning Wu,Haotian Yao,Haoyu Lu,Heng Wang,Hongcheng Gao,Huabin Zheng,Jiaming Li,Jianlin Su,Jianzhou Wang,Jiaqi Deng,Jiezhong Qiu,Jin Xie,Jinhong Wang,Jingyuan Liu,Junjie Yan,Kun Ouyang,Liang Chen,Lin Sui,Longhui Yu,Mengfan Dong,Mengnan Dong,Nuo Xu,Pengyu Cheng,Qizheng Gu,Runjie Zhou,Shaowei Liu,Sihan Cao,Tao Yu,Tianhui Song,Tongtong Bai,Wei Song,Weiran He,Weixiao Huang,Weixin Xu,Xiaokun Yuan,Xingcheng Yao,Xingzhe Wu,Xinxing Zu,Xinyu Zhou,Xinyuan Wang,Y. Charles,Yan Zhong,Yang Li,Yangyang Hu,Yanru Chen,Yejie Wang,Yibo Liu,Yibo Miao,Yidao Qin,Yimin Chen,Yiping Bao,Yiqin Wang,Yongsheng Kang,Yuanxin Liu,Yulun Du,Yuxin Wu,Yuzhi Wang,Yuzi Yan,Zaida Zhou,Zhaowei Li,Zhejun Jiang,Zheng Zhang,Zhilin Yang,Zhiqi Huang,Zihao Huang,Zijia Zhao,Ziwei Chen,Zongyu Lin
発行日 2025-04-15 17:14:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Kimi-VL Technical Report はコメントを受け付けていません

Multi-level Cellular Automata for FLIM networks

要約

豊富な注釈付きデータと複雑なネットワークアーキテクチャの必要性は、深部学習の顕著なオブジェクト検出(深いSOD)とより広い深い学習環境全体に大きな課題をもたらします。
この課題は、計算リソースが限られている発展途上国の医療アプリケーションでは特に深刻です。
最新のテクニックと古典的なテクニックを組み合わせることで、実用的なアプリケーションを可能にしながら、競争力のあるパフォーマンスを維持するための道があります。
イメージマーカー(FLIM)のメソッドからの機能学習は、これらの注釈から直接学習したフィルターを使用して、ユーザーが描くマーカーを介して畳み込みエンコーダを設計する専門家を支援します。
最近の調査結果は、Flimエンコーダーを適応型デコーダーと結合すると、SODに適したフライ級ネットワークが作成され、軽量モデルよりもかなり少ないパラメーターが必要であり、バックプロパゲーションの必要性を排除することが示されています。
Cellular Automata(CA)メソッドは、データスカルスシナリオで成功していることが証明されていますが、適切な初期化が必要です。通常、ユーザー入力、プライアー、またはランダム性を介して。
これらのアプローチの実用的な交差点を提案します。Flimネットワークを使用して、各画像のユーザーインタラクションを必要とせずに専門知識を持つCA状態を初期化します。
Flimネットワークの各レベルから機能をデコードすることにより、複数のCASを同時に初期化して、マルチレベルのフレームワークを作成できます。
私たちの方法は、異なるネットワークレイヤーにエンコードされた階層的な知識を活用し、複数の顕著性マップをcaアンサンブルとして機能する高品質の最終出力にマージします。
2つの挑戦的な医療データセットのベンチマークは、深いSOD文献の確立されたモデルと比較して、マルチレベルCAアプローチの競争力を示しています。

要約(オリジナル)

The necessity of abundant annotated data and complex network architectures presents a significant challenge in deep-learning Salient Object Detection (deep SOD) and across the broader deep-learning landscape. This challenge is particularly acute in medical applications in developing countries with limited computational resources. Combining modern and classical techniques offers a path to maintaining competitive performance while enabling practical applications. Feature Learning from Image Markers (FLIM) methodology empowers experts to design convolutional encoders through user-drawn markers, with filters learned directly from these annotations. Recent findings demonstrate that coupling a FLIM encoder with an adaptive decoder creates a flyweight network suitable for SOD, requiring significantly fewer parameters than lightweight models and eliminating the need for backpropagation. Cellular Automata (CA) methods have proven successful in data-scarce scenarios but require proper initialization — typically through user input, priors, or randomness. We propose a practical intersection of these approaches: using FLIM networks to initialize CA states with expert knowledge without requiring user interaction for each image. By decoding features from each level of a FLIM network, we can initialize multiple CAs simultaneously, creating a multi-level framework. Our method leverages the hierarchical knowledge encoded across different network layers, merging multiple saliency maps into a high-quality final output that functions as a CA ensemble. Benchmarks across two challenging medical datasets demonstrate the competitiveness of our multi-level CA approach compared to established models in the deep SOD literature.

arxiv情報

著者 Felipe Crispim Salvagnini,Jancarlo F. Gomes,Cid A. N. Santos,Silvio Jamil F. Guimarães,Alexandre X. Falcão
発行日 2025-04-15 17:22:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Multi-level Cellular Automata for FLIM networks はコメントを受け付けていません

Gaussian Differentially Private Human Faces Under a Face Radial Curve Representation

要約

この論文では、ガウス差別的にプライベートな(GDP)3D人間の顔を解放する問題を検討します。
人間の顔は、多くの特徴を備えた複雑な構造であり、本質的に自分のアイデンティティに結び付けられています。
このデータを正式にプライベートな方法で保護することは、問題の次元を考えると重要でありながら挑戦的です。
機能データの近似DP技術をGDPフレームワークに拡張します。
さらに、一連の関数として3Dフェイスの新しい表現、顔のラジアル曲線を提案し、提案されているGDP機能データメカニズムを利用します。
ノイズを注入しながら顔の形を維持するために、顔の新規表現のために形状分析のツールに依存します。
私たちの方法は、平均的な顔の形状を保持し、同じプライバシー予算の従来の方法よりも少ないノイズを注入することを示します。
私たちのメカニズムは2つの主要なコンポーネントで構成され、1つ目は一般に関数値の概要に適用できます(ノンパラメトリック統計または機能データ分析で一般的に見られるように)。

要約(オリジナル)

In this paper we consider the problem of releasing a Gaussian Differentially Private (GDP) 3D human face. The human face is a complex structure with many features and inherently tied to one’s identity. Protecting this data, in a formally private way, is important yet challenging given the dimensionality of the problem. We extend approximate DP techniques for functional data to the GDP framework. We further propose a novel representation, face radial curves, of a 3D face as a set of functions and then utilize our proposed GDP functional data mechanism. To preserve the shape of the face while injecting noise we rely on tools from shape analysis for our novel representation of the face. We show that our method preserves the shape of the average face and injects less noise than traditional methods for the same privacy budget. Our mechanism consists of two primary components, the first is generally applicable to function value summaries (as are commonly found in nonparametric statistics or functional data analysis) while the second is general to disk-like surfaces and hence more applicable than just to human faces.

arxiv情報

著者 Carlos Soto,Matthew Reimherr,Aleksandra Slavkovic,Mark Shriver
発行日 2025-04-15 17:26:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG, math.FA, math.ST, stat.TH | Gaussian Differentially Private Human Faces Under a Face Radial Curve Representation はコメントを受け付けていません

Robustness and sex differences in skin cancer detection: logistic regression vs CNNs

要約

深い学習は、皮膚がんの検出において高いパフォーマンスを達成することが報告されていますが、結果とバイアスの再現性に関する多くの課題が残っています。
この研究は、患者の性別全体のロジスティック回帰(LR)と畳み込みニューラルネットワーク(CNN)の堅牢性を研究したアルツハイマー病に関する研究の複製(異なるデータ、同じ分析)です。
皮膚がんの検出におけるセックスバイアスを探り、皮膚ガイド(ABCDEおよび7ポイントチェックリスト)を反映した手作りの機能を訓練したLRを使用して、PAD-UFES-20データセットを使用して、事前に訓練されたResNet-50モデルを調査します。
これらのモデルを[28]とアライメントして評価します。さまざまな性的構成を備えた複数のトレーニングデータセットを越えて、堅牢性を決定します。
我々の結果は、LR​​とCNNの両方が性分布に対して堅牢であることを示していますが、結果は、CNNが女性患者よりも男性患者の受信機操作特性(AUROC)の下で有意に高い精度(ACC)と面積を持っていることを明らかにしました。
これらの調査結果が、一般的な医療機械学習方法における潜在的なバイアスを調査する成長分野に貢献することを願っています。
結果を再現するためのデータと関連するスクリプトは、githubで見つけることができます。

要約(オリジナル)

Deep learning has been reported to achieve high performances in the detection of skin cancer, yet many challenges regarding the reproducibility of results and biases remain. This study is a replication (different data, same analysis) of a study on Alzheimer’s disease [28] which studied robustness of logistic regression (LR) and convolutional neural networks (CNN) across patient sexes. We explore sex bias in skin cancer detection, using the PAD-UFES-20 dataset with LR trained on handcrafted features reflecting dermatological guidelines (ABCDE and the 7-point checklist), and a pre-trained ResNet-50 model. We evaluate these models in alignment with [28]: across multiple training datasets with varied sex composition to determine their robustness. Our results show that both the LR and the CNN were robust to the sex distributions, but the results also revealed that the CNN had a significantly higher accuracy (ACC) and area under the receiver operating characteristics (AUROC) for male patients than for female patients. We hope these findings to contribute to the growing field of investigating potential bias in popular medical machine learning methods. The data and relevant scripts to reproduce our results can be found in our Github.

arxiv情報

著者 Nikolette Pedersen,Regitze Sydendal,Andreas Wulff,Ralf Raumanns,Eike Petersen,Veronika Cheplygina
発行日 2025-04-15 17:31:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Robustness and sex differences in skin cancer detection: logistic regression vs CNNs はコメントを受け付けていません

Deep Learning-based Bathymetry Retrieval without In-situ Depths using Remote Sensing Imagery and SfM-MVS DSMs with Data Gaps

要約

正確で詳細な、高頻度の浸水は、激しい気候学的および人為的圧力に直面している浅い海底地域にとって非常に重要です。
空borneまたは衛星光学画像を利用して浸潤を導出する現在の方法は、主に屈折補正またはスペクトル由来の海底地形(SDB)のいずれかのSFM-MVに依存しています。
ただし、SDBメソッドは、多くの場合、広範な手動フィールドワークまたはコストのかかる参照データが必要になることがよくありますが、SFM-MVは屈折補正後でも課題に直面しています。
これらには、均一な視覚テクスチャを備えた環境での深度データのギャップとノイズが含まれ、海底の正確で完全なデジタル表面モデル(DSM)の作成を妨げます。
これらの課題に対処するために、この作業は、SFM-MVSメソッドの高忠実度の3D再構成機能と、最新の屈折補正技術と、新しい深い学習ベースの浸水ベースの方法のスペクトル分析機能を組み合わせた方法論を導入します。
この統合により、SFM-MVがデータギャップを備えたDSMを導出したDSMがトレーニングデータとして完全な浸水マップを生成するためのトレーニングデータとして使用される相乗的アプローチを可能にします。
これに関連して、U-NETとSWIN変圧器の自己触媒層とSDBに合わせて調整されたクロスアテンションメカニズムを組み合わせたSwin-Bathyunetを提案します。
Swin-Bathyunetは、長距離空間的関係をキャプチャすることにより、およびさまざまなトレーニング深度データを備えた標準SDBのスタンドアロンソリューションとして機能するように設計されています。SFM-MVS出力とは無関係です。
地中海とバルト海の2つのまったく異なるテストサイトでの実験結果は、予測されたDSMの海底地域の精度、詳細、カバレッジ、騒音削減の改善を示す広範な実験を通じて提案されたアプローチの有効性を示しています。
このコードは、https://github.com/pagraf/swin-bathyunetで入手できます。

要約(オリジナル)

Accurate, detailed, and high-frequent bathymetry is crucial for shallow seabed areas facing intense climatological and anthropogenic pressures. Current methods utilizing airborne or satellite optical imagery to derive bathymetry primarily rely on either SfM-MVS with refraction correction or Spectrally Derived Bathymetry (SDB). However, SDB methods often require extensive manual fieldwork or costly reference data, while SfM-MVS approaches face challenges even after refraction correction. These include depth data gaps and noise in environments with homogeneous visual textures, which hinder the creation of accurate and complete Digital Surface Models (DSMs) of the seabed. To address these challenges, this work introduces a methodology that combines the high-fidelity 3D reconstruction capabilities of the SfM-MVS methods with state-of-the-art refraction correction techniques, along with the spectral analysis capabilities of a new deep learning-based method for bathymetry prediction. This integration enables a synergistic approach where SfM-MVS derived DSMs with data gaps are used as training data to generate complete bathymetric maps. In this context, we propose Swin-BathyUNet that combines U-Net with Swin Transformer self-attention layers and a cross-attention mechanism, specifically tailored for SDB. Swin-BathyUNet is designed to improve bathymetric accuracy by capturing long-range spatial relationships and can also function as a standalone solution for standard SDB with various training depth data, independent of the SfM-MVS output. Experimental results in two completely different test sites in the Mediterranean and Baltic Seas demonstrate the effectiveness of the proposed approach through extensive experiments that demonstrate improvements in bathymetric accuracy, detail, coverage, and noise reduction in the predicted DSM. The code is available at https://github.com/pagraf/Swin-BathyUNet.

arxiv情報

著者 Panagiotis Agrafiotis,Begüm Demir
発行日 2025-04-15 17:31:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Deep Learning-based Bathymetry Retrieval without In-situ Depths using Remote Sensing Imagery and SfM-MVS DSMs with Data Gaps はコメントを受け付けていません

Leveraging Point Transformers for Detecting Anatomical Landmarks in Digital Dentistry

要約

口腔内スキャンデバイスの可用性の向上により、現代の臨床歯列矯正における重要性が高まりました。
臨床医は、高度なコンピューター支援設計技術を利用して、尖、近遠位位置、顔の軸点、歯の境界などの重要なランドマークを積極的に特定することを含む患者固有の治療計画を作成します。
このようなランドマークを検出すると、限られたデータセットサイズ、被験者間の大幅な解剖学的変動性、データの幾何学的性質など、課題が自動的に提示されます。
Miccai 2024の3dteethland Grand Challengeからの実験を紹介します。私たちの方法は、トランスアーキテクチャを通じてポイントクラウド学習の最近の進歩を活用しています。
ポイントトランスV3インスピレーションモジュールを設計して、意味のある幾何学的および解剖学的特徴をキャプチャしました。これは、グラフベースの非ミニマ抑制によってさらに処理される、軽量距離を予測するために軽量デコーダーによって処理されます。
有望な結果を報告し、学習した機能の解釈性に関する洞察について説明します。

要約(オリジナル)

The increasing availability of intraoral scanning devices has heightened their importance in modern clinical orthodontics. Clinicians utilize advanced Computer-Aided Design techniques to create patient-specific treatment plans that include laboriously identifying crucial landmarks such as cusps, mesial-distal locations, facial axis points, and tooth-gingiva boundaries. Detecting such landmarks automatically presents challenges, including limited dataset sizes, significant anatomical variability among subjects, and the geometric nature of the data. We present our experiments from the 3DTeethLand Grand Challenge at MICCAI 2024. Our method leverages recent advancements in point cloud learning through transformer architectures. We designed a Point Transformer v3 inspired module to capture meaningful geometric and anatomical features, which are processed by a lightweight decoder to predict per-point distances, further processed by graph-based non-minima suppression. We report promising results and discuss insights on learned feature interpretability.

arxiv情報

著者 Tibor Kubík,Oldřich Kodym,Petr Šilling,Kateřina Trávníčková,Tomáš Mojžiš,Jan Matula
発行日 2025-04-15 17:34:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Leveraging Point Transformers for Detecting Anatomical Landmarks in Digital Dentistry はコメントを受け付けていません

ADT: Tuning Diffusion Models with Adversarial Supervision

要約

拡散モデルは、真のデータ分布を近似するために将来のノイズプロセスを逆にすることにより、優れた画像生成を達成しました。
トレーニング中、これらのモデルは、単一のフォワードパスで真のサンプルのnoisedバージョンからの拡散スコアを予測しますが、推論にはホワイトノイズから始まる反復的な除去が必要です。
このトレーニングの推論の発散は、潜在的な予測バイアスと累積エラーの蓄積により、推論とトレーニングデータ分布の間のアラインメントを妨げます。
この問題に対処するために、最適化中に推論プロセスを刺激し、最終的な出力を敵対的な監督によるトレーニングデータに合わせて整列させることにより、敵対的拡散チューニング(ADT)と呼ばれる直感的で効果的な微調整フレームワークを提案します。
具体的には、堅牢な敵対的なトレーニングを実現するために、ADTは、固定された事前に訓練されたバックボーンと軽量のトレーニング可能なパラメーターを備えたシャムネットワークの識別器を特徴としており、画像から画像間サンプリング戦略を組み込んで識別障害を滑らかにし、元の拡散損失を保持して識別装置のハッキングを防ぎます。
さらに、メモリの過負荷や勾配爆発を伴うことなく、推論パスに沿って後ろ向きの勾配の後方を吹き付けるパスを慎重に制約します。
最後に、安定した拡散モデル(V1.5、XL、およびV3)に関する広範な実験は、ADTが分布のアラインメントと画質の両方を大幅に改善することを示しています。

要約(オリジナル)

Diffusion models have achieved outstanding image generation by reversing a forward noising process to approximate true data distributions. During training, these models predict diffusion scores from noised versions of true samples in a single forward pass, while inference requires iterative denoising starting from white noise. This training-inference divergences hinder the alignment between inference and training data distributions, due to potential prediction biases and cumulative error accumulation. To address this problem, we propose an intuitive but effective fine-tuning framework, called Adversarial Diffusion Tuning (ADT), by stimulating the inference process during optimization and aligning the final outputs with training data by adversarial supervision. Specifically, to achieve robust adversarial training, ADT features a siamese-network discriminator with a fixed pre-trained backbone and lightweight trainable parameters, incorporates an image-to-image sampling strategy to smooth discriminative difficulties, and preserves the original diffusion loss to prevent discriminator hacking. In addition, we carefully constrain the backward-flowing path for back-propagating gradients along the inference path without incurring memory overload or gradient explosion. Finally, extensive experiments on Stable Diffusion models (v1.5, XL, and v3), demonstrate that ADT significantly improves both distribution alignment and image quality.

arxiv情報

著者 Dazhong Shen,Guanglu Song,Yi Zhang,Bingqi Ma,Lujundong Li,Dongzhi Jiang,Zhuofan Zong,Yu Liu
発行日 2025-04-15 17:37:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | ADT: Tuning Diffusion Models with Adversarial Supervision はコメントを受け付けていません

NormalCrafter: Learning Temporally Consistent Normals from Video Diffusion Priors

要約

表面の通常の推定は、コンピュータービジョンアプリケーションのスペクトルの基礎として機能します。
静的な画像シナリオには多くの努力が払われていますが、ビデオベースの通常の推定の一時的な一貫性を確保することは、恐ろしい課題のままです。
既存のメソッドを時間コンポーネントで拡張するだけでなく、ビデオ拡散モデルの固有の時間的事前層を活用するために通常のクラフターを提示します。
シーケンス全体で高忠実度の通常の推定を確保するために、セマンティックフィーチャの正規化(SFR)を提案します。これは、拡散機能をセマンティックキューに合わせることで、モデルがシーンの本質的なセマンティクスに集中することを奨励します。
さらに、長い時間的コンテキストを維持しながら空間精度を維持するために潜在的なスペースとピクセルの両方のスペース学習を活用する2段階のトレーニングプロトコルを導入します。
広範な評価は、私たちの方法の有効性を示しており、多様なビデオから複雑な詳細を含む一時的に一貫した通常のシーケンスを生成する上で優れたパフォーマンスを示しています。

要約(オリジナル)

Surface normal estimation serves as a cornerstone for a spectrum of computer vision applications. While numerous efforts have been devoted to static image scenarios, ensuring temporal coherence in video-based normal estimation remains a formidable challenge. Instead of merely augmenting existing methods with temporal components, we present NormalCrafter to leverage the inherent temporal priors of video diffusion models. To secure high-fidelity normal estimation across sequences, we propose Semantic Feature Regularization (SFR), which aligns diffusion features with semantic cues, encouraging the model to concentrate on the intrinsic semantics of the scene. Moreover, we introduce a two-stage training protocol that leverages both latent and pixel space learning to preserve spatial accuracy while maintaining long temporal context. Extensive evaluations demonstrate the efficacy of our method, showcasing a superior performance in generating temporally consistent normal sequences with intricate details from diverse videos.

arxiv情報

著者 Yanrui Bin,Wenbo Hu,Haoyuan Wang,Xinya Chen,Bing Wang
発行日 2025-04-15 17:39:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | NormalCrafter: Learning Temporally Consistent Normals from Video Diffusion Priors はコメントを受け付けていません

Enhancing Out-of-Distribution Detection with Extended Logit Normalization

要約

分散除外(OOD)検出は、機械学習モデルの安全な展開に不可欠です。
最近の進歩により、OOD検出を強化するための分類損失と表現学習戦略の改善が調査されました。
ただし、これらの方法は、多くの場合、特定の事後検出技術に合わせて調整されており、一般化が制限されます。
この作業では、ロジット正規化(LogitNorm)の重要な問題を特定します。これは、特定の事後OOD検出方法の改善における有効性を阻害します。
これに対処するために、拡張されたロジット正規化($ \ textbf {elogitnorm} $)を提案します。これは、幅広いポストホック検出方法に大きな利益をもたらす新しいハイパーパラメーターを含まない定式化を行います。
機能の距離をlogitnormに組み込むことにより、$ \ textbf {elogitnorm} $は、前任者よりも堅牢なood分離性と分布(ID)信頼キャリブレーションを示します。
標準ベンチマーク全体の広範な実験は、私たちのアプローチが強力なID分類精度を維持しながら、OOD検出における最先端のトレーニング時間方法を上回ることを示しています。

要約(オリジナル)

Out-of-distribution (OOD) detection is essential for the safe deployment of machine learning models. Recent advances have explored improved classification losses and representation learning strategies to enhance OOD detection. However, these methods are often tailored to specific post-hoc detection techniques, limiting their generalizability. In this work, we identify a critical issue in Logit Normalization (LogitNorm), which inhibits its effectiveness in improving certain post-hoc OOD detection methods. To address this, we propose Extended Logit Normalization ($\textbf{ELogitNorm}$), a novel hyperparameter-free formulation that significantly benefits a wide range of post-hoc detection methods. By incorporating feature distance-awareness to LogitNorm, $\textbf{ELogitNorm}$ shows more robust OOD separability and in-distribution (ID) confidence calibration than its predecessor. Extensive experiments across standard benchmarks demonstrate that our approach outperforms state-of-the-art training-time methods in OOD detection while maintaining strong ID classification accuracy.

arxiv情報

著者 Yifan Ding,Xixi Liu,Jonas Unger,Gabriel Eilertsen
発行日 2025-04-15 17:51:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Enhancing Out-of-Distribution Detection with Extended Logit Normalization はコメントを受け付けていません