HRMedSeg: Unlocking High-resolution Medical Image segmentation via Memory-efficient Attention Modeling

要約

高解像度のセグメンテーションは、医療画像からマイクロイメージング情報を抽出することにより、正確な疾患診断に重要です。
既存の変圧器ベースのエンコーダデコーダーフレームワークは、医療セグメンテーションで顕著な汎用性とゼロショットのパフォーマンスを実証しています。
有益ですが、通常、大規模なセグメンテーションマスク予測を処理する際には、巨大なメモリコストが必要です。これは、実際のシナリオに適用するのに費用がかかります。
この制限に対処するために、HRMedSegと呼ばれる高解像度の医療画像セグメンテーションのメモリ効率の高いフレームワークを提案します。
具体的には、最初に、イメージエンコーダーとして軽量ゲートビジョントランス(LGVIT)を考案し、線形の複雑さで長距離依存関係をモデル化します。
次に、効率的なクロスマルチスケールデコーダー(ECM-Decoder)を設計して、高解像度セグメンテーションマスクを生成します。
さらに、提案されているモデルの可能性を解き放つために、事前に取引前に特徴の蒸留を利用します。
広範な実験により、HRMedSegは、多様な高解像度の医療画像セグメンテーションタスクの最先端を上回ることが明らかになりました。
特に、HRMedSegは、微調整中にバッチごとに0.59GB GPUメモリしか使用していないため、トレーニングコストが低くなります。
その上、HRMedSegがセグメントのAnything Model(SAM)を満たすと、HRMedSegsamはSAM-Hの0.61%のパラメーターを取得します。
このコードは、https://github.com/xq141839/hrmedsegで入手できます。

要約(オリジナル)

High-resolution segmentation is critical for precise disease diagnosis by extracting micro-imaging information from medical images. Existing transformer-based encoder-decoder frameworks have demonstrated remarkable versatility and zero-shot performance in medical segmentation. While beneficial, they usually require huge memory costs when handling large-size segmentation mask predictions, which are expensive to apply to real-world scenarios. To address this limitation, we propose a memory-efficient framework for high-resolution medical image segmentation, called HRMedSeg. Specifically, we first devise a lightweight gated vision transformer (LGViT) as our image encoder to model long-range dependencies with linear complexity. Then, we design an efficient cross-multiscale decoder (ECM-Decoder) to generate high-resolution segmentation masks. Moreover, we utilize feature distillation during pretraining to unleash the potential of our proposed model. Extensive experiments reveal that HRMedSeg outperforms state-of-the-arts in diverse high-resolution medical image segmentation tasks. In particular, HRMedSeg uses only 0.59GB GPU memory per batch during fine-tuning, demonstrating low training costs. Besides, when HRMedSeg meets the Segment Anything Model (SAM), our HRMedSegSAM takes 0.61% parameters of SAM-H. The code is available at https://github.com/xq141839/HRMedSeg.

arxiv情報

著者 Qing Xu,Zhenye Lou,Chenxin Li,Xiangjian He,Rong Qu,Tesema Fiseha Berhanu,Yi Wang,Wenting Duan,Zhen Chen
発行日 2025-04-08 16:48:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | HRMedSeg: Unlocking High-resolution Medical Image segmentation via Memory-efficient Attention Modeling はコメントを受け付けていません

HiMoR: Monocular Deformable Gaussian Reconstruction with Hierarchical Motion Representation

要約

高品質の単眼のダイナミック3D再構成を達成できる3Dガウスプリミティブの新しい変形表現である階層運動表現(HIMOR)を提示します。
Himorの背後にある洞察は、日常のシーンの動きは、詳細の基礎として機能するより粗い動きに分解できるということです。
ツリー構造を使用して、Himorのノードはさまざまなレベルの動きの詳細を表し、より浅いノードは、時間的な滑らかさとより深いノードのための粗い動きをモデル化し、より細かい動きをキャプチャします。
さらに、モデルでは、いくつかの共有モーションベースを使用して、さまざまなノードのセットの動きを表し、モーションが滑らかでシンプルになる傾向があるという仮定と一致しています。
このモーション表現設計には、ガウス系がより構造化された変形を提供し、一時的な関係の使用を最大化して、単眼の動的3D再構成の挑戦的なタスクに取り組みます。
また、単眼の動的3D再構成を評価するためのピクセルレベルのメトリックが再構築の真の品質を正確に反映できない場合があることを考えると、代替としてより信頼性の高い知覚メトリックを使用することを提案します。
広範な実験は、複雑な動きを備えた挑戦的な単眼動画からの優れた新規ビューの統合を達成する際の方法の有効性を示しています。

要約(オリジナル)

We present Hierarchical Motion Representation (HiMoR), a novel deformation representation for 3D Gaussian primitives capable of achieving high-quality monocular dynamic 3D reconstruction. The insight behind HiMoR is that motions in everyday scenes can be decomposed into coarser motions that serve as the foundation for finer details. Using a tree structure, HiMoR’s nodes represent different levels of motion detail, with shallower nodes modeling coarse motion for temporal smoothness and deeper nodes capturing finer motion. Additionally, our model uses a few shared motion bases to represent motions of different sets of nodes, aligning with the assumption that motion tends to be smooth and simple. This motion representation design provides Gaussians with a more structured deformation, maximizing the use of temporal relationships to tackle the challenging task of monocular dynamic 3D reconstruction. We also propose using a more reliable perceptual metric as an alternative, given that pixel-level metrics for evaluating monocular dynamic 3D reconstruction can sometimes fail to accurately reflect the true quality of reconstruction. Extensive experiments demonstrate our method’s efficacy in achieving superior novel view synthesis from challenging monocular videos with complex motions.

arxiv情報

著者 Yiming Liang,Tianhan Xu,Yuta Kikuchi
発行日 2025-04-08 16:55:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HiMoR: Monocular Deformable Gaussian Reconstruction with Hierarchical Motion Representation はコメントを受け付けていません

Earth-Adapter: Bridge the Geospatial Domain Gaps with Mixture of Frequency Adaptation

要約

パラメーター効率の高い微調整(PEFT)は、固有の機能を維持および解き放ちながら、強力な基礎モデル(FMS)を多様なダウンストリームタスクに適応させることができる手法です。
ただし、自然な画像を念頭に置いて設計されていることが多い既存のPEFTメソッドは、リモートセンシング(RS)シナリオに適用すると闘うことがあることが観察されています。
これは主に、アーティファクトの影響を処理できないためです。これは、RS画像機能で特に深刻な問題です。
この課題に取り組むために、RSアーティファクト征服用に特別に設計された最初のPEFTメソッドであるEarth-Adapterを紹介します。
Earth-Adapterは、アダプター(MOA)の混合と離散フーリエ変換(DFT)を組み合わせた周波数適応プロセスの新しい混合物を導入します。
DFTを利用することにより、アースアダプターは機能を異なる周波数コンポーネントに分解し、アーティファクトを元の機能から正確に分離できます。
その後、MOAは各アダプターの専門家に重みを動的に割り当て、さまざまな周波数ドメインにわたって機能の組み合わせを可能にします。
これらのシンプルな効果的なアプローチにより、アースアダプターは以前のPEFTメソッドよりもアーティファクトによって引き起こされる乱れをより効率的に克服でき、RSシナリオでのFMSのパフォーマンスを大幅に向上させることができます。
ドメイン適応(DA)およびドメイン一般化(DG)セマンティックセグメンテーションベンチマークに関する実験は、地球適用性の有効性を紹介します。
ベースラインREINと比較して、アースアダプターはDAで9.0%MIOU、DGベンチマークで3.1%MIOUを大幅に改善します。
コードはhttps://github.com/visionxlab/earth-adapterでリリースされます。

要約(オリジナル)

Parameter-Efficient Fine-Tuning (PEFT) is a technique that allows us to adapt powerful Foundation Models (FMs) to diverse downstream tasks while preserving and unleashing their inherent capabilities. However, we have observed that existing PEFT methods, which are often designed with natural imagery in mind, struggle when applied to Remote Sensing (RS) scenarios. This is primarily due to their inability to handle artifact influences, a problem particularly severe in RS image features. To tackle this challenge, we introduce Earth-Adapter, the first PEFT method specifically designed for RS artifacts conquering. Earth-Adapter introduces a novel Mixture of Frequency Adaptation process that combines a Mixture of Adapter (MoA) with Discrete Fourier Transformation (DFT). By utilizing DFT, Earth-Adapter can decompose features into different frequency components, precisely separating artifacts from original features. The MoA then dynamically assigns weights to each adapter expert, allowing for the combination of features across various frequency domains. These simple-yet-effective approaches enable Earth-Adapter to more efficiently overcome the disturbances caused by artifacts than previous PEFT methods, significantly enhancing the FMs’ performance on RS scenarios. Experiments on Domain Adaptation (DA), and Domain Generalization (DG) semantic segmentation benchmarks showcase the Earth-Adapter’s effectiveness. Compared with baseline Rein, Earth-Adapter significantly improves 9.0% mIoU in DA and 3.1% mIoU in DG benchmarks. Our code will be released at https://github.com/VisionXLab/Earth-Adapter.

arxiv情報

著者 Xiaoxing Hu,Ziyang Gong,Yupei Wang,Yuru Jia,Gen Luo,Xue Yang
発行日 2025-04-08 17:09:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Earth-Adapter: Bridge the Geospatial Domain Gaps with Mixture of Frequency Adaptation はコメントを受け付けていません

Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios

要約

大規模な言語モデルの推論を促すチェーン(COT)は、テキストの手がかりと記憶された知識に過度に依存しているため、ビジョン言語モデル(VLM)におけるその有効性が限られたままです。
複雑な現実世界のシナリオにおけるVLMの視覚的推論機能を調査するために、DrivingVQAを紹介します。これは、推論プロセスに関連する専門家が書いた説明と基礎エンティティを含む3,931の複数選択問題を含む、運転理論試験から派生した視覚的な質問データセットを紹介します。
このデータセットを活用すると、これらの関連するエンティティに対応する視覚作物を使用してVLMが推論できるようにする検索ベースのインターリーブ視覚チェーンオブテアのメソッドであるRIV-COTを提案します。
私たちの実験は、RIV-COTがバニラのコットのプロンプトに対して回答の精度を3.1%、推論精度を4.6%改善することを示しています。
さらに、自動的に生成された擬似適応性を活用して、コットプロンプトを上回ることにより、この方法はより大きなA-OKVQA推論データセットに効果的にスケーリングすることを実証します。

要約(オリジナル)

While chain-of-thought (CoT) prompting improves reasoning in large language models, its effectiveness in vision-language models (VLMs) remains limited due to over-reliance on textual cues and memorized knowledge. To investigate the visual reasoning capabilities of VLMs in complex real-world scenarios, we introduce DrivingVQA, a visual question answering dataset derived from driving theory exams, which contains 3,931 multiple-choice problems with expert-written explanations and grounded entities relevant to the reasoning process. Leveraging this dataset, we propose RIV-CoT, a Retrieval-Based Interleaved Visual Chain-of-Thought method that enables VLMs to reason using visual crops corresponding to these relevant entities. Our experiments demonstrate that RIV-CoT improves answer accuracy by 3.1% and reasoning accuracy by 4.6% over vanilla CoT prompting. Furthermore, we demonstrate that our method effectively scales to the larger A-OKVQA reasoning dataset by leveraging automatically generated pseudo-labels, outperforming CoT prompting.

arxiv情報

著者 Charles Corbière,Simon Roburin,Syrielle Montariol,Antoine Bosselut,Alexandre Alahi
発行日 2025-04-08 17:09:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios はコメントを受け付けていません

Privacy Attacks on Image AutoRegressive Models

要約

画像の自己回帰生成は、画像の自己回帰モデル(IAR)が画像品質(FID:1.48対1.58)の最先端の拡散モデル(DMS)と一致しながら、より高い世代速度を可能にし、強力な新しいパラダイムとして浮上しています。
ただし、IARに関連するプライバシーのリスクは未開拓のままであり、責任ある展開について懸念を引き起こします。
このギャップに対処するために、IARの包括的なプライバシー分析を実施し、プライバシーリスクを基準点としてDMSのリスクと比較します。
具体的には、トレーニング画像の検出で非常に高い成功率を達成する新しいメンバーシップ推論攻撃(MIA)を開発します。これは、同等の攻撃を使用したDMSのわずか6.38%に対して、偽陽性率= 1%(TPR@fpr = 1%)で86.38%の真の陽性率であります。
新しいMIAを活用して、IARに対してデータセット推論(DI)を実行し、DMSのDIの200のサンプルと比較して、データセットメンバーシップを検出するためにわずか6つのサンプルが必要であることを示しています。
これにより、IARのより高いレベルの情報漏れが確認されます。
最後に、IARから何百ものトレーニングデータポイントを抽出することができます(例:Var-D30から698)。
我々の結果は、基本的なプライバシーと有効性のトレードオフを示唆しています。IARSは画像生成の品質と速度に優れていますが、同様のパフォーマンスを達成するDMと比較して、プライバシー攻撃に対して経験的に脆弱です。
この傾向は、拡散手順を使用してトークンあたりの確率分布をモデル化するなど、DMSからの技術をIARに組み込むことが、プライバシー攻撃に対するIARの脆弱性を軽減するのに役立つ可能性があることを示唆しています。
https://github.com/sprintml/privacy_attacks_against_iarsでコードを利用できるようにします

要約(オリジナル)

Image autoregressive generation has emerged as a powerful new paradigm, with image autoregressive models (IARs) matching state-of-the-art diffusion models (DMs) in image quality (FID: 1.48 vs. 1.58) while allowing for higher generation speed. However, the privacy risks associated with IARs remain unexplored, raising concerns about their responsible deployment. To address this gap, we conduct a comprehensive privacy analysis of IARs, comparing their privacy risks to those of DMs as a reference point. Specifically, we develop a novel membership inference attack (MIA) that achieves a remarkably high success rate in detecting training images, with a True Positive Rate at False Positive Rate = 1% (TPR@FPR=1%) of 86.38%, compared to just 6.38% for DMs using comparable attacks. We leverage our novel MIA to perform dataset inference (DI) for IARs and show that it requires as few as 6 samples to detect dataset membership, compared to 200 samples for DI in DMs. This confirms a higher level of information leakage in IARs. Finally, we are able to extract hundreds of training data points from an IAR (e.g., 698 from VAR-d30). Our results suggest a fundamental privacy-utility trade-off: while IARs excel in image generation quality and speed, they are empirically significantly more vulnerable to privacy attacks compared to DMs that achieve similar performance. This trend suggests that incorporating techniques from DMs into IARs, such as modeling the per-token probability distribution using a diffusion procedure, could help mitigate IARs’ vulnerability to privacy attacks. We make our code available at: https://github.com/sprintml/privacy_attacks_against_iars

arxiv情報

著者 Antoni Kowalczuk,Jan Dubiński,Franziska Boenisch,Adam Dziedzic
発行日 2025-04-08 17:28:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Privacy Attacks on Image AutoRegressive Models はコメントを受け付けていません

HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance

要約

テキストからイメージ(T2I)拡散/フローモデルは、柔軟な視覚的な創造物を提供する驚くべき能力により、最近かなりの注目を集めています。
それでも、高解像度の画像合成は、高解像度の内容の希少性と複雑さのために手ごわい課題を提示します。
この目的のために、事前に訓練されたフローモデルの解像度の可能性を解き放つために、トレーニングなしでモデルに依存しないフレームワークであるHiflowを提示します。
具体的には、HIFLOWは、低解像度のフロー情報の特性を効果的にキャプチャする高解像度空間内の仮想参照フローを確立し、3つの重要な側面を通じて高解像度の生成のガイダンスを提供します。
このフローアライメントガイダンスを活用することにより、HIFLOWはT2Iモデルの高解像度画像合成の品質を大幅に向上させ、パーソナライズされたバリアント全体で汎用性を示します。
広範な実験では、現在の最先端の方法よりも優れた高解像度の画質を達成する際のHiflowの優位性を検証します。

要約(オリジナル)

Text-to-image (T2I) diffusion/flow models have drawn considerable attention recently due to their remarkable ability to deliver flexible visual creations. Still, high-resolution image synthesis presents formidable challenges due to the scarcity and complexity of high-resolution content. To this end, we present HiFlow, a training-free and model-agnostic framework to unlock the resolution potential of pre-trained flow models. Specifically, HiFlow establishes a virtual reference flow within the high-resolution space that effectively captures the characteristics of low-resolution flow information, offering guidance for high-resolution generation through three key aspects: initialization alignment for low-frequency consistency, direction alignment for structure preservation, and acceleration alignment for detail fidelity. By leveraging this flow-aligned guidance, HiFlow substantially elevates the quality of high-resolution image synthesis of T2I models and demonstrates versatility across their personalized variants. Extensive experiments validate HiFlow’s superiority in achieving superior high-resolution image quality over current state-of-the-art methods.

arxiv情報

著者 Jiazi Bu,Pengyang Ling,Yujie Zhou,Pan Zhang,Tong Wu,Xiaoyi Dong,Yuhang Zang,Yuhang Cao,Dahua Lin,Jiaqi Wang
発行日 2025-04-08 17:30:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance はコメントを受け付けていません

Monitoring Viewer Attention During Online Ads

要約

今日、ビデオ広告は多数のオンラインプラットフォームに広がり、世界中の何百万人もの視聴者によって視聴されています。
Big Brandsは、自宅や仕事から広告を視聴するためにオンラインで募集された視聴者の顔の反応を分析することにより、新しい広告の好みと購入の意図を評価します。
このアプローチは自然主義的な反応を捉えていますが、テレビで演奏する映画、同僚の話、モバイル通知など、参加者の環境に固有の気晴らしの影響を受けやすいです。
不注意な参加者は、広告テストプロセスを歪めないように、フラグを立てて排除する必要があります。
このペーパーでは、オンライン広告中に視聴者の注意を監視するためのアーキテクチャを紹介します。
2つの動作分析ツールキットを活用します。
Affdex 2.0およびSmarteye SDKは、表情、ヘッドポーズ、および視線の方向を網羅する低レベルの顔の特徴を抽出します。
次に、これらの機能を組み合わせて、スクリーンプレーンの推定視線、あくび、スピーキングなどを含む高レベルの機能を抽出します。これにより、4つの主要なディストラクタの識別が可能になります。
画面外の視線、眠気、話し、無人の画面。
当社のアーキテクチャは、デバイスの種類(デスクトップまたはモバイル)に従って視線設定を調整します。
最初に特定のディストラクタに注釈が付けられたデータセットでアーキテクチャを検証し、次にさまざまなディストラクタを使用した実際の広告テストデータセットで検証します。
提案されたアーキテクチャは、デスクトップデバイスとモバイルデバイスの両方で気晴らしを検出する有望な結果を示しています。

要約(オリジナル)

Nowadays, video ads spread through numerous online platforms, and are being watched by millions of viewers worldwide. Big brands gauge the liking and purchase intent of their new ads, by analyzing the facial responses of viewers recruited online to watch the ads from home or work. Although this approach captures naturalistic responses, it is susceptible to distractions inherent in the participants’ environments, such as a movie playing on TV, a colleague speaking, or mobile notifications. Inattentive participants should get flagged and eliminated to avoid skewing the ad-testing process. In this paper we introduce an architecture for monitoring viewer attention during online ads. Leveraging two behavior analysis toolkits; AFFDEX 2.0 and SmartEye SDK, we extract low-level facial features encompassing facial expressions, head pose, and gaze direction. These features are then combined to extract high-level features that include estimated gaze on the screen plane, yawning, speaking, etc — this enables the identification of four primary distractors; off-screen gaze, drowsiness, speaking, and unattended screen. Our architecture tailors the gaze settings according to the device type (desktop or mobile). We validate our architecture first on datasets annotated for specific distractors, and then on a real-world ad testing dataset with various distractors. The proposed architecture shows promising results in detecting distraction across both desktop and mobile devices.

arxiv情報

著者 Mina Bishay,Graham Page,Waleed Emad,Mohammad Mavadati
発行日 2025-04-08 17:34:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Monitoring Viewer Attention During Online Ads はコメントを受け付けていません

Transfer between Modalities with MetaQueries

要約

統一されたマルチモーダルモデルは、理解(テキスト出力)と生成(ピクセル出力)を統合することを目的としていますが、単一のアーキテクチャ内のこれらの異なるモダリティを調整するには、複雑なトレーニングレシピと慎重なデータバランスが必要になることがよくあります。
自己回帰マルチモーダルLLMS(MLLMS)と拡散モデルの間の効率的なインターフェイスとして機能する一連の学習可能なクエリのセットであるMetaqueriesを紹介します。
Metaqueriesは、MLLMの潜在性を拡散デコーダーに接続し、MLLMの深い理解と推論能力を活用することにより、知識を高める画像生成を可能にします。
私たちの方法はトレーニングを簡素化し、ペアの画像キャプションデータと標準拡散目標のみを必要とします。
特に、この転送は、MLLMバックボーンが凍結されたままであっても効果的であり、それによって最先端のマルチモーダル理解機能を維持しながら、強力な生成パフォーマンスを達成します。
さらに、この方法は柔軟性があり、画像編集やサブジェクト駆動型の生成などの高度なアプリケーションのために簡単に指示することができます。

要約(オリジナル)

Unified multimodal models aim to integrate understanding (text output) and generation (pixel output), but aligning these different modalities within a single architecture often demands complex training recipes and careful data balancing. We introduce MetaQueries, a set of learnable queries that act as an efficient interface between autoregressive multimodal LLMs (MLLMs) and diffusion models. MetaQueries connects the MLLM’s latents to the diffusion decoder, enabling knowledge-augmented image generation by leveraging the MLLM’s deep understanding and reasoning capabilities. Our method simplifies training, requiring only paired image-caption data and standard diffusion objectives. Notably, this transfer is effective even when the MLLM backbone remains frozen, thereby preserving its state-of-the-art multimodal understanding capabilities while achieving strong generative performance. Additionally, our method is flexible and can be easily instruction-tuned for advanced applications such as image editing and subject-driven generation.

arxiv情報

著者 Xichen Pan,Satya Narayan Shukla,Aashu Singh,Zhuokai Zhao,Shlok Kumar Mishra,Jialiang Wang,Zhiyang Xu,Jiuhai Chen,Kunpeng Li,Felix Juefei-Xu,Ji Hou,Saining Xie
発行日 2025-04-08 17:58:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Transfer between Modalities with MetaQueries はコメントを受け付けていません

PainNet: Statistical Relation Network with Episode-Based Training for Pain Estimation

要約

表情からの痛みを推定する際のスパンにもかかわらず、限られた作品は、患者によって報告され、診療所で一般的に使用されるシーケンスレベルの痛みの推定に焦点を合わせてきました。
この論文では、シーケンスレベルの痛みの推定のために設計されたPainnetと呼ばれる新しい統計関係ネットワークを紹介します。
Painnetは、痛みのビデオのペアを比較するために、埋め込みモジュールの2つの重要なモジュールを採用し、各ペアが同じ痛みカテゴリに属しているかどうかを示す関係スコアを生成します。
埋め込みモジュールのコアには、コンパクトなビデオレベルの機能を抽出するためにRNNの上部に取り付けられた統計レイヤーがあります。
統計層は、ディープアーキテクチャの一部として実装されています。
そうすることで、以前の研究で使用された複数のトレーニング段階を、単一のエンドツーエンドトレーニング段階に組み合わせることができます。
Painnetは、エピソードベースのトレーニングスキームを使用してトレーニングされます。これには、クエリビデオをさまざまな痛みカテゴリを表す一連のビデオと比較することが含まれます。
実験結果は、提案されたモデルで統計層とエピソードベースのトレーニングを使用する利点を示しています。
さらに、Painnetは、自己報告された痛みの推定に関する最先端の結果よりも優れています。

要約(オリジナル)

Despite the span in estimating pain from facial expressions, limited works have focused on estimating the sequence-level pain, which is reported by patients and used commonly in clinics. In this paper, we introduce a novel Statistical Relation Network, referred to as PainNet, designed for the estimation of the sequence-level pain. PainNet employs two key modules, the embedding and the relation modules, for comparing pairs of pain videos, and producing relation scores indicating if each pair belongs to the same pain category or not. At the core of the embedding module is a statistical layer mounted on the top of a RNN for extracting compact video-level features. The statistical layer is implemented as part of the deep architecture. Doing so, allows combining multiple training stages used in previous research, into a single end-to-end training stage. PainNet is trained using the episode-based training scheme, which involves comparing a query video with a set of videos representing the different pain categories. Experimental results show the benefit of using the statistical layer and the episode-based training in the proposed model. Furthermore, PainNet outperforms the state-of-the-art results on self-reported pain estimation.

arxiv情報

著者 Mina Bishay,Graham Page,Mohammad Mavadati
発行日 2025-04-08 17:58:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PainNet: Statistical Relation Network with Episode-Based Training for Pain Estimation はコメントを受け付けていません

OmniSVG: A Unified Scalable Vector Graphics Generation Model

要約

Scalable Vector Graphics(SVG)は、解像度の独立性と編集可能性のため、グラフィックデザインで広く採用されている重要な画像形式です。
高品質のSVGを生成する研究は、AIGCコミュニティのデザイナーと研究者の両方から継続的に注目を集めています。
ただし、既存のメソッドは、膨大な計算コストで非構造化された出力を生成するか、単純化された構造のモノクロアイコンを生成することに限定されます。
高品質で複雑なSVGを生成するために、エンドツーエンドのマルチモーダルSVG生成のために事前に訓練された視覚言語モデル(VLM)を活用する統一されたフレームワークであるOmnisvgを提案します。
SVGコマンドをパラメーター化してディスクリートトークンに調整することにより、OMNISVGは、複雑なSVG構造の表現力を維持しながら、効率的なトレーニングのために低レベルのジオメトリから構造論理を分離します。
SVG合成の開発をさらに進めるために、200万の豊富な注釈付きSVGアセットを備えたマルチモーダルデータセットであるMMSVG-2Mと、条件付きSVG生成タスクの標準化された評価プロトコルを導入します。
広範な実験では、OmnisVGが既存の方法を上回り、プロのSVG設計ワークフローに統合する可能性があることが示されています。

要約(オリジナル)

Scalable Vector Graphics (SVG) is an important image format widely adopted in graphic design because of their resolution independence and editability. The study of generating high-quality SVG has continuously drawn attention from both designers and researchers in the AIGC community. However, existing methods either produces unstructured outputs with huge computational cost or is limited to generating monochrome icons of over-simplified structures. To produce high-quality and complex SVG, we propose OmniSVG, a unified framework that leverages pre-trained Vision-Language Models (VLMs) for end-to-end multimodal SVG generation. By parameterizing SVG commands and coordinates into discrete tokens, OmniSVG decouples structural logic from low-level geometry for efficient training while maintaining the expressiveness of complex SVG structure. To further advance the development of SVG synthesis, we introduce MMSVG-2M, a multimodal dataset with two million richly annotated SVG assets, along with a standardized evaluation protocol for conditional SVG generation tasks. Extensive experiments show that OmniSVG outperforms existing methods and demonstrates its potential for integration into professional SVG design workflows.

arxiv情報

著者 Yiying Yang,Wei Cheng,Sijin Chen,Xianfang Zeng,Jiaxu Zhang,Liao Wang,Gang Yu,Xingjun Ma,Yu-Gang Jiang
発行日 2025-04-08 17:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OmniSVG: A Unified Scalable Vector Graphics Generation Model はコメントを受け付けていません