Underage Detection through a Multi-Task and MultiAge Approach for Screening Minors in Unconstrained Imagery

要約

制約のない画像における未成年者の正確な自動スクリーニングには、分布のシフトに堅牢で、公開されているデータでの少ない代表者に弾力性のあるモデルが必要です。
これらの問題を克服するために、1つの年齢回帰ヘッドと4つのバイナリのアンダーエージヘッドを共有するコンパクトな2層MLPと結合する凍結されたFarl視力障害バックボーンに基づいて、凍結したFarl視力障害のバックボーンに基づいて専用/オーバーエージの識別タスクを備えたマルチタスクアーキテクチャを提案します。
重度のクラスの不均衡に対処するために、確率的最適化中に12の年齢ビンを均等にする$ \ alpha $ lecletedフォーカルスタイルの損失と年齢バランスのとれたミニバッチサンプリングを導入します。
損失からエッジのケースを除去する年齢の隙間により、さらなる改善が達成されます。
さらに、303kのクリーニングトレーニング画像と110kのテスト画像を使用して、全体的な未成年のベンチマークを提案することにより、厳密な評価を設定し、「Asores-39K」制限された全体的なテストの両方を定義します。
実世界のシフト。
再サンプリングと年齢のギャップでクリーニングされた総合セットで訓練されたマルチギージモデル「F」は、ASORES-39K制限テストのルート平均式エラーを5.733(年齢のみのベースライン)から5.656歳まで低下させ、F2スコア0.801から0.857のF2スコアから1%の誤ったadult速度で18歳未満の検出を低下させます。
Aswift-20Kの野生データへのドメインシフトでは、同じ構成が0.99のリコールをほぼ維持し、年齢のみのベースラインに関してF2を0.742から0.833に増やし、分布シフト下での強い一般化を示します。
12歳未満および15歳未満のタスクの場合、F2のそれぞれのブーストは、それぞれ0.666から0.955、0.689から0.916です。

要約(オリジナル)

Accurate automatic screening of minors in unconstrained images demands models that are robust to distribution shift and resilient to the children under-representation in publicly available data. To overcome these issues, we propose a multi-task architecture with dedicated under/over-age discrimination tasks based on a frozen FaRL vision-language backbone joined with a compact two-layer MLP that shares features across one age-regression head and four binary under-age heads for age thresholds of 12, 15, 18, and 21 years, focusing on the legally critical age range. To address the severe class imbalance, we introduce an $\alpha$-reweighted focal-style loss and age-balanced mini-batch sampling, which equalizes twelve age bins during stochastic optimization. Further improvement is achieved with an age gap that removes edge cases from the loss. Moreover, we set a rigorous evaluation by proposing the Overall Under-Age Benchmark, with 303k cleaned training images and 110k test images, defining both the ‘ASORES-39k’ restricted overall test, which removes the noisiest domains, and the age estimation wild shifts test ‘ASWIFT-20k’ of 20k-images, stressing extreme pose ($>$45{\deg}), expression, and low image quality to emulate real-world shifts. Trained on the cleaned overall set with resampling and age gap, our multiage model ‘F’ lowers the root-mean-square-error on the ASORES-39k restricted test from 5.733 (age-only baseline) to 5.656 years and lifts under-18 detection from F2 score of 0.801 to 0.857 at 1% false-adult rate. Under the domain shift to the wild data of ASWIFT-20k, the same configuration nearly sustains 0.99 recall while boosting F2 from 0.742 to 0.833 with respect to the age-only baseline, demonstrating strong generalization under distribution shift. For the under-12 and under-15 tasks, the respective boosts in F2 are from 0.666 to 0.955 and from 0.689 to 0.916, respectively.

arxiv情報

著者 Christopher Gaul,Eduardo Fidalgo,Enrique Alegre,Rocío Alaiz Rodríguez,Eri Pérez Corral
発行日 2025-06-12 13:36:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Underage Detection through a Multi-Task and MultiAge Approach for Screening Minors in Unconstrained Imagery はコメントを受け付けていません

ODG: Occupancy Prediction Using Dual Gaussians

要約

占有予測は、周囲の環境のカメラ画像からきめ細かい3Dジオメトリとセマンティクスを導き、自律運転の重要な知覚タスクにします。
既存のメソッドは、シーン表現として密なグリッドを採用します。これは高解像度にスケーリングすることが困難です。または、さまざまなオブジェクト特性を処理するには不十分なスパースクエリの単一セットを使用してシーン全体を学習することができます。
この論文では、複雑なシーンのダイナミクスを効果的にキャプチャするために、階層的なデュアルスパースガウス表現であるODGを紹介します。
運転シーンを静的および動的な対応物に普遍的に分解できるという観察に基づいて、デュアルガウスクエリを定義して、多様なシーンオブジェクトをより適切にモデル化します。
階層的なガウストランスを利用して、占領されたボクセルセンターとセマンティッククラスとガウスパラメーターを予測します。
3Dガウススプラッティングのリアルタイムレンダリング機能を活用すると、ピクセルレベルのアラインメントを注入して占有学習を後押しするために、利用可能な深さおよびセマンティックマップアノテーションでレンダリング監督を課します。
OCC3DナスセンとOCC3D-WAYMOベンチマークに関する広範な実験により、提案された方法により、低推論コストを維持しながら、新しい最先端の結果が設定されています。

要約(オリジナル)

Occupancy prediction infers fine-grained 3D geometry and semantics from camera images of the surrounding environment, making it a critical perception task for autonomous driving. Existing methods either adopt dense grids as scene representation, which is difficult to scale to high resolution, or learn the entire scene using a single set of sparse queries, which is insufficient to handle the various object characteristics. In this paper, we present ODG, a hierarchical dual sparse Gaussian representation to effectively capture complex scene dynamics. Building upon the observation that driving scenes can be universally decomposed into static and dynamic counterparts, we define dual Gaussian queries to better model the diverse scene objects. We utilize a hierarchical Gaussian transformer to predict the occupied voxel centers and semantic classes along with the Gaussian parameters. Leveraging the real-time rendering capability of 3D Gaussian Splatting, we also impose rendering supervision with available depth and semantic map annotations injecting pixel-level alignment to boost occupancy learning. Extensive experiments on the Occ3D-nuScenes and Occ3D-Waymo benchmarks demonstrate our proposed method sets new state-of-the-art results while maintaining low inference cost.

arxiv情報

著者 Yunxiao Shi,Yinhao Zhu,Shizhong Han,Jisoo Jeong,Amin Ansari,Hong Cai,Fatih Porikli
発行日 2025-06-12 13:55:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ODG: Occupancy Prediction Using Dual Gaussians はコメントを受け付けていません

Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models

要約

既存の大規模な言語モデル(LLM)は、特に複数の制約が存在し、並列、チェーン、分岐構造で編成されている場合、複雑な指示に従うことの課題に直面しています。
1つの直感的なソリューション、すなわちチェーンオブサート(COT)は、LLMの能力を普遍的に改善することが期待されています。
ただし、バニラCOTは、単に指示を言い換えるという表面的な推論パターンのために、パフォーマンスにマイナスの影響を与えることがわかります。
タイプと寸法の階層全体で彼らの関係を識別するための制約の構成を剥がすことができません。
この目的のために、テスト時間計算スケーリングの推論を奨励することにより、複雑な指示を扱う際にLLMSを高める体系的な方法を提案します。
まず、既存の分類法の下での複雑な命令の分解に起因し、再現可能なデータ収集方法を提案します。
第二に、検証可能なルール中心の報酬シグナルを使用して、強化学習(RL)を活用して、指示のために特に推論を育成します。
優れたCOT施行のためのサンプルごとのコントラストを介して、複雑な指示の下で推論の浅い非必須性質に対処します。
また、専門家の行動クローニングを活用して、速い考えのLLMSから熟練した推論者への着実な分布シフトを促進します。
7つの包括的なベンチマークでの広範な評価は、提案された方法の有効性を確認します。ここで、1.5B LLMは8B LLMに匹敵するパフォーマンスで11.74%の利益を得ています。
コードとデータはhttps://github.com/yuleiqin/raifで入手できます。

要約(オリジナル)

Existing large language models (LLMs) face challenges of following complex instructions, especially when multiple constraints are present and organized in paralleling, chaining, and branching structures. One intuitive solution, namely chain-of-thought (CoT), is expected to universally improve capabilities of LLMs. However, we find that the vanilla CoT exerts a negative impact on performance due to its superficial reasoning pattern of simply paraphrasing the instructions. It fails to peel back the compositions of constraints for identifying their relationship across hierarchies of types and dimensions. To this end, we propose a systematic method to boost LLMs in dealing with complex instructions via incentivizing reasoning for test-time compute scaling. First, we stem from the decomposition of complex instructions under existing taxonomies and propose a reproducible data acquisition method. Second, we exploit reinforcement learning (RL) with verifiable rule-centric reward signals to cultivate reasoning specifically for instruction following. We address the shallow, non-essential nature of reasoning under complex instructions via sample-wise contrast for superior CoT enforcement. We also exploit behavior cloning of experts to facilitate steady distribution shift from fast-thinking LLMs to skillful reasoners. Extensive evaluations on seven comprehensive benchmarks confirm the validity of the proposed method, where a 1.5B LLM achieves 11.74% gains with performance comparable to a 8B LLM. Codes and data are available at https://github.com/yuleiqin/RAIF.

arxiv情報

著者 Yulei Qin,Gang Li,Zongyi Li,Zihan Xu,Yuchen Shi,Zhekai Lin,Xiao Cui,Ke Li,Xing Sun
発行日 2025-06-12 13:57:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models はコメントを受け付けていません

Continual Hyperbolic Learning of Instances and Classes

要約

継続的な学習は、伝統的にインスタンスまたはクラスのいずれかの分類に焦点を当ててきましたが、ロボット工学や自動運転車などの現実世界のアプリケーションでは、両方を同時に処理するためのモデルが必要です。
実際のシナリオを反映するために、同時にインスタンスとクラスを継続的に学習するタスクを紹介します。
このタスクは、モデルに挑戦して、時間の経過とともに複数のレベルの粒度に適応するように挑戦します。これには、粗粒クラスの一般化との微細なインスタンス認識のバランスをとる必要があります。
この論文では、クラスとインスタンスが自然に階層構造を形成することを特定します。
これらの階層的な関係をモデル化するために、双曲線空間を活用する継続的な学習アルゴリズムであるHyperclicを提案します。これは、低歪みとコンパクトな埋め込みを持つ木のような構造を表す能力のために階層データに独自に適しています。
当社のフレームワークには、双曲線分類と蒸留目標が組み込まれており、階層関係の継続的な埋め込みを可能にします。
複数の粒度のパフォーマンスを評価するために、継続的な階層メトリックを紹介します。
動的な現実世界環境での階層オブジェクト認識の複雑さをキャプチャする唯一のデータセットであるeGoobjectsでのアプローチを検証します。
経験的結果は、階層的一般化が改善された複数の粒度で高極性が効果的に動作することを示しています。

要約(オリジナル)

Continual learning has traditionally focused on classifying either instances or classes, but real-world applications, such as robotics and self-driving cars, require models to handle both simultaneously. To mirror real-life scenarios, we introduce the task of continual learning of instances and classes, at the same time. This task challenges models to adapt to multiple levels of granularity over time, which requires balancing fine-grained instance recognition with coarse-grained class generalization. In this paper, we identify that classes and instances naturally form a hierarchical structure. To model these hierarchical relationships, we propose HyperCLIC, a continual learning algorithm that leverages hyperbolic space, which is uniquely suited for hierarchical data due to its ability to represent tree-like structures with low distortion and compact embeddings. Our framework incorporates hyperbolic classification and distillation objectives, enabling the continual embedding of hierarchical relations. To evaluate performance across multiple granularities, we introduce continual hierarchical metrics. We validate our approach on EgoObjects, the only dataset that captures the complexity of hierarchical object recognition in dynamic real-world environments. Empirical results show that HyperCLIC operates effectively at multiple granularities with improved hierarchical generalization.

arxiv情報

著者 Melika Ayoughi,Mina Ghadimi Atigh,Mohammad Mahdi Derakhshani,Cees G. M. Snoek,Pascal Mettes,Paul Groth
発行日 2025-06-12 13:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Continual Hyperbolic Learning of Instances and Classes はコメントを受け付けていません

Uncertainty-Masked Bernoulli Diffusion for Camouflaged Object Detection Refinement

要約

カモフラージュオブジェクト検出(COD)は、ターゲットとその背景の微妙な視覚的な違いにより、固有の課題を提示します。
既存の方法は顕著な進歩を遂げていますが、まだ完全に調査されていない後処理洗練の重要な可能性が残っています。
この制限に対処するために、COD向けに特別に設計された最初の生成洗練フレームワークである不確実なマスクされたBernoulli拡散(UMBD)モデルを提案します。
UMBDは、セグメンテーションの品質が低い残留領域にベルヌーリ拡散を選択的に適用する不確実性ガイド付きマスキングメカニズムを導入し、ターゲットを絞った洗練を、正しくセグメント化された領域を保存しながら可能にします。
このプロセスをサポートするために、マルチブランチアーキテクチャを採用し、複数のソースから不確実性を融合させて推定精度を向上させるハイブリッド不確実性定量化ネットワーク(HUQNET)を設計します。
これにより、生成サンプリングプロセス中に適応ガイダンスが可能になります。
提案されているUMBDフレームワークは、幅広い既存のエンコーダーデコーダーベースのCODモデルとシームレスに統合でき、その識別機能と拡散ベースの改良の生成的利点を組み合わせています。
複数のCODベンチマークにわたる広範な実験は、一貫したパフォーマンスの改善を示しており、MAEで5.5%の平均増加と、控えめな計算オーバーヘッドのみで加重Fメジャーで3.2%を達成します。
コードがリリースされます。

要約(オリジナル)

Camouflaged Object Detection (COD) presents inherent challenges due to the subtle visual differences between targets and their backgrounds. While existing methods have made notable progress, there remains significant potential for post-processing refinement that has yet to be fully explored. To address this limitation, we propose the Uncertainty-Masked Bernoulli Diffusion (UMBD) model, the first generative refinement framework specifically designed for COD. UMBD introduces an uncertainty-guided masking mechanism that selectively applies Bernoulli diffusion to residual regions with poor segmentation quality, enabling targeted refinement while preserving correctly segmented areas. To support this process, we design the Hybrid Uncertainty Quantification Network (HUQNet), which employs a multi-branch architecture and fuses uncertainty from multiple sources to improve estimation accuracy. This enables adaptive guidance during the generative sampling process. The proposed UMBD framework can be seamlessly integrated with a wide range of existing Encoder-Decoder-based COD models, combining their discriminative capabilities with the generative advantages of diffusion-based refinement. Extensive experiments across multiple COD benchmarks demonstrate consistent performance improvements, achieving average gains of 5.5% in MAE and 3.2% in weighted F-measure with only modest computational overhead. Code will be released.

arxiv情報

著者 Yuqi Shen,Fengyang Xiao,Sujie Hu,Youwei Pang,Yifan Pu,Chengyu Fang,Xiu Li,Chunming He
発行日 2025-06-12 14:02:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Uncertainty-Masked Bernoulli Diffusion for Camouflaged Object Detection Refinement はコメントを受け付けていません

Deep Learning-based Multi Project InP Wafer Simulation for Unsupervised Surface Defect Detection

要約

半導体製造における品質管理は、多くの場合、既知のゴールデン標準とテンプレートマッチングに依存しています。
インジウムリン化(INP)のマルチプロジェクトウェーハ製造の場合、生産スケールが低く、設計上の変動性が低いと、このような黄金の基準は通常利用できません。
順番に、欠陥検出は手動で労働集約的です。
この作業は、CADデータから写真と現実的なINPウェーハ画像をシミュレートするように訓練された、深いニューラルネットワークを使用して合成ゴールデン標準を生成する方法論を提案することにより、この課題に対処します。
さまざまなトレーニング目標を評価し、合成データとINPウェーハ写真の両方でシミュレートされた画像の品質を評価します。
ディープラーニングベースの方法は、ベースラインの意思決定ツリーベースのアプローチよりも優れており、より効率的な欠陥検出のために、ユーザー定義のウェーハの任意のユーザー定義領域でのCADプランから「シミュレートされたゴールデンダイ」を使用できます。
表面欠陥検出における実用的な有用性を実証するために、テンプレートマッチング手順に方法を適用します。

要約(オリジナル)

Quality management in semiconductor manufacturing often relies on template matching with known golden standards. For Indium-Phosphide (InP) multi-project wafer manufacturing, low production scale and high design variability lead to such golden standards being typically unavailable. Defect detection, in turn, is manual and labor-intensive. This work addresses this challenge by proposing a methodology to generate a synthetic golden standard using Deep Neural Networks, trained to simulate photo-realistic InP wafer images from CAD data. We evaluate various training objectives and assess the quality of the simulated images on both synthetic data and InP wafer photographs. Our deep-learning-based method outperforms a baseline decision-tree-based approach, enabling the use of a ‘simulated golden die’ from CAD plans in any user-defined region of a wafer for more efficient defect detection. We apply our method to a template matching procedure, to demonstrate its practical utility in surface defect detection.

arxiv情報

著者 Emílio Dolgener Cantú,Rolf Klemens Wittmann,Oliver Abdeen,Patrick Wagner,Wojciech Samek,Moritz Baier,Sebastian Lapuschkin
発行日 2025-06-12 14:03:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Deep Learning-based Multi Project InP Wafer Simulation for Unsupervised Surface Defect Detection はコメントを受け付けていません

Towards Reliable Identification of Diffusion-based Image Manipulations

要約

表情、ジェスチャー、または背景の詳細​​を変更すると、画像によって伝えられる意味が劇的に変化する場合があります。
特に、拡散モデルの最近の進歩は、画像操作の品質を大幅に改善しながら、誤用の扉を開いています。
したがって、本物の画像に加えられた変更を特定することは、新しい拡散ベースの編集ツールによって常に挑戦されている重要なタスクになります。
この目的のために、塗装されたエリア(レーダー)の信頼できる識別のための新しいアプローチを提案します。
レーダーは、既存の基礎モデルに基づいて構築され、さまざまな画像モダリティの機能を組み合わせています。
また、操作された画像パッチを分離するのに役立つ補助的なコントラスト損失も組み込まれています。
これらの手法を実証して、メソッドの精度とその一般化の両方を多数の拡散モデルに大幅に改善します。
現実的な評価をサポートするために、28の拡散モデルが改ざんされた画像を備えた新しい包括的なベンチマークであるBBC-Pairをさらに紹介します。
私たちの実験は、レーダーが優れた結果を達成し、見られた拡散モデルと目に見えない拡散モデルの両方で行われた画像編集の検出とローカリゼーションの最先端を上回ることを示しています。
コード、データ、モデルは、https://alex-costanzino.github.io/radar/で公開されます。

要約(オリジナル)

Changing facial expressions, gestures, or background details may dramatically alter the meaning conveyed by an image. Notably, recent advances in diffusion models greatly improve the quality of image manipulation while also opening the door to misuse. Identifying changes made to authentic images, thus, becomes an important task, constantly challenged by new diffusion-based editing tools. To this end, we propose a novel approach for ReliAble iDentification of inpainted AReas (RADAR). RADAR builds on existing foundation models and combines features from different image modalities. It also incorporates an auxiliary contrastive loss that helps to isolate manipulated image patches. We demonstrate these techniques to significantly improve both the accuracy of our method and its generalisation to a large number of diffusion models. To support realistic evaluation, we further introduce BBC-PAIR, a new comprehensive benchmark, with images tampered by 28 diffusion models. Our experiments show that RADAR achieves excellent results, outperforming the state-of-the-art in detecting and localising image edits made by both seen and unseen diffusion models. Our code, data and models will be publicly available at https://alex-costanzino.github.io/radar/.

arxiv情報

著者 Alex Costanzino,Woody Bayliss,Juil Sock,Marc Gorriz Blanch,Danijela Horak,Ivan Laptev,Philip Torr,Fabio Pizzati
発行日 2025-06-12 14:11:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Towards Reliable Identification of Diffusion-based Image Manipulations はコメントを受け付けていません

A Unit Enhancement and Guidance Framework for Audio-Driven Avatar Video Generation

要約

オーディオ駆動型のヒューマンアニメーションテクノロジーは、ヒューマンコンピューターの相互作用で広く使用されており、拡散モデルの出現により、その開発がさらに進歩しました。
現在、ほとんどの方法は、マルチステージの生成と中間表現に依存しており、特定の前景領域の生成品質とオーディオモーションの一貫性に長い推論時間と問題をもたらしています。
これらの欠点は、主に局所的な細粒の監視されたガイダンスがないためです。
上記の課題に対処するために、オーディオ駆動型のアッパーボディアニメーションのユニット強化とガイダンスフレームワークであるパー​​ツオーディオ駆動型の人間アニメーション、PAHAを提案します。
2つの重要な方法を紹介します:部品認識の再重視(PAR)と部品の一貫性の強化(PCE)。
PARは、ポーズ信頼スコアに基づいて地域のトレーニング損失の重みを動的に調整し、視覚品質を効果的に改善します。
PCEは、拡散ベースの地域の視聴覚分類器を構築および訓練して、モーションと共同スピーチのオーディオの一貫性を改善します。
その後、前述の分類器、シーケンシャルガイダンス(SG)および差動ガイダンス(DG)の2つの新しい推論ガイダンス方法を、それぞれ効率と品質のバランスをとることができます。
さらに、この分野での研究と検証を進めるために、最初の中国のニュースアンカースピーチデータセットであるCNAを構築します。
大規模な実験結果とユーザー研究は、PAHAがオーディオモーションの調整とビデオ関連の評価で既存の方法を大幅に上回ることを示しています。
コードとCNASデータセットは、受け入れられるとリリースされます。

要約(オリジナル)

Audio-driven human animation technology is widely used in human-computer interaction, and the emergence of diffusion models has further advanced its development. Currently, most methods rely on multi-stage generation and intermediate representations, resulting in long inference time and issues with generation quality in specific foreground regions and audio-motion consistency. These shortcomings are primarily due to the lack of localized fine-grained supervised guidance. To address above challenges, we propose Parts-aware Audio-driven Human Animation, PAHA, a unit enhancement and guidance framework for audio-driven upper-body animation. We introduce two key methods: Parts-Aware Re-weighting (PAR) and Parts Consistency Enhancement (PCE). PAR dynamically adjusts regional training loss weights based on pose confidence scores, effectively improving visual quality. PCE constructs and trains diffusion-based regional audio-visual classifiers to improve the consistency of motion and co-speech audio. Afterwards, we design two novel inference guidance methods for the foregoing classifiers, Sequential Guidance (SG) and Differential Guidance (DG), to balance efficiency and quality respectively. Additionally, we build CNAS, the first public Chinese News Anchor Speech dataset, to advance research and validation in this field. Extensive experimental results and user studies demonstrate that PAHA significantly outperforms existing methods in audio-motion alignment and video-related evaluations. The codes and CNAS dataset will be released upon acceptance.

arxiv情報

著者 S. Z. Zhou,Y. B. Wang,J. F. Wu,T. Hu,J. N. Zhang
発行日 2025-06-12 14:11:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | A Unit Enhancement and Guidance Framework for Audio-Driven Avatar Video Generation はコメントを受け付けていません

IQE-CLIP: Instance-aware Query Embedding for Zero-/Few-shot Anomaly Detection in Medical Domain

要約

クリップなどの視覚言語モデルの最近の進歩により、ゼロおよび少ないショットの異常検出(ZFSAD)タスクのパフォーマンスが大幅に向上しました。
ただし、ほとんどの既存のクリップベースの方法は、カテゴリの事前知識を想定しており、特定のシナリオに合わせた慎重に設計されたプロンプトに依存しています。
これらのテキストプロンプトは、テキスト空間でセマンティック情報をキャプチャしますが、多くの場合、共同埋め込みスペースの通常と異常なインスタンスを区別できません。
さらに、ほとんどのZFSADアプローチは、医療タスクの調査が限られている産業ドメインに焦点を当てています。
これらの制限に対処するために、医療ドメインのZFSADの新しいフレームワークであるIQE-Clipを提案します。
テキストとインスタンスの両方の視覚情報の両方を統合するクエリの埋め込みが、異常のより効果的な指標として機能することを示します。
具体的には、クラスベースの学習可能なプロンプトトークンを導入して、クリップを医療環境に適切に適応させます。
さらに、両方のモダリティから領域レベルのコンテキスト情報を抽出し、異常に敏感な埋め込みの生成を可能にするインスタンス認識クエリモジュールを設計します。
6つの医療データセットでの広範な実験は、IQE-Clipがゼロショットと少数のショット設定の両方で最先端のパフォーマンスを達成することを示しています。
コードとデータは、\ href {https://github.com/hongh0/iqe-clip/} {このhttps url}で利用できます。

要約(オリジナル)

Recent advances in vision-language models, such as CLIP, have significantly improved performance in zero- and few-shot anomaly detection (ZFSAD) tasks. However, most existing CLIP-based methods assume prior knowledge of categories and rely on carefully designed prompts tailored to specific scenarios. While these text prompts capture semantic information in the textual space, they often fail to distinguish normal and anomalous instances in the joint embedding space. Moreover, most ZFSAD approaches focus on industrial domains, with limited exploration in medical tasks. To address these limitations, we propose IQE-CLIP, a novel framework for ZFSAD in the medical domain. We show that query embeddings integrating both textual and instance-aware visual information serve as more effective indicators of anomalies. Specifically, we introduce class-based and learnable prompting tokens to better adapt CLIP to the medical setting. Furthermore, we design an instance-aware query module that extracts region-level contextual information from both modalities, enabling the generation of anomaly-sensitive embeddings. Extensive experiments on six medical datasets demonstrate that IQE-CLIP achieves state-of-the-art performance in both zero-shot and few-shot settings. Code and data are available at \href{https://github.com/hongh0/IQE-CLIP/}{this https URL}.

arxiv情報

著者 Hong Huang,Weixiang Sun,Zhijian Wu,Jingwen Niu,Donghuan Lu,Xian Wu,Yefeng Zheng
発行日 2025-06-12 14:23:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | IQE-CLIP: Instance-aware Query Embedding for Zero-/Few-shot Anomaly Detection in Medical Domain はコメントを受け付けていません

PosterCraft: Rethinking High-Quality Aesthetic Poster Generation in a Unified Framework

要約

美的ポスターを生成することは、シンプルなデザイン画像よりも困難です。正確なテキストレンダリングだけでなく、抽象的な芸術コンテンツ、印象的なレイアウト、全体的なスタイルの調和のシームレスな統合も必要です。
これに対処するために、事前のモジュラーパイプラインと剛性のある事前定義されたレイアウトを放棄する統合されたフレームワークであるPostercraftを提案し、モデルがコヒーレントで視覚的に魅力的な組成を自由に探索できるようにします。
PosterCraftは、慎重に設計されたカスケードされたワークフローを採​​用して、高美術ポスターの生成を最適化します。
(ii)HQ-poster100kで微調整された地域を認識した監視。
(iii)Best-of-n fearpence Optimizationによる美的テキストの補強学習。
(iv)共同ビジョン言語フィードバックの洗練。
各段階は、特定のニーズに合わせた完全に自動化されたデータ構築パイプラインによってサポートされており、複雑なアーキテクチャの変更なしで堅牢なトレーニングを可能にします。
複数の実験で評価されたPostercraftは、SOTA商用システムの品質をレンダリング、レイアウトのコヒーレンス、および全体的な視覚的魅力のレンダリングにおいて、オープンソースのベースラインを大幅に上回ります。
私たちのコード、モデル、およびデータセットは、プロジェクトページhttps://ephemeral182.github.io/postercraftにあります。

要約(オリジナル)

Generating aesthetic posters is more challenging than simple design images: it requires not only precise text rendering but also the seamless integration of abstract artistic content, striking layouts, and overall stylistic harmony. To address this, we propose PosterCraft, a unified framework that abandons prior modular pipelines and rigid, predefined layouts, allowing the model to freely explore coherent, visually compelling compositions. PosterCraft employs a carefully designed, cascaded workflow to optimize the generation of high-aesthetic posters: (i) large-scale text-rendering optimization on our newly introduced Text-Render-2M dataset; (ii) region-aware supervised fine-tuning on HQ-Poster100K; (iii) aesthetic-text-reinforcement learning via best-of-n preference optimization; and (iv) joint vision-language feedback refinement. Each stage is supported by a fully automated data-construction pipeline tailored to its specific needs, enabling robust training without complex architectural modifications. Evaluated on multiple experiments, PosterCraft significantly outperforms open-source baselines in rendering accuracy, layout coherence, and overall visual appeal-approaching the quality of SOTA commercial systems. Our code, models, and datasets can be found in the Project page: https://ephemeral182.github.io/PosterCraft

arxiv情報

著者 SiXiang Chen,Jianyu Lai,Jialin Gao,Tian Ye,Haoyu Chen,Hengyu Shi,Shitong Shao,Yunlong Lin,Song Fei,Zhaohu Xing,Yeying Jin,Junfeng Luo,Xiaoming Wei,Lei Zhu
発行日 2025-06-12 14:28:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PosterCraft: Rethinking High-Quality Aesthetic Poster Generation in a Unified Framework はコメントを受け付けていません