TableCenterNet: A one-stage network for table structure recognition

要約

テーブル構造の認識は、構造化されていないデータのテーブルを機械理解可能な形式に解析することを目的としています。
最近の方法は、2段階のプロセスまたは最適化された1段階のアプローチを通じてこの問題に対処しています。
ただし、これらの方法では、複数のネットワークを連続トレーニングし、より時間のかかるシーケンシャルデコードを実行する必要があるか、テーブルの論理構造を解析するために複雑な後処理アルゴリズムに依存する必要があります。
彼らは、クロスセナリオの適応性、堅牢性、計算効率のバランスをとるのに苦労しています。
この論文では、Tablecenternetと呼ばれる1段階のエンドツーエンドテーブル構造解析ネットワークを提案します。
このネットワークは、テーブルの空間的および論理構造の予測を初めて並列回帰タスクに統合し、共有特徴抽出層とタスク固有のデコードの相乗的アーキテクチャを通じて、セルの空間論的位置マッピング法則を暗黙的に学習します。
2段階の方法と比較して、私たちの方法はトレーニングが簡単で、推測が速いです。
ベンチマークデータセットでの実験は、テーブルセンターセットがさまざまなシナリオでテーブル構造を効果的に解析し、Tablegraph-24Kデータセットで最先端のパフォーマンスを達成できることを示しています。
コードはhttps://github.com/dreamy-xay/tablecenternetで入手できます。

要約(オリジナル)

Table structure recognition aims to parse tables in unstructured data into machine-understandable formats. Recent methods address this problem through a two-stage process or optimized one-stage approaches. However, these methods either require multiple networks to be serially trained and perform more time-consuming sequential decoding, or rely on complex post-processing algorithms to parse the logical structure of tables. They struggle to balance cross-scenario adaptability, robustness, and computational efficiency. In this paper, we propose a one-stage end-to-end table structure parsing network called TableCenterNet. This network unifies the prediction of table spatial and logical structure into a parallel regression task for the first time, and implicitly learns the spatial-logical location mapping laws of cells through a synergistic architecture of shared feature extraction layers and task-specific decoding. Compared with two-stage methods, our method is easier to train and faster to infer. Experiments on benchmark datasets show that TableCenterNet can effectively parse table structures in diverse scenarios and achieve state-of-the-art performance on the TableGraph-24k dataset. Code is available at https://github.com/dreamy-xay/TableCenterNet.

arxiv情報

著者 Anyi Xiao,Cihui Yang
発行日 2025-05-12 13:12:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | TableCenterNet: A one-stage network for table structure recognition はコメントを受け付けていません

IKrNet: A Neural Network for Detecting Specific Drug-Induced Patterns in Electrocardiograms Amidst Physiological Variability

要約

心臓の健康を正確に評価するためには、身体活動、薬物、ストレスの影響を受けるものを含むさまざまな生理学的条件下でさえ、心電図(ECG)シグナルの監視と分析。
ただし、現在のAIベースの方法は、これらの要因がどのように相互作用してECGパターンを変化させるかを説明できず、最終的には実際の設定での適用性を制限します。
この研究では、特定の生理学的状態の中でECGの薬物特異的パターンを特定する新しいニューラルネットワークモデルであるIkrnetを紹介します。
Ikrnetのアーキテクチャには、空間的特徴をキャプチャするために、さまざまな受容フィールドサイズの畳み込みバックボーンを使用することにより、空間的および時間的ダイナミクスが組み込まれています。
双方向の長期メモリモジュールも、時間的依存性をモデル化するために採用されています。
心拍数の変動を生理学的変動の代理として扱うことにより、身体的ストレスのある状態、薬物摂取単独、および薬物存在のないベースラインなど、多様なシナリオ全体でIkrnetのパフォーマンスを評価しました。
私たちの評価は、990人の健康なボランティアが80mgのソタロールを投与された臨床プロトコルに従います。これは、生命にかかわる不整脈であるトルサド・ド・ポイントの前兆であることが知られている薬物です。
Ikrnetは、さまざまな生理学的条件で最先端のモデルの精度と安定性を上回り、その臨床的生存率を強調することを示しています。

要約(オリジナル)

Monitoring and analyzing electrocardiogram (ECG) signals, even under varying physiological conditions, including those influenced by physical activity, drugs and stress, is crucial to accurately assess cardiac health. However, current AI-based methods often fail to account for how these factors interact and alter ECG patterns, ultimately limiting their applicability in real-world settings. This study introduces IKrNet, a novel neural network model, which identifies drug-specific patterns in ECGs amidst certain physiological conditions. IKrNet’s architecture incorporates spatial and temporal dynamics by using a convolutional backbone with varying receptive field size to capture spatial features. A bi-directional Long Short-Term Memory module is also employed to model temporal dependencies. By treating heart rate variability as a surrogate for physiological fluctuations, we evaluated IKrNet’s performance across diverse scenarios, including conditions with physical stress, drug intake alone, and a baseline without drug presence. Our assessment follows a clinical protocol in which 990 healthy volunteers were administered 80mg of Sotalol, a drug which is known to be a precursor to Torsades-de-Pointes, a life-threatening arrhythmia. We show that IKrNet outperforms state-of-the-art models’ accuracy and stability in varying physiological conditions, underscoring its clinical viability.

arxiv情報

著者 Ahmad Fall,Federica Granese,Alex Lence,Dominique Fourer,Blaise Hanczar,Joe-Elie Salem,Jean-Daniel Zucker,Edi Prifti
発行日 2025-05-12 13:14:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | IKrNet: A Neural Network for Detecting Specific Drug-Induced Patterns in Electrocardiograms Amidst Physiological Variability はコメントを受け付けていません

Discrete Visual Tokens of Autoregression, by Diffusion, and for Reasoning

要約

画像表現の従来の空間前の事前を完全に破棄し、新しい個別の視覚トークネイザーである自己整合トークイザー(セルフトック)を導入します。
その設計コアでは、画像生成の逆拡散プロセスを使用して、自己回帰(AR)の事前(言語の因果構造を反映する)を視覚トークンに構成します。
ARプロパティは、次の2つの重要な方法で、従来の空間トークンと根本的に異なるセルフトックを作成します。 -SelfTokは、ビジョン言語モデル(VLMS)の拡散とARを統一するためのエレガントでミニマリストのアプローチを提供します。SelfokTokensを使用して画像を表現することにより、純粋に隔離のオブジェクト型アーキテクチェを使用してVLMをトレーニングすることができます。
-AR事前はベルマン方程式を満たしているのに対し、空間事前はそうではないことを理論的に示します。
したがって、SelfTokは、LLMSで達成されたものに匹敵する有効性を備えた視覚的生成のための強化学習(RL)をサポートします。
ARプロパティに加えて、SelftokはSotaトークネイザーでもあり、高品質の再構築と圧縮速度との間の好ましいトレードオフを達成します。
セルフトックを使用して、視覚的理解と生成タスクの両方のために純粋なAR VLMを構築します。
印象的なことに、テキストイメージのトレーニングペアを使用せずに、視覚トークンで動作する単純なポリシーグラデーションRLは、視覚的な生成ベンチマークを大幅に高め、既存のすべてのモデルを大きなマージンで上回ります。
したがって、視覚トークンが効果的なRLをサポートできないという長年の課題にセルフトックが効果的に対処すると考えています。
LLMSのRLの確立された強さと組み合わせると、これにより、真にマルチモーダルLLMの実現に一歩近づきます。
プロジェクトページ:https://selftok-team.github.io/report/。

要約(オリジナル)

We completely discard the conventional spatial prior in image representation and introduce a novel discrete visual tokenizer: Self-consistency Tokenizer (Selftok). At its design core, we compose an autoregressive (AR) prior — mirroring the causal structure of language — into visual tokens by using the reverse diffusion process of image generation. The AR property makes Selftok fundamentally distinct from traditional spatial tokens in the following two key ways: – Selftok offers an elegant and minimalist approach to unify diffusion and AR for vision-language models (VLMs): By representing images with Selftok tokens, we can train a VLM using a purely discrete autoregressive architecture — like that in LLMs — without requiring additional modules or training objectives. – We theoretically show that the AR prior satisfies the Bellman equation, whereas the spatial prior does not. Therefore, Selftok supports reinforcement learning (RL) for visual generation with effectiveness comparable to that achieved in LLMs. Besides the AR property, Selftok is also a SoTA tokenizer that achieves a favorable trade-off between high-quality reconstruction and compression rate. We use Selftok to build a pure AR VLM for both visual comprehension and generation tasks. Impressively, without using any text-image training pairs, a simple policy gradient RL working in the visual tokens can significantly boost the visual generation benchmark, surpassing all the existing models by a large margin. Therefore, we believe that Selftok effectively addresses the long-standing challenge that visual tokens cannot support effective RL. When combined with the well-established strengths of RL in LLMs, this brings us one step closer to realizing a truly multimodal LLM. Project Page: https://selftok-team.github.io/report/.

arxiv情報

著者 Bohan Wang,Zhongqi Yue,Fengda Zhang,Shuo Chen,Li’an Bi,Junzhe Zhang,Xue Song,Kennard Yanting Chan,Jiachun Pan,Weijia Wu,Mingze Zhou,Wang Lin,Kaihang Pan,Saining Zhang,Liyu Jia,Wentao Hu,Wei Zhao,Hanwang Zhang
発行日 2025-05-12 13:19:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Discrete Visual Tokens of Autoregression, by Diffusion, and for Reasoning はコメントを受け付けていません

GIFStream: 4D Gaussian-based Immersive Video with Feature Stream

要約

Immersive Videoは、6ドーフリーの視聴体験を提供し、将来のビデオテクノロジーで重要な役割を果たす可能性があります。
最近、4D Gaussian Splattingは、そのレンダリング効率と品質のために、没入型ビデオの効果的なアプローチとして注目を集めていますが、管理可能なストレージで品質を維持することは依然として困難です。
これに対処するために、標準空間を使用した新しい4Dガウス表現と、時間依存の特徴ストリームで強化された変形場を使用したGIFSTREAMを紹介します。
これらの機能ストリームにより、複雑なモーションモデリングが可能になり、時間的対応とモーション認識剪定を活用することにより、効率的な圧縮が可能になります。
さらに、エンドツーエンドの圧縮用の時間的圧縮ネットワークと空間圧縮ネットワークの両方を組み込みます。
実験結果は、GIFSTREAMが30 Mbpsで高品質の没入型ビデオを提供し、RTX 4090でリアルタイムレンダリングと高速デコードを提供することを示しています。プロジェクトページ:https://xdimlab.github.io/gifstream

要約(オリジナル)

Immersive video offers a 6-Dof-free viewing experience, potentially playing a key role in future video technology. Recently, 4D Gaussian Splatting has gained attention as an effective approach for immersive video due to its high rendering efficiency and quality, though maintaining quality with manageable storage remains challenging. To address this, we introduce GIFStream, a novel 4D Gaussian representation using a canonical space and a deformation field enhanced with time-dependent feature streams. These feature streams enable complex motion modeling and allow efficient compression by leveraging temporal correspondence and motion-aware pruning. Additionally, we incorporate both temporal and spatial compression networks for end-to-end compression. Experimental results show that GIFStream delivers high-quality immersive video at 30 Mbps, with real-time rendering and fast decoding on an RTX 4090. Project page: https://xdimlab.github.io/GIFStream

arxiv情報

著者 Hao Li,Sicheng Li,Xiang Gao,Abudouaihati Batuer,Lu Yu,Yiyi Liao
発行日 2025-05-12 13:24:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GIFStream: 4D Gaussian-based Immersive Video with Feature Stream はコメントを受け付けていません

SynID: Passport Synthetic Dataset for Presentation Attack Detection

要約

リモート検証システムで不正なIDドキュメントを特定するためのプレゼンテーション攻撃検出(PAD)の需要は、近年大幅に上昇しています。
この増加は、リモート作業の台頭、オンライン購入、移行、合成画像の進歩など、いくつかの要因によって駆動されます。
さらに、登録プロセスを対象とした攻撃の数が急増していることに気付きました。
偽のIDドキュメントを検出するためにパッドをトレーニングすることは、プライバシーの懸念により利用可能なIDドキュメントの数が限られているため、非常に困難です。
この作業は、ICAO要件を使用して現実的なトレーニングとテスト画像を取得するために、合成データとオープンアクセス情報を組み合わせたハイブリッドメソッドから生成された新しいパスポートデータセットを提案します。

要約(オリジナル)

The demand for Presentation Attack Detection (PAD) to identify fraudulent ID documents in remote verification systems has significantly risen in recent years. This increase is driven by several factors, including the rise of remote work, online purchasing, migration, and advancements in synthetic images. Additionally, we have noticed a surge in the number of attacks aimed at the enrolment process. Training a PAD to detect fake ID documents is very challenging because of the limited number of ID documents available due to privacy concerns. This work proposes a new passport dataset generated from a hybrid method that combines synthetic data and open-access information using the ICAO requirement to obtain realistic training and testing images.

arxiv情報

著者 Juan E. Tapia,Fabian Stockhardt,Lázaro Janier González-Soler,Christoph Busch
発行日 2025-05-12 13:24:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SynID: Passport Synthetic Dataset for Presentation Attack Detection はコメントを受け付けていません

Noise Optimized Conditional Diffusion for Domain Adaptation

要約

偽標識は、監視されていないドメイン適応(UDA)の基礎ですが、自信の高い擬似標的ドメインサンプルの希少性(\ textbf {hcpl-tds})は、しばしば不正確なクロスドメイン統計的整合性を引き起こし、DA障害を引き起こします。
この課題に対処するために、\ textbf {n} oise \ textbf {o} ptimized \ textbf {c} onditional \ textbf {d} ifusion for \ textbf {d} omain \ textbf {a} daptation(\ textbf {\ gentave cavess fratess frates frates frates forted for
効率的な適応のためのタスク結合最適化を実現するためのDAの意思決定要件を備えた条件付き拡散モデル。
堅牢なクロスドメインの一貫性のために、DA分類器を変更して、統一された最適化フレームワーク内の条件付き拡散分類器と一致し、ノイズ変動クロスドメインサンプルの前進トレーニングを可能にします。
さらに、拡散モデルでの従来の\(\ mathcal {n}(\ mathbf {0}、\ mathbf {i})\)初期化は、しばしばクラス結合HCPL-TDSを生成し、識別DAを妥協すると主張します。
これを解決するために、逆クラス固有のHCPL-TDS生成のためにサンプリング領域を改良し、クロスドメインアライメントを効果的に強化するクラスアウェアノイズ最適化戦略を導入します。
5つのベンチマークデータセットと29のDAタスクにわたる広範な実験は、31の最先端の方法を超える\ textBf {nocdda}の大幅なパフォーマンス利益を示し、その堅牢性と有効性を検証します。

要約(オリジナル)

Pseudo-labeling is a cornerstone of Unsupervised Domain Adaptation (UDA), yet the scarcity of High-Confidence Pseudo-Labeled Target Domain Samples (\textbf{hcpl-tds}) often leads to inaccurate cross-domain statistical alignment, causing DA failures. To address this challenge, we propose \textbf{N}oise \textbf{O}ptimized \textbf{C}onditional \textbf{D}iffusion for \textbf{D}omain \textbf{A}daptation (\textbf{NOCDDA}), which seamlessly integrates the generative capabilities of conditional diffusion models with the decision-making requirements of DA to achieve task-coupled optimization for efficient adaptation. For robust cross-domain consistency, we modify the DA classifier to align with the conditional diffusion classifier within a unified optimization framework, enabling forward training on noise-varying cross-domain samples. Furthermore, we argue that the conventional \( \mathcal{N}(\mathbf{0}, \mathbf{I}) \) initialization in diffusion models often generates class-confused hcpl-tds, compromising discriminative DA. To resolve this, we introduce a class-aware noise optimization strategy that refines sampling regions for reverse class-specific hcpl-tds generation, effectively enhancing cross-domain alignment. Extensive experiments across 5 benchmark datasets and 29 DA tasks demonstrate significant performance gains of \textbf{NOCDDA} over 31 state-of-the-art methods, validating its robustness and effectiveness.

arxiv情報

著者 Lingkun Luo,Shiqiang Hu,Liming Chen
発行日 2025-05-12 13:28:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Noise Optimized Conditional Diffusion for Domain Adaptation はコメントを受け付けていません

Automated Visual Attention Detection using Mobile Eye Tracking in Behavioral Classroom Studies

要約

教師の視覚的な注意と教室での生徒全体での流通は、生徒の関与、達成、および専門教師のトレーニングに重要な意味を構成することができます。
それにもかかわらず、学生の教師がどこで、どの学生教師が焦点を当てるかについての情報を推測することは些細なことではありません。
モバイルアイトラッキングは、この問題を解決するために重要なヘルプを提供できます。
ただし、モバイルアイトラッキングのみを使用するには、かなりの量の手動注釈が必要です。
この制限に対処するために、教師が焦点を当てる学生を認識するために最小限の手動注釈付きデータを必要とする自動処理パイプラインの概念を提示します。
この目的のために、最先端の顔検出モデルと顔認識機能の埋め込みを利用して、教室のコンテキストでの転送学習で顔認識モデルを訓練し、これらのモデルをモバイルアイトラッカーからの教師の視線と組み合わせます。
4つの異なる教室から収集されたデータでアプローチを評価しましたが、結果は、すべての教室のセットアップで視覚的に焦点を当てた学生を妥当なパフォーマンスで推定することが可能であるが、U字型および小さな教室ではそれぞれ約0.7と0.9の正確さを伴う最高の結果をもたらしたことを示しています。
教師と学生の相互作用の方法を評価せず、技術的アプローチの妥当性に焦点を合わせていましたが、私たちの方法論は膨大な量の手動注釈付きデータを必要とせず、教師の視覚的注意を扱う非侵入方法を提供するため、教育戦略を改善し、教室管理を強化し、専門教師開発のためのフィードバックを提供するのに役立ちます。

要約(オリジナル)

Teachers’ visual attention and its distribution across the students in classrooms can constitute important implications for student engagement, achievement, and professional teacher training. Despite that, inferring the information about where and which student teachers focus on is not trivial. Mobile eye tracking can provide vital help to solve this issue; however, the use of mobile eye tracking alone requires a significant amount of manual annotations. To address this limitation, we present an automated processing pipeline concept that requires minimal manually annotated data to recognize which student the teachers focus on. To this end, we utilize state-of-the-art face detection models and face recognition feature embeddings to train face recognition models with transfer learning in the classroom context and combine these models with the teachers’ gaze from mobile eye trackers. We evaluated our approach with data collected from four different classrooms, and our results show that while it is possible to estimate the visually focused students with reasonable performance in all of our classroom setups, U-shaped and small classrooms led to the best results with accuracies of approximately 0.7 and 0.9, respectively. While we did not evaluate our method for teacher-student interactions and focused on the validity of the technical approach, as our methodology does not require a vast amount of manually annotated data and offers a non-intrusive way of handling teachers’ visual attention, it could help improve instructional strategies, enhance classroom management, and provide feedback for professional teacher development.

arxiv情報

著者 Efe Bozkir,Christian Kosel,Tina Seidel,Enkelejda Kasneci
発行日 2025-05-12 13:30:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC | Automated Visual Attention Detection using Mobile Eye Tracking in Behavioral Classroom Studies はコメントを受け付けていません

Self-Supervised Event Representations: Towards Accurate, Real-Time Perception on SoC FPGAs

要約

イベントカメラは、従来のフレームベースのセンサーよりも大きな利点を提供します。
これらには、マイクロ秒の時間分解能、さまざまな照明条件下での堅牢性、低消費電力が含まれます。
それにもかかわらず、それらのまばらで非同期イベントストリームの効果的な処理は依然として困難です。
この問題に対する既存のアプローチは、2つの異なるグループに分類できます。
最初のグループには、スパイクニューラルネットワークやグラフの畳み込みニューラルネットワークなど、ニューラルモデルを使用したイベントデータの直接処理が含まれます。
ただし、このアプローチには、定性的パフォーマンスの観点からの妥協が伴うことがよくあります。
2番目のグループでは、手作りの集合機能を使用してイベントを密な表現に変換することが含まれます。
このペーパーでは、ゲートリカレントユニット(GRU)ネットワークを活用して、一時的な離散化なしにイベントタイムスタンプと極性の正確なピクセルエンコードを実現するために、新しい自己監視イベント表現(SSER)メソッドを紹介します。
再発層は、イベント時間エンコーディングの忠実度を最大化するために、自己監視の方法で訓練されています。
推論は、非同期に生成されたイベント表現で実行されるため、ハイスループットセンサーとの互換性を確保します。
実験的検証は、SSERが集約ベースのベースラインよりも優れており、Gen1および1 MPXオブジェクト検出データセットで2.4%のMAPと0.6%の改善を達成することを示しています。
さらに、このペーパーでは、システムオンチップFPGA上のイベントデータの再発表現の最初のハードウェア実装を提示し、1〜2 Wのサブマイクロンドレイテンシと消費電力を達成し、リアルタイムの電力効率の高いアプリケーションに適しています。
コードはhttps://github.com/vision-agh/recrepeventで入手できます。

要約(オリジナル)

Event cameras offer significant advantages over traditional frame-based sensors. These include microsecond temporal resolution, robustness under varying lighting conditions and low power consumption. Nevertheless, the effective processing of their sparse, asynchronous event streams remains challenging. Existing approaches to this problem can be categorised into two distinct groups. The first group involves the direct processing of event data with neural models, such as Spiking Neural Networks or Graph Convolutional Neural Networks. However, this approach is often accompanied by a compromise in terms of qualitative performance. The second group involves the conversion of events into dense representations with handcrafted aggregation functions, which can boost accuracy at the cost of temporal fidelity. This paper introduces a novel Self-Supervised Event Representation (SSER) method leveraging Gated Recurrent Unit (GRU) networks to achieve precise per-pixel encoding of event timestamps and polarities without temporal discretisation. The recurrent layers are trained in a self-supervised manner to maximise the fidelity of event-time encoding. The inference is performed with event representations generated asynchronously, thus ensuring compatibility with high-throughput sensors. The experimental validation demonstrates that SSER outperforms aggregation-based baselines, achieving improvements of 2.4% mAP and 0.6% on the Gen1 and 1 Mpx object detection datasets. Furthermore, the paper presents the first hardware implementation of recurrent representation for event data on a System-on-Chip FPGA, achieving sub-microsecond latency and power consumption between 1-2 W, suitable for real-time, power-efficient applications. Code is available at https://github.com/vision-agh/RecRepEvent.

arxiv情報

著者 Kamil Jeziorek,Tomasz Kryjak
発行日 2025-05-12 13:32:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Self-Supervised Event Representations: Towards Accurate, Real-Time Perception on SoC FPGAs はコメントを受け付けていません

dc-GAN: Dual-Conditioned GAN for Face Demorphing From a Single Morph

要約

フェイシャルモーフは、2つの異なるアイデンティティに関連する2つの顔の画像を組み合わせることによって作成された画像です。
フェイスデモ型はプロセスを反転させ、顔のモーフを構成する元の画像を回復しようとします。
MORPH攻撃検出(MAD)テクニックを使用してモーフ画像にフラグを立てることができますが、それらを作成するために使用される顔に関する視覚的な情報を明かすことはありません。
Demorphingは、この問題に対処するのに役立ちます。
既存のデモルフィング手法は、非常に制限的(テスト中にアイデンティティを想定)するか、弱い出力(両方の出力が非常に類似しているように見えます)のいずれかです。
この論文では、MORPH画像を条件付けられた新しいGanベースのデモルフィング方法であるDC-Ganを提案することにより、これらの問題を克服します。
私たちの方法は、モーフ複製を克服し、モーフの作成に使用される真正な画像の高品質の再構成を生成します。
さらに、私たちの方法は、デモルフィングパラダイム全体に非常に一般化できます(微分/参照なし)。
AMSL、FRLL-Morphs、Mordiffデータセットに関する実験を実施して、方法の有効性を紹介します。

要約(オリジナル)

A facial morph is an image created by combining two face images pertaining to two distinct identities. Face demorphing inverts the process and tries to recover the original images constituting a facial morph. While morph attack detection (MAD) techniques can be used to flag morph images, they do not divulge any visual information about the faces used to create them. Demorphing helps address this problem. Existing demorphing techniques are either very restrictive (assume identities during testing) or produce feeble outputs (both outputs look very similar). In this paper, we overcome these issues by proposing dc-GAN, a novel GAN-based demorphing method conditioned on the morph images. Our method overcomes morph-replication and produces high quality reconstructions of the bonafide images used to create the morphs. Moreover, our method is highly generalizable across demorphing paradigms (differential/reference-free). We conduct experiments on AMSL, FRLL-Morphs and MorDiff datasets to showcase the efficacy of our method.

arxiv情報

著者 Nitish Shukla,Arun Ross
発行日 2025-05-12 13:39:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | dc-GAN: Dual-Conditioned GAN for Face Demorphing From a Single Morph はコメントを受け付けていません

SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

要約

活版印刷攻撃は、マルチモーダルファンデーションモデルのテキストと視覚コンテンツの相互作用を活用し、誤解を招くテキストが画像に組み込まれている場合に誤分類を引き起こします。
ただし、既存のデータセットのサイズと多様性は限られているため、このような脆弱性を研究することは困難です。
このホワイトペーパーでは、これまでの実際のタイポグラフィ攻撃画像の最大かつ最も多様なデータセットである詐欺を導入し、数百のオブジェクトカテゴリと攻撃語に1,162枚の画像を含んでいます。
詐欺でのビジョン言語モデル(VLMS)の広範なベンチマークを通じて、タイポグラフィ攻撃がパフォーマンスを大幅に低下させることを実証し、トレーニングデータとモデルアーキテクチャがこれらの攻撃に対する感受性に影響することを特定します。
私たちの調査結果は、大きな言語モデル(LLMS)のバックボーンが脆弱性を軽減するのに役立つにもかかわらず、視力エンコーダの選択により、最先端の大型ビジョン言語モデル(LVLMS)でタイポグラフィ攻撃が持続することが明らかになりました。
さらに、合成攻撃は、実世界(手書き)攻撃に非常に似ており、研究での使用を検証することを実証します。
私たちの仕事は、堅牢で信頼できるマルチモーダルAIシステムに対する将来の研究を促進するための包括的なリソースと経験的洞察を提供します。
www.bliss.berlin/research/scamで評価のためのコードとともに、このペーパーで導入されたデータセットを公開します。

要約(オリジナル)

Typographic attacks exploit the interplay between text and visual content in multimodal foundation models, causing misclassifications when misleading text is embedded within images. However, existing datasets are limited in size and diversity, making it difficult to study such vulnerabilities. In this paper, we introduce SCAM, the largest and most diverse dataset of real-world typographic attack images to date, containing 1,162 images across hundreds of object categories and attack words. Through extensive benchmarking of Vision-Language Models (VLMs) on SCAM, we demonstrate that typographic attacks significantly degrade performance, and identify that training data and model architecture influence the susceptibility to these attacks. Our findings reveal that typographic attacks persist in state-of-the-art Large Vision-Language Models (LVLMs) due to the choice of their vision encoder, though larger Large Language Models (LLMs) backbones help mitigate their vulnerability. Additionally, we demonstrate that synthetic attacks closely resemble real-world (handwritten) attacks, validating their use in research. Our work provides a comprehensive resource and empirical insights to facilitate future research toward robust and trustworthy multimodal AI systems. We publicly release the datasets introduced in this paper along with the code for evaluations at www.bliss.berlin/research/scam.

arxiv情報

著者 Justus Westerhoff,Erblina Purelku,Jakob Hackstein,Jonas Loos,Leo Pinetzki,Lorenz Hufe
発行日 2025-05-12 13:45:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models はコメントを受け付けていません