MMGen: Unified Multi-modal Image Generation and Understanding in One Go

要約

マルチモーダル生成と理解のための統一された拡散フレームワークには、シームレスで制御可能な画像拡散やその他のクロスモーダルタスクを実現するための変革的可能性があります。
この論文では、複数の生成タスクを単一の拡散モデルに統合する統合されたフレームワークであるMMGenを紹介します。
これには、(1)カテゴリ情報が与えられた単一の推論プロセスでマルチモーダル出力が同時に生成されるマルチモーダルカテゴリ条件付き生成。
(2)RGB画像からの深さ、表面正規、およびセグメンテーションマップを正確に予測するマルチモーダルの視覚的理解。
(3)特定のモダリティ条件およびその他の整列モダリティに基づいて、対応するRGB画像を生成するマルチモーダル条件付き生成。
私たちのアプローチは、さまざまなタスクを統合するための単純なモダリティ分解戦略とともに、マルチモーダル出力を柔軟にサポートする新しい拡散トランスを開発します。
広範な実験とアプリケーションは、多様なタスクと条件にわたるMMGenの有効性と優位性を実証し、同時生成と理解を必要とするアプリケーションの可能性を強調しています。

要約(オリジナル)

A unified diffusion framework for multi-modal generation and understanding has the transformative potential to achieve seamless and controllable image diffusion and other cross-modal tasks. In this paper, we introduce MMGen, a unified framework that integrates multiple generative tasks into a single diffusion model. This includes: (1) multi-modal category-conditioned generation, where multi-modal outputs are generated simultaneously through a single inference process, given category information; (2) multi-modal visual understanding, which accurately predicts depth, surface normals, and segmentation maps from RGB images; and (3) multi-modal conditioned generation, which produces corresponding RGB images based on specific modality conditions and other aligned modalities. Our approach develops a novel diffusion transformer that flexibly supports multi-modal output, along with a simple modality-decoupling strategy to unify various tasks. Extensive experiments and applications demonstrate the effectiveness and superiority of MMGen across diverse tasks and conditions, highlighting its potential for applications that require simultaneous generation and understanding.

arxiv情報

著者 Jiepeng Wang,Zhaoqing Wang,Hao Pan,Yuan Liu,Dongdong Yu,Changhu Wang,Wenping Wang
発行日 2025-03-26 15:37:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MMGen: Unified Multi-modal Image Generation and Understanding in One Go はコメントを受け付けていません

MC-LLaVA: Multi-Concept Personalized Vision-Language Model

要約

現在のビジョン言語モデル(VLM)は、視覚的な質問応答など、さまざまなタスク全体で例外的な能力を示しています。
ユーザーエクスペリエンスを向上させるために、最近の研究では、ユーザーが提供する概念を理解するためにVLMパーソナライズを調査しています。
ただし、主に単一の概念パーソナライズに焦点を当て、複数の概念の存在と相互作用を無視して、実際の適用性を制限します。
このペーパーでは、最初のマルチコンセプトパーソナライゼーションパラダイムであるMC-llavaを提案します。
具体的には、MC-Lolavaはマルチコンセプト指導チューニング戦略を採用しており、単一のトレーニングステップで複数の概念を効果的に統合しています。
共同トレーニングに関連するコストを削減するために、視覚トークン情報を使用してコンセプトトークンを初期化するパーソナライズされたテキストプロンプトを提案します。
さらに、推論中にパーソナライズされた視覚プロンプトを導入し、認識と接地機能を強化するための位置信頼マップを集約します。
マルチコンセプトパーソナライゼーションの研究を進めるために、さらに高品質の命令チューニングデータセットを提供します。
映画から複数の文字やオブジェクトを使用して画像を慎重に収集し、優れた多様性を特徴とするマルチコンセプトシナリオ用の質問回答サンプルを手動で生成します。
包括的な定性的および定量的実験は、MC-Lovaが印象的なマルチコンセプトパーソナライズされた応答を達成できることを示しており、VLMSがより優れたユーザー固有のアシスタントになる方法を開催しています。
コードとデータセットは、https://github.com/arctanxarc/mc-llavaで公開されます。

要約(オリジナル)

Current vision-language models (VLMs) show exceptional abilities across diverse tasks, such as visual question answering. To enhance user experience, recent studies investigate VLM personalization to understand user-provided concepts. However, they mainly focus on single-concept personalization, neglecting the existence and interplay of multiple concepts, which limits real-world applicability. This paper proposes the first multi-concept personalization paradigm, MC-LLaVA. Specifically, MC-LLaVA employs a multi-concept instruction tuning strategy, effectively integrating multiple concepts in a single training step. To reduce the costs related to joint training, we propose a personalized textual prompt that uses visual token information to initialize concept tokens. Additionally, we introduce a personalized visual prompt during inference, aggregating location confidence maps for enhanced recognition and grounding capabilities. To advance multi-concept personalization research, we further contribute a high-quality instruction tuning dataset. We carefully collect images with multiple characters and objects from movies and manually generate question-answer samples for multi-concept scenarios, featuring superior diversity. Comprehensive qualitative and quantitative experiments demonstrate that MC-LLaVA can achieve impressive multi-concept personalized responses, paving the way for VLMs to become better user-specific assistants. The code and dataset will be publicly available at https://github.com/arctanxarc/MC-LLaVA.

arxiv情報

著者 Ruichuan An,Sihan Yang,Ming Lu,Renrui Zhang,Kai Zeng,Yulin Luo,Jiajun Cao,Hao Liang,Ying Chen,Qi She,Shanghang Zhang,Wentao Zhang
発行日 2025-03-26 15:44:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | MC-LLaVA: Multi-Concept Personalized Vision-Language Model はコメントを受け付けていません

Imitating Radiological Scrolling: A Global-Local Attention Model for 3D Chest CT Volumes Multi-Label Anomaly Classification

要約

コンピューター断層撮影(CT)スキャン検査の数の急速な増加は、放射線科医がワークロードの増加を支援するために、臓器のセグメンテーション、異常分類、報告生成などの自動化されたツールが緊急の必要性を生み出しました。
3次元(3D)CTスキャンのマルチラベル分類は、データの体積性と検出されるさまざまな異常のため、困難なタスクです。
畳み込みニューラルネットワーク(CNNS)に基づく既存の深い学習方法は、長距離依存関係を効果的にキャプチャするのに苦労していますが、視覚変圧器は実用的な課題をもたらす広範な事前トレーニングを必要とします。
さらに、これらの既存の方法は、CTスキャンスライスをスクロールしながら放射線科医のナビゲーション動作を明示的にモデル化しません。これには、グローバルなコンテキストの理解とローカルの詳細認識の両方が必要です。
この研究では、3D CTスキャンの分析中に放射線科医のスクロール挙動をエミュレートするように特別に設計された新しいグローバルローカル注意モデルであるCTスクロールを提示します。
私たちのアプローチは2つのパブリックデータセットで評価され、包括的な実験と各モデルコンポーネントの貢献を強調するアブレーション研究を通じてその有効性を実証します。

要約(オリジナル)

The rapid increase in the number of Computed Tomography (CT) scan examinations has created an urgent need for automated tools, such as organ segmentation, anomaly classification, and report generation, to assist radiologists with their growing workload. Multi-label classification of Three-Dimensional (3D) CT scans is a challenging task due to the volumetric nature of the data and the variety of anomalies to be detected. Existing deep learning methods based on Convolutional Neural Networks (CNNs) struggle to capture long-range dependencies effectively, while Vision Transformers require extensive pre-training, posing challenges for practical use. Additionally, these existing methods do not explicitly model the radiologist’s navigational behavior while scrolling through CT scan slices, which requires both global context understanding and local detail awareness. In this study, we present CT-Scroll, a novel global-local attention model specifically designed to emulate the scrolling behavior of radiologists during the analysis of 3D CT scans. Our approach is evaluated on two public datasets, demonstrating its efficacy through comprehensive experiments and an ablation study that highlights the contribution of each model component.

arxiv情報

著者 Theo Di Piazza,Carole Lazarus,Olivier Nempont,Loic Boussel
発行日 2025-03-26 15:47:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Imitating Radiological Scrolling: A Global-Local Attention Model for 3D Chest CT Volumes Multi-Label Anomaly Classification はコメントを受け付けていません

UWarp: A Whole Slide Image Registration Pipeline to Characterize Scanner-Induced Local Domain Shift

要約

Histopathology Slide Digitizationは、深い学習方法に基づいて計算病理モデルに大きな影響を与える可能性のあるスキャナー誘発ドメインシフトを導入します。
最先端では、このシフトは、多くの場合、広大なスケール(スライドレベルまたはデータセットレベル)で特徴付けられますが、パッチレベルではなく、深い学習モデルの精度に対する局所的な組織特性の影響の理解を制限します。
この課題に対処するために、さまざまな条件でスキャンされた組織学的スライドを正確に整列するように設計された新しい登録ツールであるUWARPに基づいたドメインシフト分析フレームワークを提示します。
UWARPは階層的な登録アプローチを採用し、グローバルなアフィン変換ときめ細かい局所補正を組み合わせて、堅牢な組織パッチアライメントを実現します。
複数のデバイスでスキャンされたスライド画像全体を含む2つのプライベートデータセット、CypathlungとBosomshieldBreastを使用してUWARPを評価します。
私たちの実験は、UWARPが既存のオープンソース登録方法を上回り、4ピクセル未満(40倍の倍率で<1マイクロメートル)の中央値ターゲット登録エラー(TRE)を達成しながら、計算時間を大幅に短縮することを示しています。 さらに、UWARPを適用して、乳がん病理学的反応予測の深い学習モデルである乳房ネオプレディクトの予測におけるスキャナー誘発性の局所ドメインシフトを特徴付けます。 予測の変動は、特定のパッチの組織密度と強く相関していることがわかります。 私たちの調査結果は、ローカライズされたドメインシフト分析の重要性を強調し、UWARPが計算病理におけるモデルの堅牢性とドメイン適応戦略を改善するための貴重なツールとして役立つことを示唆しています。

要約(オリジナル)

Histopathology slide digitization introduces scanner-induced domain shift that can significantly impact computational pathology models based on deep learning methods. In the state-of-the-art, this shift is often characterized at a broad scale (slide-level or dataset-level) but not patch-level, which limits our comprehension of the impact of localized tissue characteristics on the accuracy of the deep learning models. To address this challenge, we present a domain shift analysis framework based on UWarp, a novel registration tool designed to accurately align histological slides scanned under varying conditions. UWarp employs a hierarchical registration approach, combining global affine transformations with fine-grained local corrections to achieve robust tissue patch alignment. We evaluate UWarp using two private datasets, CypathLung and BosomShieldBreast, containing whole slide images scanned by multiple devices. Our experiments demonstrate that UWarp outperforms existing open-source registration methods, achieving a median target registration error (TRE) of less than 4 pixels (<1 micrometer at 40x magnification) while significantly reducing computational time. Additionally, we apply UWarp to characterize scanner-induced local domain shift in the predictions of Breast-NEOprAIdict, a deep learning model for breast cancer pathological response prediction. We find that prediction variability is strongly correlated with tissue density on a given patch. Our findings highlight the importance of localized domain shift analysis and suggest that UWarp can serve as a valuable tool for improving model robustness and domain adaptation strategies in computational pathology.

arxiv情報

著者 Antoine Schieb,Bilal Hadjadji,Daniel Tshokola Mweze,Natalia Fernanda Valderrama,Valentin Derangère,Laurent Arnould,Sylvain Ladoire,Alain Lalande,Louis-Oscar Morel,Nathan Vinçon
発行日 2025-03-26 15:48:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | UWarp: A Whole Slide Image Registration Pipeline to Characterize Scanner-Induced Local Domain Shift はコメントを受け付けていません

AccidentSim: Generating Physically Realistic Vehicle Collision Videos from Real-World Accident Reports

要約

自律運転研究のための現実世界の車両事故ビデオを収集することは、その希少性と複雑さのために挑戦的です。
既存のドライビングビデオ生成方法は視覚的に現実的なビデオを生成する可能性がありますが、衝突後の正確な軌跡を生成する機能がないため、物理的に現実的なシミュレーションを提供できないことがよくあります。
この論文では、実際の車両事故レポートで利用可能な物理的手がかりと文脈情報を抽出および利用することにより、物理的に現実的な車両衝突ビデオを生成する新しいフレームワークであるAccidentsimを紹介します。
具体的には、Accidentimは信頼できる物理シミュレーターを活用して、事故報告書の物理的およびコンテキスト情報から衝突後の車両の軌跡を再現し、車両衝突軌道データセットを構築します。
このデータセットは、言語モデルを微調整するために使用され、ユーザープロンプトに応答し、ユーザーの説明に基づいてさまざまな運転シナリオにわたって物理的に一貫した衝突後軌道を予測できるようにします。
最後に、ニューラル放射輝度フィールド(NERF)を使用して高品質の背景をレンダリングし、物理的に現実的な軌跡を示す前景車とマージして車両の衝突ビデオを生成します。
実験結果は、Accidentsimによって作成されたビデオが視覚的および物理的な真正性の両方で優れていることを示しています。

要約(オリジナル)

Collecting real-world vehicle accident videos for autonomous driving research is challenging due to their rarity and complexity. While existing driving video generation methods may produce visually realistic videos, they often fail to deliver physically realistic simulations because they lack the capability to generate accurate post-collision trajectories. In this paper, we introduce AccidentSim, a novel framework that generates physically realistic vehicle collision videos by extracting and utilizing the physical clues and contextual information available in real-world vehicle accident reports. Specifically, AccidentSim leverages a reliable physical simulator to replicate post-collision vehicle trajectories from the physical and contextual information in the accident reports and to build a vehicle collision trajectory dataset. This dataset is then used to fine-tune a language model, enabling it to respond to user prompts and predict physically consistent post-collision trajectories across various driving scenarios based on user descriptions. Finally, we employ Neural Radiance Fields (NeRF) to render high-quality backgrounds, merging them with the foreground vehicles that exhibit physically realistic trajectories to generate vehicle collision videos. Experimental results demonstrate that the videos produced by AccidentSim excel in both visual and physical authenticity.

arxiv情報

著者 Xiangwen Zhang,Qian Zhang,Longfei Han,Qiang Qu,Xiaoming Chen
発行日 2025-03-26 15:50:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | AccidentSim: Generating Physically Realistic Vehicle Collision Videos from Real-World Accident Reports はコメントを受け付けていません

ARMO: Autoregressive Rigging for Multi-Category Objects

要約

大規模な生成モデルの最近の進歩により、3D形状生成の品質と多様性が大幅に改善されました。
ただし、ほとんどの既存の方法は、主に静的3Dモデルの生成に焦点を当てており、ヒューマノイド、動物、昆虫などの特定の形状の潜在的に動的な性質を見落としています。
このギャップに対処するために、3Dモデルの骨格構造とスキニングを確立するアニメーションの基本的なタスクであるリギングに焦点を当てます。
この論文では、詳細なスケルトンとスキニング情報を備えた79,499のメッシュで構成される最初の大規模リギングデータセットであるOmnirigを紹介します。
事前定義された標準ポーズ(Aポーズ、Tポーズなど)に依存する従来のベンチマークとは異なり、データセットは多様な形状のカテゴリ、スタイル、ポーズを取り入れています。
この豊富なデータセットを活用して、Armoを提案します。Armoは、独自の位置と接続関係の両方を統一された方法で予測するために自己回帰モデルを利用する新しいリギングフレームワークであるArmoを提案します。
骨格構造を完全なグラフとして扱い、それをトークンに離散化することにより、自動エンコーダーを使用してジョイントをエンコードして潜在的な埋め込みとトークンを予測する自己回帰モデルを取得します。
メッシュコンディショニングされた潜在的拡散モデルを使用して、条件付きスケルトン生成のための潜在的な埋め込みを予測します。
私たちの方法は、回帰ベースのアプローチの制限に対処します。これは、エラーの蓄積と最適ではない接続性の推定に悩まされることがよくあります。
Omnirigデータセットに関する広範な実験を通じて、当社のアプローチはスケルトン予測で最先端のパフォーマンスを達成し、多様なオブジェクトカテゴリ全体の一般化の改善を実証します。
コードとデータセットは、受け入れられると学術的に使用されるために公開されます。

要約(オリジナル)

Recent advancements in large-scale generative models have significantly improved the quality and diversity of 3D shape generation. However, most existing methods focus primarily on generating static 3D models, overlooking the potentially dynamic nature of certain shapes, such as humanoids, animals, and insects. To address this gap, we focus on rigging, a fundamental task in animation that establishes skeletal structures and skinning for 3D models. In this paper, we introduce OmniRig, the first large-scale rigging dataset, comprising 79,499 meshes with detailed skeleton and skinning information. Unlike traditional benchmarks that rely on predefined standard poses (e.g., A-pose, T-pose), our dataset embraces diverse shape categories, styles, and poses. Leveraging this rich dataset, we propose ARMO, a novel rigging framework that utilizes an autoregressive model to predict both joint positions and connectivity relationships in a unified manner. By treating the skeletal structure as a complete graph and discretizing it into tokens, we encode the joints using an auto-encoder to obtain a latent embedding and an autoregressive model to predict the tokens. A mesh-conditioned latent diffusion model is used to predict the latent embedding for conditional skeleton generation. Our method addresses the limitations of regression-based approaches, which often suffer from error accumulation and suboptimal connectivity estimation. Through extensive experiments on the OmniRig dataset, our approach achieves state-of-the-art performance in skeleton prediction, demonstrating improved generalization across diverse object categories. The code and dataset will be made public for academic use upon acceptance.

arxiv情報

著者 Mingze Sun,Shiwei Mao,Keyi Chen,Yurun Chen,Shunlin Lu,Jingbo Wang,Junting Dong,Ruqi Huang
発行日 2025-03-26 15:56:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ARMO: Autoregressive Rigging for Multi-Category Objects はコメントを受け付けていません

AutoRad-Lung: A Radiomic-Guided Prompting Autoregressive Vision-Language Model for Lung Nodule Malignancy Prediction

要約

肺がんは、世界中の癌関連の死亡率の主要な原因の1つです。
早期診断のための重要な課題は、同様の視覚特性と密接に注釈スコアを持つ不確実な症例を区別することです。
臨床診療では、放射線科医は、コンピューター断層撮影(CT)画像から抽出された定量的な手作りの放射性特徴に依存していますが、最近の研究は主に深い学習ソリューションに焦点を当てています。
より最近では、ビジョン言語モデル(VLM)、特に対照的な言語イメージ前トレーニング(CLIP)ベースのモデルは、テキスト知識を肺がん診断に統合する能力に注目を集めています。
Clip-Lungモデルは有望な結果を示していますが、以下の潜在的な制限を特定しました。(a)本質的に主観的でエラーが発生しやすい放射線科医の注釈付き属性、(b)トレーニング中のみテキスト情報の使用、推論での直接的な適用性を制限し、(c)ランダムに初期化された体重を伴う畳み込みベースのビジョンエンコーダー、
これらの制限に対処するために、Autorad-Lungを導入します。Autorad-Lungは、手作りの放射線から生成されたプロンプトとともに、自動網目上事前に訓練されたVLMを結びつけます。
Autorad-Lungは、マルチモーダルの自己回帰目標を使用して事前に訓練された大規模な自己回帰画像モデル(AIMV2)のビジョンエンコーダーを使用します。
肺腫瘍は通常小さく、不規則に形作られ、健康な組織に視覚的に類似していることを考えると、オートラード肺は、ピクセルレベルの違いを捕捉することにより、クリップベースの対応物よりも大きな利点を提供します。
さらに、条件付きコンテキストの最適化を導入します。コンテキストの最適化は、入力放射性に基づいてコンテキスト固有のプロンプトを動的に生成し、クロスモーダルアライメントを改善します。

要約(オリジナル)

Lung cancer remains one of the leading causes of cancer-related mortality worldwide. A crucial challenge for early diagnosis is differentiating uncertain cases with similar visual characteristics and closely annotation scores. In clinical practice, radiologists rely on quantitative, hand-crafted Radiomic features extracted from Computed Tomography (CT) images, while recent research has primarily focused on deep learning solutions. More recently, Vision-Language Models (VLMs), particularly Contrastive Language-Image Pre-Training (CLIP)-based models, have gained attention for their ability to integrate textual knowledge into lung cancer diagnosis. While CLIP-Lung models have shown promising results, we identified the following potential limitations: (a) dependence on radiologists’ annotated attributes, which are inherently subjective and error-prone, (b) use of textual information only during training, limiting direct applicability at inference, and (c) Convolutional-based vision encoder with randomly initialized weights, which disregards prior knowledge. To address these limitations, we introduce AutoRad-Lung, which couples an autoregressively pre-trained VLM, with prompts generated from hand-crafted Radiomics. AutoRad-Lung uses the vision encoder of the Large-Scale Autoregressive Image Model (AIMv2), pre-trained using a multi-modal autoregressive objective. Given that lung tumors are typically small, irregularly shaped, and visually similar to healthy tissue, AutoRad-Lung offers significant advantages over its CLIP-based counterparts by capturing pixel-level differences. Additionally, we introduce conditional context optimization, which dynamically generates context-specific prompts based on input Radiomics, improving cross-modal alignment.

arxiv情報

著者 Sadaf Khademi,Mehran Shabanpour,Reza Taleei,Anastasia Oikonomou,Arash Mohammadi
発行日 2025-03-26 15:56:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | AutoRad-Lung: A Radiomic-Guided Prompting Autoregressive Vision-Language Model for Lung Nodule Malignancy Prediction はコメントを受け付けていません

The mathematics of adversarial attacks in AI — Why deep learning is unstable despite the existence of stable neural networks

要約

Deep Learning(DL)の前例のない成功により、分類の問題に関してはそれを挑戦しません。
ただし、現在のDL方法論が普遍的に不安定なニューラルネットワーク(NNS)を生成することは十分に確立されています。
不安定な問題は、いわゆる敵対的攻撃に関する膨大な文献で、膨大な研究努力を引き起こしましたが、問題に対する解決策はありませんでした。
私たちの論文では、次の数学的パラドックスを証明するため、問題の解決策がなかった理由に対処します。固定アーキテクチャの分類問題のためのニューラルネットワークのトレーニングに基づくトレーニング手順は、不正確または不安定なニューラルネットワークのいずれか(正確であれば)を生成します – 同じ分類の問題のための正確で安定した新ネットワークの両方の存在にもかかわらず。
重要なのは、安定した正確なニューラルネットワークが入力に応じて可変寸法を持たなければならないことです。特に、可変寸法は安定性に必要な条件です。
私たちの結果は、正確で安定したニューラルネットワークが存在するというパラドックスを指しますが、最新のアルゴリズムはそれらを計算しません。
これに疑問が生じます。望ましい特性を持つニューラルネットワークの存在が証明できる場合、それらを計算するアルゴリズムを見つけることもできますか?
証明可能な存在が計算可能性を意味する数学にはケースがありますが、これはニューラルネットワークの場合になりますか?
反対に、ニューラルネットワークが標準コスト関数を備えた標準的な最適化問題に対して標準的な最適化の問題に近似的なミニマイヤーとしてどのように存在するかを実証するため、それは真実ですが、ランダム化されたアルゴリズムは1/2より良い確率でそれらを計算することはできません。

要約(オリジナル)

The unprecedented success of deep learning (DL) makes it unchallenged when it comes to classification problems. However, it is well established that the current DL methodology produces universally unstable neural networks (NNs). The instability problem has caused an enormous research effort — with a vast literature on so-called adversarial attacks — yet there has been no solution to the problem. Our paper addresses why there has been no solution to the problem, as we prove the following mathematical paradox: any training procedure based on training neural networks for classification problems with a fixed architecture will yield neural networks that are either inaccurate or unstable (if accurate) — despite the provable existence of both accurate and stable neural networks for the same classification problems. The key is that the stable and accurate neural networks must have variable dimensions depending on the input, in particular, variable dimensions is a necessary condition for stability. Our result points towards the paradox that accurate and stable neural networks exist, however, modern algorithms do not compute them. This yields the question: if the existence of neural networks with desirable properties can be proven, can one also find algorithms that compute them? There are cases in mathematics where provable existence implies computability, but will this be the case for neural networks? The contrary is true, as we demonstrate how neural networks can provably exist as approximate minimisers to standard optimisation problems with standard cost functions, however, no randomised algorithm can compute them with probability better than 1/2.

arxiv情報

著者 Alexander Bastounis,Anders C Hansen,Verner Vlačić
発行日 2025-03-26 15:57:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.NA, math.NA, stat.ML | The mathematics of adversarial attacks in AI — Why deep learning is unstable despite the existence of stable neural networks はコメントを受け付けていません

BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation

要約

最近、FluxやIdeogram 2.0などの最先端のテキストから画像から画像から画像への生成モデルは、文レベルの視覚テキストレンダリングに大きな進歩を遂げました。
このペーパーでは、記事レベルの視覚テキストのより挑戦的なシナリオに焦点を当て、ユーザーが提供する記事レベルの記述プロンプトと超密度の高いレイアウトに基づいて、インフォグラフィックやスライドなどの高品質のビジネスコンテンツを生成する新しいタスクを生成します。
基本的な課題は2つあります。コンテキストの長さが大幅に長く、高品質のビジネスコンテンツデータの希少性です。
限られた数のサブリージョンと文レベルのプロンプトに焦点を当てた以前のほとんどの作品とは対照的に、ビジネスコンテンツの数十または数百のサブリージョンを備えた超高密度のレイアウトを正確に遵守することははるかに困難です。
(i)スケーラブルで高品質のビジネスコンテンツデータセットの構築、つまり、レイヤーごとの検索された回収されたインフォグラフィック生成スキームを実装することにより、超密度の高いレイアウトとプロンプトを装備したインフォグラフィックス650Kの構築。
(ii)レイアウト誘導クロス注意スキーム。これは、超密度の高いレイアウトに従って、トリミングされた領域潜在スペースのセットに地域ごとの数十のプロンプトを注入し、レイアウト条件付きCFGを使用して推論中に各サブ地域を柔軟に改良します。
BizevalプロンプトセットのフラックスやSD3などの以前のSOTAシステムと比較して、システムの強力な結果を示します。
さらに、各コンポーネントの有効性を検証するために、徹底的なアブレーション実験を実施します。
私たちの構築されたインフォグラフィックス650Kとビゼバルが、より広範なコミュニティがビジネスコンテンツ生成の進歩を進めることを奨励できることを願っています。

要約(オリジナル)

Recently, state-of-the-art text-to-image generation models, such as Flux and Ideogram 2.0, have made significant progress in sentence-level visual text rendering. In this paper, we focus on the more challenging scenarios of article-level visual text rendering and address a novel task of generating high-quality business content, including infographics and slides, based on user provided article-level descriptive prompts and ultra-dense layouts. The fundamental challenges are twofold: significantly longer context lengths and the scarcity of high-quality business content data. In contrast to most previous works that focus on a limited number of sub-regions and sentence-level prompts, ensuring precise adherence to ultra-dense layouts with tens or even hundreds of sub-regions in business content is far more challenging. We make two key technical contributions: (i) the construction of scalable, high-quality business content dataset, i.e., Infographics-650K, equipped with ultra-dense layouts and prompts by implementing a layer-wise retrieval-augmented infographic generation scheme; and (ii) a layout-guided cross attention scheme, which injects tens of region-wise prompts into a set of cropped region latent space according to the ultra-dense layouts, and refine each sub-regions flexibly during inference using a layout conditional CFG. We demonstrate the strong results of our system compared to previous SOTA systems such as Flux and SD3 on our BizEval prompt set. Additionally, we conduct thorough ablation experiments to verify the effectiveness of each component. We hope our constructed Infographics-650K and BizEval can encourage the broader community to advance the progress of business content generation.

arxiv情報

著者 Yuyang Peng,Shishi Xiao,Keming Wu,Qisheng Liao,Bohan Chen,Kevin Lin,Danqing Huang,Ji Li,Yuhui Yuan
発行日 2025-03-26 16:04:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation はコメントを受け付けていません

Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy

要約

マルチモーダルの大規模な言語モデルの急速な発展により、視覚的な認識と理解において顕著な進歩がもたらされ、いくつかのタスクを単一の視覚的な質問をするフレームワークに統合しました。
ただし、これらのモデルは幻覚を起こしやすく、人工知能システムとしての信頼性を制限しています。
この問題は自然言語処理と画像キャプションで広く研究されていますが、特に画質評価タスクのコンテキストでは、低レベルの視覚的知覚と理解(HLPU)の幻覚の調査が不足しています。
これらの幻覚は、モデル内の明確な自己認識がないことから生じると考えています。
この問題に対処するために、最初にHLPU命令データベースを紹介します。これは、低レベルの視覚タスクの幻覚に特に焦点を当てた最初の命令データベースです。
このデータベースには約200kの質問回答ペアが含まれており、それぞれが異なる種類の命令をカバーしている4つのサブセットで構成されています。
その後、画像機能、顕著な領域機能、品質機能を利用して、低レベルの視覚タスクでモデルの知覚と理解能力を向上させる自己認識の故障排除(SAFEQA)モデルを提案します。
さらに、モデルの知識境界に対する認識を高め、それによって幻覚の発生率を軽減するために、自己認識の好みの最適化(ESA-PO)フレームワークの強化を提案します。
最後に、低レベルの視覚タスクに関する包括的な実験を実施し、結果は、提案された方法がこれらのタスクのモデルの自己認識を大幅に高め、幻覚を減らすことを実証します。
特に、提案された方法は、提案されたモデルの精度と自己認識の両方を改善し、さまざまな評価メトリックの観点から密集モデルを上回ることです。

要約(オリジナル)

The rapid development of multimodal large language models has resulted in remarkable advancements in visual perception and understanding, consolidating several tasks into a single visual question-answering framework. However, these models are prone to hallucinations, which limit their reliability as artificial intelligence systems. While this issue is extensively researched in natural language processing and image captioning, there remains a lack of investigation of hallucinations in Low-level Visual Perception and Understanding (HLPU), especially in the context of image quality assessment tasks. We consider that these hallucinations arise from an absence of clear self-awareness within the models. To address this issue, we first introduce the HLPU instruction database, the first instruction database specifically focused on hallucinations in low-level vision tasks. This database contains approximately 200K question-answer pairs and comprises four subsets, each covering different types of instructions. Subsequently, we propose the Self-Awareness Failure Elimination (SAFEQA) model, which utilizes image features, salient region features and quality features to improve the perception and comprehension abilities of the model in low-level vision tasks. Furthermore, we propose the Enhancing Self-Awareness Preference Optimization (ESA-PO) framework to increase the model’s awareness of knowledge boundaries, thereby mitigating the incidence of hallucination. Finally, we conduct comprehensive experiments on low-level vision tasks, with the results demonstrating that our proposed method significantly enhances self-awareness of the model in these tasks and reduces hallucinations. Notably, our proposed method improves both accuracy and self-awareness of the proposed model and outperforms close-source models in terms of various evaluation metrics.

arxiv情報

著者 Yinan Sun,Xiongkuo Min,Zicheng Zhang,Yixuan Gao,Yuqin Cao,Guangtao Zhai
発行日 2025-03-26 16:05:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy はコメントを受け付けていません