FGAIF: Aligning Large Vision-Language Models with Fine-grained AI Feedback

要約

大規模なビジョン言語モデル(LVLMS)は、さまざまな視覚言語タスクへの取り組みに習熟度を示しています。
ただし、現在のLVLMは、テキストと画像のモダリティとの間の不整合に苦しんでおり、3種類の幻覚の問題、つまりオブジェクトの存在、オブジェクト属性、およびオブジェクト関係を引き起こします。
この問題に取り組むために、既存の方法は主に補強学習(RL)を利用してLVLMSのモダリティを調整します。
ただし、それらはまだ3つの主要な制限に苦しんでいます。(1)一般的なフィードバックは、応答に含まれる幻覚タイプを示すことはできません。
(2)スパース報酬は、応答全体に対してシーケンスレベルの報酬のみを与えます。
(3)注釈コストは時間がかかり、労働集約的です。
これらの制限を処理するために、主に3つのステップで構成される細かい人工知能フィードバック(FGAIF)を介してLVLMSのモダリティを整列させる革新的な方法を提案します。AIベースのフィードバックコレクション、微細粒度の報酬モデルトレーニング、および微調整された報酬による強化学習。
具体的には、最初にAIツールを利用して、応答の各セグメントの幻覚の種類を予測し、きめ細かいフィードバックのコレクションを取得します。
次に、収集された報酬データに基づいて、3つの専門的な報酬モデルが密集した報酬を生み出すように訓練されています。
最後に、新しい細粒フィードバックモジュールが近位ポリシー最適化(PPO)アルゴリズムに統合されます。
幻覚と一般的なベンチマークで広範な実験が行われ、提案された方法の優れた性能を示しています。
特に、RLベースのAligningメソッドでトレーニングされた以前のモデルと比較して、提案された方法は、パラメーターが少ない場合でも効果的です。

要約(オリジナル)

Large Vision-Language Models (LVLMs) have demonstrated proficiency in tackling a variety of visual-language tasks. However, current LVLMs suffer from misalignment between text and image modalities which causes three kinds of hallucination problems, i.e., object existence, object attribute, and object relationship. To tackle this issue, existing methods mainly utilize Reinforcement Learning (RL) to align modalities in LVLMs. However, they still suffer from three main limitations: (1) General feedback can not indicate the hallucination type contained in the response; (2) Sparse rewards only give the sequence-level reward for the whole response; and (3)Annotation cost is time-consuming and labor-intensive. To handle these limitations, we propose an innovative method to align modalities in LVLMs through Fine-Grained Artificial Intelligence Feedback (FGAIF), which mainly consists of three steps: AI-based Feedback Collection, Fine-grained Reward Model Training, and Reinforcement Learning with Fine-grained Reward. Specifically, We first utilize AI tools to predict the types of hallucination for each segment in the response and obtain a collection of fine-grained feedback. Then, based on the collected reward data, three specialized reward models are trained to produce dense rewards. Finally, a novel fine-grained feedback module is integrated into the Proximal Policy Optimization (PPO) algorithm. Extensive experiments are conducted on hallucination and general benchmarks, demonstrating the superior performance of our proposed method. Notably, compared with previous models trained with the RL-based aligning method, our proposed method is effective even with fewer parameters.

arxiv情報

著者 Liqiang Jing,Xinya Du
発行日 2025-05-06 15:33:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | FGAIF: Aligning Large Vision-Language Models with Fine-grained AI Feedback はコメントを受け付けていません

Towards Smart Point-and-Shoot Photography

要約

数億人がスマートフォンをPoint and Shoot(PAS)カメラとして使用して日常的に写真を撮っていますが、シーンの良いショットを構成するための写真スキルを持っている人はほとんどいません。
従来のPASカメラには、写真が十分に焦点を合わせ、適切な明るさを確保するための組み込み機能が組み込まれていますが、シーンのベストショットを作成する方法をユーザーに伝えることはできません。
このペーパーでは、ユーザーが良い写真を撮るのを助けるために、この種のスマートポイントと撮影(スパ)システムの最初のものを紹介します。
私たちのスパは、ユーザーがシーンでカメラのポーズをライブで調整するように自動的にガイドすることにより、ユーザーがシーンの良いショットを構成するのを支援することを提案しています。
最初に、4000シーンからのカメラポーズ情報を含む320K画像を含む大きなデータセットを構築しました。
次に、これらの画像に擬似ラベルを割り当てるために、革新的なクリップベースの構成品質評価(CCQA)モデルを開発しました。
CCQAは、5つのレベルの品質説明単語でカバーされている範囲の微妙な視覚品質の違いを識別できる継続的な単語埋め込みを学習するためのユニークな学習可能なテキスト埋め込み手法を導入します{悪い、貧弱、公正、良い、完璧}。
最後に、カメラポーズ調整モデル(CPAM)を開発しました。これは、現在のビューをさらに改善できるかどうかを最初に決定し、2つのカメラポーズ調整角の形で調整提案を出力します。
CPAMの2つのタスクは、順次決定を行い、それぞれが異なるトレーニングサンプルを伴うことを伴います。エンドツーエンドの方法でCPAMを訓練するためのゲート損失関数を備えた混合物モデルを開発しました。
広範な結果を提示して、公開されている画像構成データセットを使用して、SPASシステムのパフォーマンスを実証します。

要約(オリジナル)

Hundreds of millions of people routinely take photos using their smartphones as point and shoot (PAS) cameras, yet very few would have the photography skills to compose a good shot of a scene. While traditional PAS cameras have built-in functions to ensure a photo is well focused and has the right brightness, they cannot tell the users how to compose the best shot of a scene. In this paper, we present a first of its kind smart point and shoot (SPAS) system to help users to take good photos. Our SPAS proposes to help users to compose a good shot of a scene by automatically guiding the users to adjust the camera pose live on the scene. We first constructed a large dataset containing 320K images with camera pose information from 4000 scenes. We then developed an innovative CLIP-based Composition Quality Assessment (CCQA) model to assign pseudo labels to these images. The CCQA introduces a unique learnable text embedding technique to learn continuous word embeddings capable of discerning subtle visual quality differences in the range covered by five levels of quality description words {bad, poor, fair, good, perfect}. And finally we have developed a camera pose adjustment model (CPAM) which first determines if the current view can be further improved and if so it outputs the adjust suggestion in the form of two camera pose adjustment angles. The two tasks of CPAM make decisions in a sequential manner and each involves different sets of training samples, we have developed a mixture-of-experts model with a gated loss function to train the CPAM in an end-to-end manner. We will present extensive results to demonstrate the performances of our SPAS system using publicly available image composition datasets.

arxiv情報

著者 Jiawan Li,Fei Zhou,Zhipeng Zhong,Jiongzhi Lin,Guoping Qiu
発行日 2025-05-06 15:40:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Towards Smart Point-and-Shoot Photography はコメントを受け付けていません

ALMA: Aggregated Lipschitz Maximization Attack on Auto-encoders

要約

重要なアプリケーションでのディープオートエンコーダー(AE)の広範な使用にもかかわらず、それらの敵対的堅牢性は分類モデルと比較して比較的目立たないままです。
AEの堅牢性は、そのコンポーネントのリプシッツの境界によって特徴付けられます。
ホワイトボックス攻撃に基づく既存の堅牢性評価フレームワークは、AESの中間の不条件層の脆弱性を完全に活用していません。
認知されていない規範に縛られた添加剤の摂動を最適化して出力損傷を最大化するというコンテキストでは、既存の方法はネットワーク全体の敵対的な損失勾配を効果的に伝播するために苦労し、しばしば効果的でない摂動に収束します。
これに対処するために、攻撃の最適化中に損失勾配情報伝播を強化することにより、局所リプシッツの境界の領域に効果的に誘導する新しいレイヤーコンディショニングベースの敵対的最適化目標を提案します。
私たちは、最先端のAEに関する広範な実験を通じて、私たちの敵対的な目的がより強力な攻撃をもたらし、普遍的なシナリオとサンプル固有のシナリオの両方で既存の方法を上回ることを実証します。
この攻撃に対する防御方法として、敵対的な例の影響を軽減する推論時間攻撃時代に訓練された防衛プラグインを導入します。

要約(オリジナル)

Despite the extensive use of deep autoencoders (AEs) in critical applications, their adversarial robustness remains relatively underexplored compared to classification models. AE robustness is characterized by the Lipschitz bounds of its components. Existing robustness evaluation frameworks based on white-box attacks do not fully exploit the vulnerabilities of intermediate ill-conditioned layers in AEs. In the context of optimizing imperceptible norm-bounded additive perturbations to maximize output damage, existing methods struggle to effectively propagate adversarial loss gradients throughout the network, often converging to less effective perturbations. To address this, we propose a novel layer-conditioning-based adversarial optimization objective that effectively guides the adversarial map toward regions of local Lipschitz bounds by enhancing loss gradient information propagation during attack optimization. We demonstrate through extensive experiments on state-of-the-art AEs that our adversarial objective results in stronger attacks, outperforming existing methods in both universal and sample-specific scenarios. As a defense method against this attack, we introduce an inference-time adversarially trained defense plugin that mitigates the effects of adversarial examples.

arxiv情報

著者 Chethan Krishnamurthy Ramanaik,Arjun Roy,Eirini Ntoutsi
発行日 2025-05-06 15:52:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | ALMA: Aggregated Lipschitz Maximization Attack on Auto-encoders はコメントを受け付けていません

Step1X-Edit: A Practical Framework for General Image Editing

要約

近年、画像編集モデルは驚くべき急速な発展を目撃しています。
GPT-4OやGemini2 Flashなどの最先端のマルチモーダルモデルの最近の発表により、非常に有望な画像編集機能が導入されました。
これらのモデルは、ユーザー駆動型の編集要件の大部分を満たすことに対する印象的な適性を示しており、画像操作の分野での大幅な進歩を示しています。
ただし、これらのクローズドソースモデルを使用して、オープンソースアルゴリズムの間にはまだ大きなギャップがあります。
したがって、この論文では、GPT-4OやGemini2 Flashなどのクローズドソースモデルと同等のパフォーマンスを提供できるStep1x-Editと呼ばれる最先端の画像編集モデルをリリースすることを目指しています。
より具体的には、マルチモーダルLLMを採用して、参照画像とユーザーの編集命令を処理します。
潜在的な埋め込みが抽出され、拡散画像デコーダーと統合されて、ターゲット画像が取得されます。
モデルをトレーニングするために、データ生成パイプラインを構築して高品質のデータセットを作成します。
評価のために、実際のユーザーの指示に根ざした新しいベンチマークであるGEDITベンチを開発します。
GEDITベンチの実験結果は、STEP1X-EDITが既存のオープンソースベースラインを大幅にマージンで上回り、主要な独自モデルのパフォーマンスに近づいていることを示しており、それにより画像編集の分野に多大な貢献をしています。

要約(オリジナル)

In recent years, image editing models have witnessed remarkable and rapid development. The recent unveiling of cutting-edge multimodal models such as GPT-4o and Gemini2 Flash has introduced highly promising image editing capabilities. These models demonstrate an impressive aptitude for fulfilling a vast majority of user-driven editing requirements, marking a significant advancement in the field of image manipulation. However, there is still a large gap between the open-source algorithm with these closed-source models. Thus, in this paper, we aim to release a state-of-the-art image editing model, called Step1X-Edit, which can provide comparable performance against the closed-source models like GPT-4o and Gemini2 Flash. More specifically, we adopt the Multimodal LLM to process the reference image and the user’s editing instruction. A latent embedding has been extracted and integrated with a diffusion image decoder to obtain the target image. To train the model, we build a data generation pipeline to produce a high-quality dataset. For evaluation, we develop the GEdit-Bench, a novel benchmark rooted in real-world user instructions. Experimental results on GEdit-Bench demonstrate that Step1X-Edit outperforms existing open-source baselines by a substantial margin and approaches the performance of leading proprietary models, thereby making significant contributions to the field of image editing.

arxiv情報

著者 Shiyu Liu,Yucheng Han,Peng Xing,Fukun Yin,Rui Wang,Wei Cheng,Jiaqi Liao,Yingming Wang,Honghao Fu,Chunrui Han,Guopeng Li,Yuang Peng,Quan Sun,Jingwei Wu,Yan Cai,Zheng Ge,Ranchen Ming,Lei Xia,Xianfang Zeng,Yibo Zhu,Binxing Jiao,Xiangyu Zhang,Gang Yu,Daxin Jiang
発行日 2025-05-06 15:58:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Step1X-Edit: A Practical Framework for General Image Editing はコメントを受け付けていません

ReGraP-LLaVA: Reasoning enabled Graph-based Personalized Large Language and Vision Assistant

要約

パーソナライズされたMLLMの最近の進歩により、ユーザー固有の概念を効果的にキャプチャすることができ、パーソナライズされた概念の認識とコンテキストキャプションの両方をサポートします。
ただし、人間は通常、オブジェクトと個人間の関係について探求し、推論し、よりパーソナライズされた文脈的理解を達成するために表面レベルの情報を超越します。
このため、既存の方法は3つの主な制限に直面する可能性があります。トレーニングデータには、オブジェクト間の関係が学習できるマルチオブジェクトセットがありません。
限られたトレーニングデータに基づいて、彼らのモデルは異なるパーソナライズされた概念間の関係を見落としており、それらを推論することができません。
彼らの実験は、主に、評価が認識とキャプションのタスクに限定されている単一のパーソナライズされた概念に焦点を当てています。
制限に対処するために、120セットのパーソナライズされた知識で構成されるRegrapという名前の新しいデータセットを提示します。
各セットには、KGSから派生した画像、KGS、およびCOT QAペアが含まれており、より構造化された洗練された推論経路を可能にします。
対応するKGSおよびCOT QAペアで訓練されたMLLMであるRegrap-Llavaを提案します。ここでは、ソフトとハードグラフプロンプトのメソッドがモデルのセマンティックスペース内にKGSを揃えるように設計されています。
多様なタスクタイプを含むRegrapベンチマークを確立します。複数選択、ブランクの充填、真/偽、およびオープンエンドの両方の設定の両方で説明的な質問です。
提案されたベンチマークは、パーソナライズされたMLLMのリレーショナル推論と知識接続機能を評価するように設計されています。
提案されたRegrap-llavaおよびその他の競争力のあるMLLMについて実験を実施します。
結果は、提案されたモデルがパーソナライズされた知識を学習するだけでなく、応答のリレーショナル推論も実行し、競争力と比較してSOTAパフォーマンスを達成することを示しています。
すべてのコードとデータセットは、https://github.com/xyfyyds/regrapでリリースされます。

要約(オリジナル)

Recent advances in personalized MLLMs enable effective capture of user-specific concepts, supporting both recognition of personalized concepts and contextual captioning. However, humans typically explore and reason over relations among objects and individuals, transcending surface-level information to achieve more personalized and contextual understanding. To this end, existing methods may face three main limitations: Their training data lacks multi-object sets in which relations among objects are learnable. Building on the limited training data, their models overlook the relations between different personalized concepts and fail to reason over them. Their experiments mainly focus on a single personalized concept, where evaluations are limited to recognition and captioning tasks. To address the limitations, we present a new dataset named ReGraP, consisting of 120 sets of personalized knowledge. Each set includes images, KGs, and CoT QA pairs derived from the KGs, enabling more structured and sophisticated reasoning pathways. We propose ReGraP-LLaVA, an MLLM trained with the corresponding KGs and CoT QA pairs, where soft and hard graph prompting methods are designed to align KGs within the model’s semantic space. We establish the ReGraP Benchmark, which contains diverse task types: multiple-choice, fill-in-the-blank, True/False, and descriptive questions in both open- and closed-ended settings. The proposed benchmark is designed to evaluate the relational reasoning and knowledge-connection capability of personalized MLLMs. We conduct experiments on the proposed ReGraP-LLaVA and other competitive MLLMs. Results show that the proposed model not only learns personalized knowledge but also performs relational reasoning in responses, achieving the SoTA performance compared with the competitive methods. All the codes and datasets are released at: https://github.com/xyfyyds/ReGraP.

arxiv情報

著者 Yifan Xiang,Zhenxi Zhang,Bin Li,Yixuan Weng,Shoujun Zhou,Yangfan He,Keqin Li
発行日 2025-05-06 16:00:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | ReGraP-LLaVA: Reasoning enabled Graph-based Personalized Large Language and Vision Assistant はコメントを受け付けていません

Revolutionizing Brain Tumor Imaging: Generating Synthetic 3D FA Maps from T1-Weighted MRI using CycleGAN Models

要約

分数異方性(FA)と方向性エンコード色(DEC)マップは、ニューロイメージングにおける白質の完全性と構造的接続性を評価するために不可欠です。
ただし、FAマップとトラクトグラフィーの間の空間的不整合は、予測モデルへの効果的な統合を妨げます。
この問題に対処するために、T1強調MRIスキャンからFAマップを直接生成するためのCycleGanベースのアプローチを提案し、この技術の最初の適用を健康な組織と腫瘍に影響を受けた組織の両方に表します。
対応のないデータで訓練されたモデルは、高忠実度マップを生成します。これは、構造類似性インデックス(SSIM)およびピーク信号対雑音比(PSNR)を使用して厳密に評価されており、腫瘍領域で特に堅牢なパフォーマンスを示しています。
放射線評価は、追加のスキャンの必要性を減らすAI駆動型の代替品を提供することにより、臨床ワークフローを強化するモデルの可能性をさらに強調します。

要約(オリジナル)

Fractional anisotropy (FA) and directionally encoded colour (DEC) maps are essential for evaluating white matter integrity and structural connectivity in neuroimaging. However, the spatial misalignment between FA maps and tractography atlases hinders their effective integration into predictive models. To address this issue, we propose a CycleGAN based approach for generating FA maps directly from T1-weighted MRI scans, representing the first application of this technique to both healthy and tumour-affected tissues. Our model, trained on unpaired data, produces high fidelity maps, which have been rigorously evaluated using Structural Similarity Index (SSIM) and Peak Signal-to-Noise Ratio (PSNR), demonstrating particularly robust performance in tumour regions. Radiological assessments further underscore the model’s potential to enhance clinical workflows by providing an AI-driven alternative that reduces the necessity for additional scans.

arxiv情報

著者 Xin Du,Francesca M. Cozzi,Rajesh Jena
発行日 2025-05-06 16:05:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68U10, cs.AI, cs.CV | Revolutionizing Brain Tumor Imaging: Generating Synthetic 3D FA Maps from T1-Weighted MRI using CycleGAN Models はコメントを受け付けていません

Distribution-Conditional Generation: From Class Distribution to Creative Generation

要約

テキストからイメージ(T2I)拡散モデルは、意味的に整列した画像の作成に効果的ですが、トレーニングデータ分布に依存することにより、真に斬新で分散型の概念を合成する能力が制限されます。
既存の方法は、通常、既知の概念のペアを組み合わせることにより創造性を高め、分配不足であるが、既存のセマンティックスペース内で言語的に記述され、境界を掲載した構成を生成します。
あいまいな入力上の分類器のソフト確率的出力に触発された私たちは、分布条件の生成を提案します。これは、クラス分布に条件付けられた画像合成として創造性をモデル化し、意味的に制約のない創造的生成を可能にする新しい定式化を提案します。
これに基づいて、クラス分布を潜在的な空間にマッピングし、それらをクリエイティブなコンセプトのトークンにデコードするエンコーダーデコーダーフレームワークであるDistokを提案します。
Distokは、動的なコンセプトプールと繰り返しのサンプリングと融合の概念ペアを維持し、ますます複雑なクラス分布に合わせたトークンの生成を可能にします。
分布の一貫性を実施するために、ガウスの事前からサンプリングされた潜在的なベクトルはトークンにデコードされ、画像にレンダリングされます。そのクラス分布は、ビジョン言語モデルによって予測されており、入力分布と生成されたトークンの視覚セマンティクスとのアラインメントを説明します。
結果のトークンがコンセプトプールに追加され、後続の構成が追加されます。
広範な実験は、Distokが分布条件付きの融合とサンプリングベースの合成を統合することにより、効率的で柔軟なトークンレベルの生成を可能にし、優れたテキストイメージアライメントと人間の好みスコアを備えた最先端のパフォーマンスを達成できることを示しています。

要約(オリジナル)

Text-to-image (T2I) diffusion models are effective at producing semantically aligned images, but their reliance on training data distributions limits their ability to synthesize truly novel, out-of-distribution concepts. Existing methods typically enhance creativity by combining pairs of known concepts, yielding compositions that, while out-of-distribution, remain linguistically describable and bounded within the existing semantic space. Inspired by the soft probabilistic outputs of classifiers on ambiguous inputs, we propose Distribution-Conditional Generation, a novel formulation that models creativity as image synthesis conditioned on class distributions, enabling semantically unconstrained creative generation. Building on this, we propose DisTok, an encoder-decoder framework that maps class distributions into a latent space and decodes them into tokens of creative concept. DisTok maintains a dynamic concept pool and iteratively sampling and fusing concept pairs, enabling the generation of tokens aligned with increasingly complex class distributions. To enforce distributional consistency, latent vectors sampled from a Gaussian prior are decoded into tokens and rendered into images, whose class distributions-predicted by a vision-language model-supervise the alignment between input distributions and the visual semantics of generated tokens. The resulting tokens are added to the concept pool for subsequent composition. Extensive experiments demonstrate that DisTok, by unifying distribution-conditioned fusion and sampling-based synthesis, enables efficient and flexible token-level generation, achieving state-of-the-art performance with superior text-image alignment and human preference scores.

arxiv情報

著者 Fu Feng,Yucheng Xie,Xu Yang,Jing Wang,Xin Geng
発行日 2025-05-06 16:07:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Distribution-Conditional Generation: From Class Distribution to Creative Generation はコメントを受け付けていません

CaRaFFusion: Improving 2D Semantic Segmentation with Camera-Radar Point Cloud Fusion and Zero-Shot Image Inpainting

要約

環境でオブジェクトをセグメント化することは、各エージェントの周囲をよりよく理解できるようにするため、自律運転とロボット工学のための重要なタスクです。
カメラセンサーは豊富な視覚的詳細を提供しますが、有害な気象条件に対して脆弱です。
対照的に、レーダーセンサーはそのような条件下では堅牢なままですが、多くの場合、まばらでノイズの多いデータを生成します。
したがって、有望なアプローチは、両方のセンサーから情報を融合することです。
この作業では、拡散モデルをカメラレーダーフュージョンアーキテクチャに統合することにより、カメラのみのベースラインを強化する新しいフレームワークを提案します。
レーダーポイント機能を活用して、セグメントアポンシングモデルを使用して擬似マスクを作成し、投影されたレーダーポイントをポイントプロンプトとして扱います。
さらに、これらの擬似マスクを除去するためにノイズリダースユニットを提案します。これらの擬似マスクは、元の画像の不足している情報を完成させる塗装された画像を生成するためにさらに使用されます。
私たちの方法により、MIOUでカメラのみのセグメンテーションベースラインが2.63%改善され、WaterscenesデータセットでMIOUでカメラレーダル融合アーキテクチャが1.48%向上します。
これは、有害な気象条件下でのカメラレーダー融合を使用したセマンティックセグメンテーションのアプローチの有効性を示しています。

要約(オリジナル)

Segmenting objects in an environment is a crucial task for autonomous driving and robotics, as it enables a better understanding of the surroundings of each agent. Although camera sensors provide rich visual details, they are vulnerable to adverse weather conditions. In contrast, radar sensors remain robust under such conditions, but often produce sparse and noisy data. Therefore, a promising approach is to fuse information from both sensors. In this work, we propose a novel framework to enhance camera-only baselines by integrating a diffusion model into a camera-radar fusion architecture. We leverage radar point features to create pseudo-masks using the Segment-Anything model, treating the projected radar points as point prompts. Additionally, we propose a noise reduction unit to denoise these pseudo-masks, which are further used to generate inpainted images that complete the missing information in the original images. Our method improves the camera-only segmentation baseline by 2.63% in mIoU and enhances our camera-radar fusion architecture by 1.48% in mIoU on the Waterscenes dataset. This demonstrates the effectiveness of our approach for semantic segmentation using camera-radar fusion under adverse weather conditions.

arxiv情報

著者 Huawei Sun,Bora Kunter Sahin,Georg Stettinger,Maximilian Bernhard,Matthias Schubert,Robert Wille
発行日 2025-05-06 16:25:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CaRaFFusion: Improving 2D Semantic Segmentation with Camera-Radar Point Cloud Fusion and Zero-Shot Image Inpainting はコメントを受け付けていません

Editable-DeepSC: Reliable Cross-Modal Semantic Communications for Facial Editing

要約

リアルタイムコンピュータービジョン(CV)は、さまざまな現実世界のアプリケーションで重要な役割を果たします。そのパフォーマンスは、通信ネットワークに大きく依存しています。
それにもかかわらず、従来の通信のデータ指向の特性は、多くの場合、リアルタイムCVタスクの特別なニーズと一致しません。
この問題を軽減するために、最近登場したセマンティックコミュニケーションズは、タスク関連のセマンティック情報のみを送信し、この問題に対処するために有望な風景を示します。
ただし、ソーシャルメディアで最も重要なリアルタイムCVアプリケーションの1つであるセマンティックフェイシャル編集に関連するコミュニケーションの課題は、依然としてほとんど未開拓のままです。
この論文では、フェイシャル編集のための新しいクロスモーダルセマンティックコミュニケーションアプローチであるEditable-DeepSCを提案することにより、このギャップを埋めます。
第一に、通信と編集を個別に処理するさまざまな伝送スキームを理論的に議論し、編集を通信チェーンに統合してよりセマンティックな相互情報を保存するために編集を統合する繰り返し属性を介して、共同編集チャネルコーディング(JECC)の必要性を強調します。
高次元データをコンパクトに表現するために、セマンティックコーディングのために事前に訓練されたスタイルガンプライアーを介して反転方法を活用します。
動的なチャネルノイズ条件に取り組むために、モデルの微調整を介してSNRが認識したチャネルコーディングを提案します。
広範な実験では、編集可能なDeepSCが優れた編集を実現しながら、高解像度および分散式(OOD)設定の下でも、トランスミッション帯域幅を大幅に保存できることが示されています。

要約(オリジナル)

Real-time computer vision (CV) plays a crucial role in various real-world applications, whose performance is highly dependent on communication networks. Nonetheless, the data-oriented characteristics of conventional communications often do not align with the special needs of real-time CV tasks. To alleviate this issue, the recently emerged semantic communications only transmit task-related semantic information and exhibit a promising landscape to address this problem. However, the communication challenges associated with Semantic Facial Editing, one of the most important real-time CV applications on social media, still remain largely unexplored. In this paper, we fill this gap by proposing Editable-DeepSC, a novel cross-modal semantic communication approach for facial editing. Firstly, we theoretically discuss different transmission schemes that separately handle communications and editings, and emphasize the necessity of Joint Editing-Channel Coding (JECC) via iterative attributes matching, which integrates editings into the communication chain to preserve more semantic mutual information. To compactly represent the high-dimensional data, we leverage inversion methods via pre-trained StyleGAN priors for semantic coding. To tackle the dynamic channel noise conditions, we propose SNR-aware channel coding via model fine-tuning. Extensive experiments indicate that Editable-DeepSC can achieve superior editings while significantly saving the transmission bandwidth, even under high-resolution and out-of-distribution (OOD) settings.

arxiv情報

著者 Bin Chen,Wenbo Yu,Qinshan Zhang,Tianqu Zhuang,Yong Jiang,Shu-Tao Xia
発行日 2025-05-06 16:30:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IT, cs.NI, math.IT | Editable-DeepSC: Reliable Cross-Modal Semantic Communications for Facial Editing はコメントを受け付けていません

Paragraph-to-Image Generation with Information-Enriched Diffusion Model

要約

テキストツーイメージ(T2I)モデルは最近、急速な発展を経験しており、忠実度とテキストアライメント機能の点で驚くべきパフォーマンスを達成しています。
ただし、長い段落(最大512語)を考えると、これらの生成モデルは依然として強力なアライメントを達成するのに苦労しており、複雑なシーンを描いた画像を生成することができません。
この論文では、画像生成のタスクに対する大規模な言語モデルの広範な意味理解能力の転移を掘り下げて、パラグリフからイメージまでの生成タスクの情報が豊富な拡散モデルを紹介します。
コアでは、大規模な言語モデル(Llama V2など)を使用して長型のテキストをエンコードし、その後、LORAで微調整して、生成タスクのテキストイメージの特徴スペースを調整します。
ロングテキストのセマンティックアライメントのトレーニングを容易にするために、高品質の段落イメージペアデータセット、つまりPariaMageもキュレーションしました。
このデータセットには、少量の高品質で細心の注意を払って注釈付きのデータと、ビジョン言語モデルを使用して長いテキストの説明が生成されている大規模な合成データセットが含まれています。
実験では、パラディフフュージョンがVILG-300およびPARORMPTSで最先端のモデル(SD XL、Deepfloyd IF)を上回り、視覚的魅力とテキストの忠実さのためにそれぞれ最大15%および45%の人間の投票率の改善を達成することが示されています。
コードとデータセットはリリースされ、ロングテキストアラインメントに関するコミュニティの研究を促進します。

要約(オリジナル)

Text-to-image (T2I) models have recently experienced rapid development, achieving astonishing performance in terms of fidelity and textual alignment capabilities. However, given a long paragraph (up to 512 words), these generation models still struggle to achieve strong alignment and are unable to generate images depicting complex scenes. In this paper, we introduce an information-enriched diffusion model for paragraph-to-image generation task, termed ParaDiffusion, which delves into the transference of the extensive semantic comprehension capabilities of large language models to the task of image generation. At its core is using a large language model (e.g., Llama V2) to encode long-form text, followed by fine-tuning with LORA to alignthe text-image feature spaces in the generation task. To facilitate the training of long-text semantic alignment, we also curated a high-quality paragraph-image pair dataset, namely ParaImage. This dataset contains a small amount of high-quality, meticulously annotated data, and a large-scale synthetic dataset with long text descriptions being generated using a vision-language model. Experiments demonstrate that ParaDiffusion outperforms state-of-the-art models (SD XL, DeepFloyd IF) on ViLG-300 and ParaPrompts, achieving up to 15% and 45% human voting rate improvements for visual appeal and text faithfulness, respectively. The code and dataset will be released to foster community research on long-text alignment.

arxiv情報

著者 Weijia Wu,Zhuang Li,Yefei He,Mike Zheng Shou,Chunhua Shen,Lele Cheng,Yan Li,Tingting Gao,Di Zhang
発行日 2025-05-06 16:45:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Paragraph-to-Image Generation with Information-Enriched Diffusion Model はコメントを受け付けていません