Cross-Modal Safety Mechanism Transfer in Large Vision-Language Models

要約

大規模視覚言語モデル (LVLM) における視覚言語の調整により、LLM が視覚入力を理解できるようになります。
しかし、既存の視覚と言語の調整方法では、LLM 内のテキストに対する既存の安全メカニズムを視覚に移すことができず、それが有害な画像の脆弱性につながることがわかりました。
この問題の原因を探るため、LVLM の安全機構がどこでどのように機能するかを洞察に富んだ説明し、テキストと視覚の比較分析を行います。
現在の手法では、隠れ状態レベルでの視覚と言語の整合性が不十分である一方で、特定のトランス層の隠れ状態が安全機構の正常な起動に重要な役割を果たしていることがわかりました。
これにより、非表示状態のテキストと比較して入力画像の意味が変化し、安全メカニズムを誤解させます。
これに対処するために、LVLM 向けの新しいテキストガイド付きビジョン言語アライメント手法 (TGA) を提案します。
TGA は、入力ビジョンに関連するテキストを取得し、それらを使用して、LLM の隠れ状態空間へのビジョンの投影をガイドします。
実験では、TGA が、視覚モダリティに関する安全性の微調整を行わずに、基本的な LLM のテキストの安全メカニズムを LVLM の視覚言語アライメントの視覚にうまく移すだけでなく、さまざまな視覚タスク (安全および良好) での一般的なパフォーマンスも維持できることが示されています。

要約(オリジナル)

Vision-language alignment in Large Vision-Language Models (LVLMs) successfully enables LLMs to understand visual input. However, we find that existing vision-language alignment methods fail to transfer the existing safety mechanism for text in LLMs to vision, which leads to vulnerabilities in toxic image. To explore the cause of this problem, we give the insightful explanation of where and how the safety mechanism of LVLMs operates and conduct comparative analysis between text and vision. We find that the hidden states at the specific transformer layers play a crucial role in the successful activation of safety mechanism, while the vision-language alignment at hidden states level in current methods is insufficient. This results in a semantic shift for input images compared to text in hidden states, therefore misleads the safety mechanism. To address this, we propose a novel Text-Guided vision-language Alignment method (TGA) for LVLMs. TGA retrieves the texts related to input vision and uses them to guide the projection of vision into the hidden states space in LLMs. Experiments show that TGA not only successfully transfers the safety mechanism for text in basic LLMs to vision in vision-language alignment for LVLMs without any safety fine-tuning on the visual modality but also maintains the general performance on various vision tasks (Safe and Good).

arxiv情報

著者 Shicheng Xu,Liang Pang,Yunchang Zhu,Huawei Shen,Xueqi Cheng
発行日 2024-10-16 15:20:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Cross-Modal Safety Mechanism Transfer in Large Vision-Language Models はコメントを受け付けていません

3DIS: Depth-Driven Decoupled Instance Synthesis for Text-to-Image Generation

要約

テキストからイメージへの生成における制御可能な出力に対する需要の高まりにより、マルチインスタンス生成 (MIG) の進歩が促進され、ユーザーがインスタンスのレイアウトと属性の両方を定義できるようになりました。
ただし、ControlNet などの画像条件付き生成手法とは異なり、MIG 手法は SD2 や SDXL などの最先端のモデルには広く採用されていません。これは主に、インスタンスの位置決めと属性のレンダリングを同時に処理する堅牢なレンダラーを構築するという課題が原因です。

このペーパーでは、MIG プロセスを 2 つの段階に分離する新しいフレームワークである深度駆動型分離インスタンス合成 (3DIS) を紹介します。(i) 正確なインスタンスの位置決めとシーン構成のための粗いシーン深度マップの生成、および (ii) レンダリング
追加のトレーニングを行わずに、任意の基本モデルで事前トレーニングされた ControlNet を使用して、きめの細かい属性を実現します。
当社の 3DIS フレームワークは、カスタム アダプターを LDM3D に統合して正確な深度ベースのレイアウトを実現し、微調整不要の方法を採用して強化されたインスタンス レベルの属性レンダリングを実現します。
COCO-Position および COCO-MIG ベンチマークに関する広範な実験により、3DIS がレイアウト精度と属性レンダリングの両方において既存の方法よりも大幅に優れていることが実証されました。
特に、3DIS はさまざまな基本モデルとのシームレスな互換性を提供し、高度なマルチインスタンス生成のための堅牢で適応性のあるソリューションを提供します。
コードは https://github.com/limuloo/3DIS から入手できます。

要約(オリジナル)

The increasing demand for controllable outputs in text-to-image generation has spurred advancements in multi-instance generation (MIG), allowing users to define both instance layouts and attributes. However, unlike image-conditional generation methods such as ControlNet, MIG techniques have not been widely adopted in state-of-the-art models like SD2 and SDXL, primarily due to the challenge of building robust renderers that simultaneously handle instance positioning and attribute rendering. In this paper, we introduce Depth-Driven Decoupled Instance Synthesis (3DIS), a novel framework that decouples the MIG process into two stages: (i) generating a coarse scene depth map for accurate instance positioning and scene composition, and (ii) rendering fine-grained attributes using pre-trained ControlNet on any foundational model, without additional training. Our 3DIS framework integrates a custom adapter into LDM3D for precise depth-based layouts and employs a finetuning-free method for enhanced instance-level attribute rendering. Extensive experiments on COCO-Position and COCO-MIG benchmarks demonstrate that 3DIS significantly outperforms existing methods in both layout precision and attribute rendering. Notably, 3DIS offers seamless compatibility with diverse foundational models, providing a robust, adaptable solution for advanced multi-instance generation. The code is available at: https://github.com/limuloo/3DIS.

arxiv情報

著者 Dewei Zhou,Ji Xie,Zongxin Yang,Yi Yang
発行日 2024-10-16 15:34:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | 3DIS: Depth-Driven Decoupled Instance Synthesis for Text-to-Image Generation はコメントを受け付けていません

MambaBEV: An efficient 3D detection model with Mamba2

要約

時間情報を備えた BEV パラダイムに基づく安定した 3D 物体検出モデルは、自動運転システムにとって非常に重要です。
しかし、畳み込み層や変形可能な自己注意を使用する現在の時間融合モデルは、BEV 空間のグローバル情報の交換には役立たず、計算コストが高くなります。
最近、マンバと呼ばれる処理シーケンスに特化した新たに提案されたベースモデルが、複数の下流タスクにおいて大きな可能性を示しています。
この研究では、MambaBEV という名前の mamba2 ベースの BEV 3D 物体検出モデルを提案しました。
また、モデルのパフォーマンスをテストするためにエンドツーエンドの自動運転パラダイムを適応させます。
私たちの作業は、nunces データセットでかなり良い結果をもたらしました。私たちの基本バージョンは 51.7% の NDS を達成しました。
私たちのコードは間もなく利用可能になります。

要約(オリジナル)

A stable 3D object detection model based on BEV paradigm with temporal information is very important for autonomous driving systems. However, current temporal fusion model use convolutional layer or deformable self-attention is not conducive to the exchange of global information of BEV space and has more computational cost. Recently, a newly proposed based model specialized in processing sequence called mamba has shown great potential in multiple downstream task. In this work, we proposed a mamba2-based BEV 3D object detection model named MambaBEV. We also adapt an end to end self driving paradigm to test the performance of the model. Our work performs pretty good results on nucences datasets:Our base version achieves 51.7% NDS. Our code will be available soon.

arxiv情報

著者 Zihan You,Hao Wang,Qichao Zhao,Jinxiang Wang
発行日 2024-10-16 15:37:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MambaBEV: An efficient 3D detection model with Mamba2 はコメントを受け付けていません

Understanding Figurative Meaning through Explainable Visual Entailment

要約

大規模視覚言語モデル (VLM) は、視覚的な質問応答や視覚的な含意など、画像やテキストの文字通りの意味を詳細に理解する必要があるタスクにおいて強力な機能を実証しています。
しかし、比喩やユーモアなどの比喩的な意味を含む画像やキャプションを提示した場合のこれらのモデルの機能についてはほとんど研究されていません。
このギャップを埋めるために、比喩的な意味理解の問題を説明可能な視覚的含意タスクとして組み立てる新しいタスクを提案します。このタスクでは、モデルは画像 (前提) がキャプション (仮説) を伴うかどうかを予測し、予測されたラベルをテキストの説明で正当化する必要があります。

比喩的な現象は、画像、キャプション、またはその両方に存在する可能性があります。
人間と AI のコラボレーション アプローチを利用して、専門家が検証した付属のデータセット V-FLUTE を構築します。このデータセットには、比喩、直喩、慣用句、皮肉、ユーモアという 5 つの多様な比喩的現象にわたる 6,027 個の {画像、キャプション、ラベル、説明} インスタンスが含まれています。
自動評価を通じて、特に画像内に存在する場合、VLM は文字通りの意味から比喩的な意味に一般化するのに苦労していることがわかりました。
さらに、人間による評価を通じて、VLM 推論における一般的なタイプのエラーを特定します。

要約(オリジナル)

Large Vision-Language Models (VLMs) have demonstrated strong capabilities in tasks requiring a fine-grained understanding of literal meaning in images and text, such as visual question-answering or visual entailment. However, there has been little exploration of these models’ capabilities when presented with images and captions containing figurative meaning, such as metaphors or humor. To close this gap, we propose a new task framing the figurative meaning understanding problem as an explainable visual entailment task, where the model has to predict whether the image (premise) entails a caption (hypothesis) and justify the predicted label with a textual explanation. The figurative phenomena can be present either in the image, the caption, or both. Utilizing a human-AI collaboration approach, we build the accompanying expert-verified dataset V-FLUTE, containing 6,027 {image, caption, label, explanation} instances spanning five diverse figurative phenomena: metaphors, similes, idioms, sarcasm, and humor. Through automatic evaluation, we find that VLMs struggle to generalize from literal to figurative meaning, particularly when it is present in images. Further, we identify common types of errors in VLM reasoning via human evaluation.

arxiv情報

著者 Arkadiy Saakyan,Shreyas Kulkarni,Tuhin Chakrabarty,Smaranda Muresan
発行日 2024-10-16 15:45:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Understanding Figurative Meaning through Explainable Visual Entailment はコメントを受け付けていません

Automatic Mapping of Anatomical Landmarks from Free-Text Using Large Language Models: Insights from Llama-2

要約

解剖学的ランドマークは、ナビゲーションや異常検出のための医療画像処理において不可欠です。
Llama-2 のような最新のラージ言語モデル (LLM) は、フリーテキストの放射線医学レポート内のこれらのランドマークを画像データ内の対応する位置にマッピングする自動化を約束します。
最近の研究では、LLM が生成プロセスの一貫した表現を開発する可能性があることが示唆されています。
これらの洞察に基づいて、LLM が解剖学的ランドマークの空間位置を正確に表すかどうかを調査しました。
Llama-2 モデルを用いた実験を通じて、Llama-2 モデルがさまざまなプロンプトに対してかなりのロバスト性で空間内の解剖学的ランドマークを線形に表現できることがわかりました。
これらの結果は、医療画像ワークフローの効率と精度を向上させる LLM の可能性を強調しています。

要約(オリジナル)

Anatomical landmarks are vital in medical imaging for navigation and anomaly detection. Modern large language models (LLMs), like Llama-2, offer promise for automating the mapping of these landmarks in free-text radiology reports to corresponding positions in image data. Recent studies propose LLMs may develop coherent representations of generative processes. Motivated by these insights, we investigated whether LLMs accurately represent the spatial positions of anatomical landmarks. Through experiments with Llama-2 models, we found that they can linearly represent anatomical landmarks in space with considerable robustness to different prompts. These results underscore the potential of LLMs to enhance the efficiency and accuracy of medical imaging workflows.

arxiv情報

著者 Mohamad Abdi,Gerardo Hemosillo Valadez,Halid Ziya Yerebakan
発行日 2024-10-16 15:48:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Automatic Mapping of Anatomical Landmarks from Free-Text Using Large Language Models: Insights from Llama-2 はコメントを受け付けていません

Machine Learning Approach to Brain Tumor Detection and Classification

要約

脳腫瘍の検出と分類は、医用画像解析、特に早期診断において重要なタスクであり、正確かつタイムリーな検出により治療結果が大幅に向上します。
この研究では、脳 MRI 画像を使用して脳腫瘍を検出および分類するために、さまざまな統計および機械学習モデルを適用します。
線形回帰、ロジスティック回帰、ベイジアン回帰などのさまざまな統計モデルと、デシジョン ツリー、ランダム フォレスト、単層パーセプトロン、多層パーセプトロン、畳み込みニューラル ネットワーク (CNN)、リカレント ニューラル ネットワーク、および
長い短期記憶。
私たちの調査結果は、CNN が他のモデルよりも優れており、最高のパフォーマンスを達成していることを示しています。
さらに、CNN モデルは、正常、神経膠腫、髄膜腫、下垂体腫瘍画像などの脳 MRI 画像の 4 つのカテゴリを区別するマルチクラス分類にも機能することを確認しました。
この研究は、機械学習アプローチが脳腫瘍の検出と分類に適しており、放射線科医による早期かつ正確な診断を支援する現実の医療応用を促進することを実証しています。

要約(オリジナル)

Brain tumor detection and classification are critical tasks in medical image analysis, particularly in early-stage diagnosis, where accurate and timely detection can significantly improve treatment outcomes. In this study, we apply various statistical and machine learning models to detect and classify brain tumors using brain MRI images. We explore a variety of statistical models including linear, logistic, and Bayesian regressions, and the machine learning models including decision tree, random forest, single-layer perceptron, multi-layer perceptron, convolutional neural network (CNN), recurrent neural network, and long short-term memory. Our findings show that CNN outperforms other models, achieving the best performance. Additionally, we confirm that the CNN model can also work for multi-class classification, distinguishing between four categories of brain MRI images such as normal, glioma, meningioma, and pituitary tumor images. This study demonstrates that machine learning approaches are suitable for brain tumor detection and classification, facilitating real-world medical applications in assisting radiologists with early and accurate diagnosis.

arxiv情報

著者 Alice Oh,Inyoung Noh,Jian Choo,Jihoo Lee,Justin Park,Kate Hwang,Sanghyeon Kim,Soo Min Oh
発行日 2024-10-16 15:52:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Machine Learning Approach to Brain Tumor Detection and Classification はコメントを受け付けていません

AssemAI: Interpretable Image-Based Anomaly Detection for Manufacturing Pipelines

要約

製造パイプラインにおける異常検出は依然として重要な課題であり、産業環境の複雑さと変動によってさらに深刻化しています。
このペーパーでは、スマート製造パイプライン向けにカスタマイズされた、解釈可能な画像ベースの異常検出システムである AssemAI を紹介します。
業界に焦点を当てたロケット組立パイプラインから厳選された画像データセットを利用して、不均衡な画像データの課題に対処し、異常検出における画像ベースの手法の重要性を実証します。
私たちの主な貢献には、画像データセットの導出、物体検出モデル YOLO-FF の微調整、アセンブリ パイプライン用のカスタム異常検出モデルの実装が含まれます。
提案されたアプローチは、データの準備、モデルの開発、および推論においてドメインの知識を活用します。
畳み込みニューラル ネットワーク、ビジョン トランスフォーマー (ViT)、およびこれらのモデルの事前トレーニングされたバージョンを含む、派生画像データセットにいくつかの異常検出モデルを実装します。
さらに、ユーザー レベルの説明にはオントロジーを、詳細な機能とモデルの分析には SCORE-CAM を利用して、ユーザー レベルとモデル レベルの両方で説明可能性テクニックを組み込みます。
最後に、最高のパフォーマンスの異常検出モデルと YOLO-FF がリアルタイム設定で導入されます。
私たちの結果には、ベースラインに関するアブレーション研究と、提案されたシステムの包括的な評価が含まれます。
この研究は、スマート製造プロセスの信頼性と効率の向上における、高度な画像ベースの異常検出の広範な影響を浮き彫りにしています。
画像データセット、結果を再現するコード、追加の実験は https://github.com/renjithk4/AssemAI で入手できます。

要約(オリジナル)

Anomaly detection in manufacturing pipelines remains a critical challenge, intensified by the complexity and variability of industrial environments. This paper introduces AssemAI, an interpretable image-based anomaly detection system tailored for smart manufacturing pipelines. Utilizing a curated image dataset from an industry-focused rocket assembly pipeline, we address the challenge of imbalanced image data and demonstrate the importance of image-based methods in anomaly detection. Our primary contributions include deriving an image dataset, fine-tuning an object detection model YOLO-FF, and implementing a custom anomaly detection model for assembly pipelines. The proposed approach leverages domain knowledge in data preparation, model development and reasoning. We implement several anomaly detection models on the derived image dataset, including a Convolutional Neural Network, Vision Transformer (ViT), and pre-trained versions of these models. Additionally, we incorporate explainability techniques at both user and model levels, utilizing ontology for user-level explanations and SCORE-CAM for in-depth feature and model analysis. Finally, the best-performing anomaly detection model and YOLO-FF are deployed in a real-time setting. Our results include ablation studies on the baselines and a comprehensive evaluation of the proposed system. This work highlights the broader impact of advanced image-based anomaly detection in enhancing the reliability and efficiency of smart manufacturing processes. The image dataset, codes to reproduce the results and additional experiments are available at https://github.com/renjithk4/AssemAI.

arxiv情報

著者 Renjith Prasad,Chathurangi Shyalika,Ramtin Zand,Fadi El Kalach,Revathy Venkataramanan,Ramy Harik,Amit Sheth
発行日 2024-10-16 15:53:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AssemAI: Interpretable Image-Based Anomaly Detection for Manufacturing Pipelines はコメントを受け付けていません

VividMed: Vision Language Model with Versatile Visual Grounding for Medicine

要約

ビジョン言語モデル (VLM) の最近の進歩により、視覚に基づいた応答を生成することが顕著に期待できることが実証されました。
しかし、医療分野での応用は特有の課題によって妨げられています。
たとえば、ほとんどの VLM は単一の視覚的根拠付け方法に依存していますが、複雑な医療タスクにはより多用途なアプローチが必要です。
さらに、ほとんどの VLM は 2D 画像のみを処理しますが、医療画像の大部分は 3D です。
医療データの欠如がこれらの障害をさらに悪化させます。
これらの課題に対処するために、私たちは医療のための多用途の視覚的基盤を備えたビジョン言語モデルである VividMed を紹介します。
私たちのモデルは、セマンティック セグメンテーション マスクとインスタンス レベルのバウンディング ボックスの両方の生成をサポートし、2D データと 3D データの両方を含むさまざまなイメージング モダリティに対応します。
オープンなデータセットとモデルに基づいて、3 段階のトレーニング手順と自動データ合成パイプラインを設計します。
VividMed は、視覚的な基礎タスクに加えて、視覚的な質問応答 (VQA) やレポート生成など、他の一般的な下流タスクにも優れています。
アブレーション研究は、視覚的グラウンディング能力の統合がこれらのタスクのパフォーマンスの向上につながることを経験的に示しています。
私たちのコードは https://github.com/function2-llx/MMMM で公開されています。

要約(オリジナル)

Recent advancements in Vision Language Models (VLMs) have demonstrated remarkable promise in generating visually grounded responses. However, their application in the medical domain is hindered by unique challenges. For instance, most VLMs rely on a single method of visual grounding, whereas complex medical tasks demand more versatile approaches. Additionally, while most VLMs process only 2D images, a large portion of medical images are 3D. The lack of medical data further compounds these obstacles. To address these challenges, we present VividMed, a vision language model with versatile visual grounding for medicine. Our model supports generating both semantic segmentation masks and instance-level bounding boxes, and accommodates various imaging modalities, including both 2D and 3D data. We design a three-stage training procedure and an automatic data synthesis pipeline based on open datasets and models. Besides visual grounding tasks, VividMed also excels in other common downstream tasks, including Visual Question Answering (VQA) and report generation. Ablation studies empirically show that the integration of visual grounding ability leads to improved performance on these tasks. Our code is publicly available at https://github.com/function2-llx/MMMM.

arxiv情報

著者 Lingxiao Luo,Bingda Tang,Xuanzhong Chen,Rong Han,Ting Chen
発行日 2024-10-16 15:54:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | VividMed: Vision Language Model with Versatile Visual Grounding for Medicine はコメントを受け付けていません

MultiCamCows2024 — A Multi-view Image Dataset for AI-driven Holstein-Friesian Cattle Re-Identification on a Working Farm

要約

私たちは、ホルスタイン フリージアン牛の独特の白と黒の毛皮パターンを利用して個々のホルスタイン フリージアン牛を生体認証するために複数のカメラで撮影された農場規模の画像データセットである MultiCamCows2024 を紹介します。
稼働中の酪農場で隣接する納屋エリアを 7 日間にわたってカバーする 3 つの天井に取り付けられた視覚センサーによってキャプチャされたデータセットは、90 頭の牛の 101,329 枚の画像と、基礎となる元の CCTV 映像で構成されています。
このデータセットは、完全なコンピューター ビジョン認識ベースラインとともに提供されます。これは、牛の足跡で訓練された個々の牛を識別するための教師あり学習フレームワークと自己教師あり学習フレームワークの両方です。
我々は、データセットからの単一画像識別精度が 96% を超えるパフォーマンスを報告し、学習中に複数のカメラからのデータを組み合わせることで自己教師あり識別が強化されることを実証しました。
私たちは、データ収集中にトラックレットの完全性を人間が簡単に検証することのみを除いて、私たちのフレームワークが完全に自動化された牛の識別を可能にすることを示します。
重要なことに、私たちの研究は、マルチカメラ、監視付きおよび自己監視型コンポーネントを連携させることで、高精度の牛個体識別を実現するだけでなく、人間による牛の身元のラベル付けをまったく行わずにこれを効率的に達成できることを強調しています。
私たちは、この有効性の向上が家畜管理、行動分析、農業モニタリングに実際的な意味を持つと主張します。
完全な再現性と実用的な使いやすさを実現するために、再識別コンポーネントや種検出器を含むすべての主要なソフトウェアとコードをこの文書で公開します。

要約(オリジナル)

We present MultiCamCows2024, a farm-scale image dataset filmed across multiple cameras for the biometric identification of individual Holstein-Friesian cattle exploiting their unique black and white coat-patterns. Captured by three ceiling-mounted visual sensors covering adjacent barn areas over seven days on a working dairy farm, the dataset comprises 101, 329 images of 90 cows, plus the underlying original CCTV footage. The dataset is provided alongside full computer vision recognition baselines, that is both a supervised and self-supervised learning framework for individual cow identification trained on cattle tracklets. We report a performance above 96% single image identification accuracy from the dataset and demonstrate that combining data from multiple cameras during learning enhances self-supervised identification. We show that our framework enables fully automatic cattle identification, barring only the simple human verification of tracklet integrity during data collection. Crucially, our study highlights that multi-camera, supervised and self-supervised components in tandem not only deliver highly accurate individual cow identification but also achieve this efficiently with no labelling of cattle identities by humans at all. We argue that this improvement in efficacy has practical implications for livestock management, behaviour analysis, and agricultural monitoring. For full reproducibility and practical ease of use, we publish all key software and code including re-identification components and the species detector with this paper.

arxiv情報

著者 Phoenix Yu,Tilo Burghardt,Andrew W Dowsey,Neill W Campbell
発行日 2024-10-16 15:58:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MultiCamCows2024 — A Multi-view Image Dataset for AI-driven Holstein-Friesian Cattle Re-Identification on a Working Farm はコメントを受け付けていません

AdaptiveDrag: Semantic-Driven Dragging on Diffusion-Based Image Editing

要約

最近、いくつかのポイントベースの画像編集方法 (DragDiffusion、FreeDrag、DragNoise など) が登場し、ユーザーの指示に基づいて正確で高品質な結果が得られます。
ただし、これらの方法では意味情報が十分に活用されていないことが多く、あまり望ましい結果が得られません。
この論文では、より柔軟な編集アプローチを提供し、ユーザーの意図に沿った画像を生成する、新しいマスクフリーのポイントベースの画像編集方法である AdaptiveDrag を提案しました。
具体的には、スーパーピクセル分割による使いやすさを考慮した自動マスク生成モジュールを設計します。
次に、事前トレーニングされた拡散モデルを利用して潜在を最適化し、ハンドル ポイントからターゲット ポイントへのフィーチャのドラッグを可能にします。
入力画像とドラッグ プロセスの間の包括的な接続を確保するために、セマンティック主導の最適化を開発しました。
私たちは、スーパーピクセルセグメンテーションから導出されたポイントと意味領域の位置によって監視される適応ステップを設計します。
この洗練された最適化プロセスにより、より現実的で正確なドラッグ結果も得られます。
さらに、拡散モデルの生成一貫性の制限に対処するために、サンプリング プロセス中に革新的な対応する損失を導入します。
これらの効果的な設計に基づいて、私たちの方法は、単一の入力画像とハンドルとターゲット ポイントのペアのみを使用して、優れた生成結果を提供します。
広範な実験が実施され、提案された方法が、さまざまな領域(動物、人間の顔、土地空間、衣服など)にわたるさまざまなドラッグ命令(サイズ変更、移動、拡張など)の処理において他の方法よりも優れていることが実証されています。

要約(オリジナル)

Recently, several point-based image editing methods (e.g., DragDiffusion, FreeDrag, DragNoise) have emerged, yielding precise and high-quality results based on user instructions. However, these methods often make insufficient use of semantic information, leading to less desirable results. In this paper, we proposed a novel mask-free point-based image editing method, AdaptiveDrag, which provides a more flexible editing approach and generates images that better align with user intent. Specifically, we design an auto mask generation module using super-pixel division for user-friendliness. Next, we leverage a pre-trained diffusion model to optimize the latent, enabling the dragging of features from handle points to target points. To ensure a comprehensive connection between the input image and the drag process, we have developed a semantic-driven optimization. We design adaptive steps that are supervised by the positions of the points and the semantic regions derived from super-pixel segmentation. This refined optimization process also leads to more realistic and accurate drag results. Furthermore, to address the limitations in the generative consistency of the diffusion model, we introduce an innovative corresponding loss during the sampling process. Building on these effective designs, our method delivers superior generation results using only the single input image and the handle-target point pairs. Extensive experiments have been conducted and demonstrate that the proposed method outperforms others in handling various drag instructions (e.g., resize, movement, extension) across different domains (e.g., animals, human face, land space, clothing).

arxiv情報

著者 DuoSheng Chen,Binghui Chen,Yifeng Geng,Liefeng Bo
発行日 2024-10-16 15:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AdaptiveDrag: Semantic-Driven Dragging on Diffusion-Based Image Editing はコメントを受け付けていません