Improving Editability in Image Generation with Layer-wise Memory

要約

現実の画像編集作業の多くは、望ましい結果を得るために複数の連続した編集を必要とする。現在の編集アプローチは、主に単一オブジェクトの修正用に設計されているため、逐次編集に苦労しています:特に、既存のコンテンツに新しいオブジェクトを自然に適応させるとともに、以前の編集を維持することです。これらの限界は、複数のオブジェクトを文脈上の関係を維持しながら修正する必要がある複雑な編集シナリオの妨げになる。我々は、新しい要素を自然に統合しながら既存のコンテンツを維持するラフマスク入力を可能にすることと、複数の修正にまたがる一貫した編集をサポートすることという2つの重要な提案を通じて、この基本的な課題に取り組む。我々のフレームワークは、レイヤーワイズメモリによってこれを実現し、レイヤーワイズメモリは、以前の編集からの潜在的な表現とプロンプトの埋め込みを保存する。我々は、記憶された潜在表現を活用してシーンの一貫性を維持するBackground Consistency Guidanceと、既存のコンテンツへの自然な適応を保証するCross AttentionにおけるMulti-Query Disentanglementを提案する。我々の手法を評価するために、セマンティックアライメントメトリクスとインタラクティブな編集シナリオを組み込んだ新しいベンチマークデータセットを提示する。包括的な実験を通して、複数の編集ステップを通して高品質な結果を維持しながら、大まかなマスクのみを必要とする、最小限のユーザの労力で反復的な画像編集タスクにおいて優れた性能を実証する。

要約(オリジナル)

Most real-world image editing tasks require multiple sequential edits to achieve desired results. Current editing approaches, primarily designed for single-object modifications, struggle with sequential editing: especially with maintaining previous edits along with adapting new objects naturally into the existing content. These limitations significantly hinder complex editing scenarios where multiple objects need to be modified while preserving their contextual relationships. We address this fundamental challenge through two key proposals: enabling rough mask inputs that preserve existing content while naturally integrating new elements and supporting consistent editing across multiple modifications. Our framework achieves this through layer-wise memory, which stores latent representations and prompt embeddings from previous edits. We propose Background Consistency Guidance that leverages memorized latents to maintain scene coherence and Multi-Query Disentanglement in cross-attention that ensures natural adaptation to existing content. To evaluate our method, we present a new benchmark dataset incorporating semantic alignment metrics and interactive editing scenarios. Through comprehensive experiments, we demonstrate superior performance in iterative image editing tasks with minimal user effort, requiring only rough masks while maintaining high-quality results throughout multiple editing steps.

arxiv情報

著者 Daneul Kim,Jaeah Lee,Jaesik Park
発行日 2025-05-02 07:36:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV | Improving Editability in Image Generation with Layer-wise Memory はコメントを受け付けていません

Towards Space Group Determination from EBSD Patterns: The Role of Deep Learning and High-throughput Dynamical Simulations

要約

新規材料の設計は、構造と物性の関係の理解にかかっている。しかし最近では、多くの材料を合成する能力が、それらを特性評価する速度を上回っている。全体的な化学成分は合成中に容易に知ることができるが、新たに合成された試料の構造進化と特性評価は、ハイスループット・ナノ材料探索という究極の目標を達成する上で、依然としてボトルネックとなっている。したがって、短時間で大量の試料を分析できる、スケーラブルな結晶対称性決定法が特に必要とされている。SEMでの菊池回折は、動的散乱に対する感度が高いため、この手法に有望であり、7つの結晶系と14のブラヴェ格子にとどまらない情報を提供できる可能性がある。物質サンプルから回折パターンを収集した後、ディープラーニング手法を使えば、パターンを入力として空間群対称性を分類できるかもしれない。このソリューションの実現可能性を調査するために、バックグラウンドで補正されたEBSDパターンの空間群タイプを予測するニューラルネットワークを訓練した。まず、物理ベースの動的シミュレーションによって作成された、5,148種類の立方晶相のEBSDパターンからなる人工データセットに対して、ニューラルネットワークの学習とテストを行った。次に、教師なし深層学習ベースの領域適応手法である最大分類器不一致を利用して、実験的EBSDパターンの予測を行うニューラルネットワークを学習した。再ラベリングスキームを導入することで、我々のモデルはシミュレーションデータと実験データで90%以上の精度スコアを達成することができ、ニューラルネットワークがEBSDパターンから結晶対称性の予測を行うことができることを示唆している。

要約(オリジナル)

The design of novel materials hinges on the understanding of structure-property relationships. However, in recent times, our capability to synthesize a large number of materials has outpaced our speed at characterizing them. While the overall chemical constituents can be readily known during synthesis, the structural evolution and characterization of newly synthesized samples remains a bottleneck for the ultimate goal of high throughput nanomaterials discovery. Thus, scalable methods for crystal symmetry determination that can analyze a large volume of material samples within a short time-frame are especially needed. Kikuchi diffraction in the SEM is a promising technique for this due to its sensitivity to dynamical scattering, which may provide information beyond just the seven crystal systems and fourteen Bravais lattices. After diffraction patterns are collected from material samples, deep learning methods may be able to classify the space group symmetries using the patterns as input, which paired with the elemental composition, would help enable the determination of the crystal structure. To investigate the feasibility of this solution, neural networks were trained to predict the space group type of background corrected EBSD patterns. Our networks were first trained and tested on an artificial dataset of EBSD patterns of 5,148 different cubic phases, created through physics-based dynamical simulations. Next, Maximum Classifier Discrepancy, an unsupervised deep learning-based domain adaptation method, was utilized to train neural networks to make predictions for experimental EBSD patterns. We introduce a relabeling scheme, which enables our models to achieve accuracy scores higher than 90% on simulated and experimental data, suggesting that neural networks are capable of making predictions of crystal symmetry from an EBSD pattern.

arxiv情報

著者 Alfred Yan,Muhammad Nur Talha Kilic,Gert Nolze,Ankit Agrawal,Alok Choudhary,Roberto dos Reis,Vinayak Dravid
発行日 2025-05-02 07:38:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cond-mat.mtrl-sci, cs.CV | Towards Space Group Determination from EBSD Patterns: The Role of Deep Learning and High-throughput Dynamical Simulations はコメントを受け付けていません

Any-to-Any Vision-Language Model for Multimodal X-ray Imaging and Radiological Report Generation

要約

生成モデルは、特にマルチモーダルアプリケーションにおいて、人工知能(AI)に革命をもたらした。しかし、これらのモデルを医療領域に適応させることは、医療データの複雑さと臨床的正確さの厳しい必要性から、独自の課題を提起する。本研究では、マルチモーダル医療データ生成のために特別に設計されたフレームワークを紹介する。マルチビューの胸部X線画像とそれに関連する臨床レポートの生成を可能にすることで、汎用の視覚言語モデルと、医療に特化した要件とのギャップを埋める。MIMIC-CXRデータセットを活用することで、提案フレームワークは、高忠実度の画像と意味的に首尾一貫したレポートの生成において優れた性能を示す。我々の定量的評価により、FIDとBLEUスコアの点で有意な結果が得られ、生成されたデータの品質が示された。注目すべきは、我々のフレームワークが、下流の疾患分類タスクにおいて、実データと比較して同等、あるいはそれ以上の性能を達成していることであり、医学研究や診断のためのツールとしての可能性を強調している。本研究は、臨床応用における生成モデルの妥当性と有用性を高める上で、ドメイン固有の適応の重要性を強調し、合成マルチモーダル医療データ生成における将来の進歩への道を開くものである。

要約(オリジナル)

Generative models have revolutionized Artificial Intelligence (AI), particularly in multimodal applications. However, adapting these models to the medical domain poses unique challenges due to the complexity of medical data and the stringent need for clinical accuracy. In this work, we introduce a framework specifically designed for multimodal medical data generation. By enabling the generation of multi-view chest X-rays and their associated clinical report, it bridges the gap between general-purpose vision-language models and the specialized requirements of healthcare. Leveraging the MIMIC-CXR dataset, the proposed framework shows superior performance in generating high-fidelity images and semantically coherent reports. Our quantitative evaluation reveals significant results in terms of FID and BLEU scores, showcasing the quality of the generated data. Notably, our framework achieves comparable or even superior performance compared to real data on downstream disease classification tasks, underlining its potential as a tool for medical research and diagnostics. This study highlights the importance of domain-specific adaptations in enhancing the relevance and utility of generative models for clinical applications, paving the way for future advancements in synthetic multimodal medical data generation.

arxiv情報

著者 Daniele Molino,Francesco di Feola,Linlin Shen,Paolo Soda,Valerio Guarrasi
発行日 2025-05-02 08:07:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | Any-to-Any Vision-Language Model for Multimodal X-ray Imaging and Radiological Report Generation はコメントを受け付けていません

Evaluating Vision Language Model Adaptations for Radiology Report Generation in Low-Resource Languages

要約

ヘルスケアにおける人工知能の統合は、医療診断と患者ケアを改善するための新たな地平を切り開いた。しかし、特にリソースの少ない言語において、正確で文脈に即した放射線診断レポートを生成できるシステムの開発には課題が残る。本研究では、3つの低リソース言語にわたる放射線診断レポート生成という特殊なタスクにおいて、命令チューニングされた視覚言語モデル(VLM)の性能を評価するための包括的なベンチマークを提示する:イタリア語、ドイツ語、スペイン語である。LLaVAアーキテクチャフレームワークを採用し、一般的なデータセット、ドメイン固有のデータセット、および低リソース言語固有のデータセットを利用して、事前に訓練されたモデルの系統的な評価を実施した。医療領域と低リソース言語の両方に関する事前知識を持つモデルが存在しないことを考慮し、これらのコンテキストに最も効果的なアプローチを決定するために、様々な適応を分析した。その結果、言語特異的なモデルは、放射線医学レポートの生成において、一般的なモデルとドメイン特異的なモデルの両方を大幅に上回ることが明らかになり、言語適応の重要な役割が強調された。さらに、医療用語で微調整されたモデルは、一般的な知識を持つモデルと比較して、すべての言語においてより高い性能を示し、ドメインに特化したトレーニングの重要性が強調された。また、温度パラメータがレポート生成の一貫性に与える影響についても検討し、最適なモデル設定に関する知見を得た。本研究で得られた知見は、多言語環境における放射線医学レポートの品質と精度を向上させるためには、言語に合わせたトレーニングやドメインに特化したトレーニングが重要であることを浮き彫りにした。本研究は、医療におけるVLMの適応性に関する理解を深めるだけでなく、モデルのチューニングや言語固有の適応に関する今後の研究の重要な道筋を指し示すものである。

要約(オリジナル)

The integration of artificial intelligence in healthcare has opened new horizons for improving medical diagnostics and patient care. However, challenges persist in developing systems capable of generating accurate and contextually relevant radiology reports, particularly in low-resource languages. In this study, we present a comprehensive benchmark to evaluate the performance of instruction-tuned Vision-Language Models (VLMs) in the specialized task of radiology report generation across three low-resource languages: Italian, German, and Spanish. Employing the LLaVA architectural framework, we conducted a systematic evaluation of pre-trained models utilizing general datasets, domain-specific datasets, and low-resource language-specific datasets. In light of the unavailability of models that possess prior knowledge of both the medical domain and low-resource languages, we analyzed various adaptations to determine the most effective approach for these contexts. The results revealed that language-specific models substantially outperformed both general and domain-specific models in generating radiology reports, emphasizing the critical role of linguistic adaptation. Additionally, models fine-tuned with medical terminology exhibited enhanced performance across all languages compared to models with generic knowledge, highlighting the importance of domain-specific training. We also explored the influence of the temperature parameter on the coherence of report generation, providing insights for optimal model settings. Our findings highlight the importance of tailored language and domain-specific training for improving the quality and accuracy of radiological reports in multilingual settings. This research not only advances our understanding of VLMs adaptability in healthcare but also points to significant avenues for future investigations into model tuning and language-specific adaptations.

arxiv情報

著者 Marco Salmè,Rosa Sicilia,Paolo Soda,Valerio Guarrasi
発行日 2025-05-02 08:14:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV | Evaluating Vision Language Model Adaptations for Radiology Report Generation in Low-Resource Languages はコメントを受け付けていません

VSC: Visual Search Compositional Text-to-Image Diffusion Model

要約

テキストから画像への拡散モデルは、自然言語によるプロンプトからリアルなビジュアルを生成する上で素晴らしい能力を示しているが、特に複数の属性とオブジェクトのペアを含むプロンプトにおいて、属性を対応するオブジェクトに正確に結合することにしばしば苦戦する。この課題は、主にCLIPのような一般的に使用されるテキストエンコーダの限界から生じる。CLIPは、複雑な言語関係や修飾語を効果的にエンコードできないことがある。既存のアプローチでは、推論中のアテンションマップ制御や、学習中のレイアウト情報の利用や微調整により、これらの問題を軽減することが試みられているが、プロンプトの複雑さが増すにつれて性能低下に直面している。本研究では、属性とオブジェクトの結合を改善するために、ペアワイズ画像埋め込みを活用した新しい合成生成手法を紹介する。我々のアプローチは、複雑なプロンプトをサブプロンプトに分解し、対応する画像を生成し、テキスト埋め込みと融合する視覚的プロトタイプを計算することで、表現を強化する。セグメンテーションに基づく定位学習を適用することで、交差注意のズレに対処し、複数の属性をオブジェクトに結合する精度を向上させる。我々のアプローチは、ベンチマークであるT2I CompBenchにおいて、既存のテキストから画像への拡散モデルを凌駕し、人間によって評価された、より良い画質を達成し、プロンプト内の結合ペアの数をスケーリングした場合の頑健性を示す。

要約(オリジナル)

Text-to-image diffusion models have shown impressive capabilities in generating realistic visuals from natural-language prompts, yet they often struggle with accurately binding attributes to corresponding objects, especially in prompts containing multiple attribute-object pairs. This challenge primarily arises from the limitations of commonly used text encoders, such as CLIP, which can fail to encode complex linguistic relationships and modifiers effectively. Existing approaches have attempted to mitigate these issues through attention map control during inference and the use of layout information or fine-tuning during training, yet they face performance drops with increased prompt complexity. In this work, we introduce a novel compositional generation method that leverages pairwise image embeddings to improve attribute-object binding. Our approach decomposes complex prompts into sub-prompts, generates corresponding images, and computes visual prototypes that fuse with text embeddings to enhance representation. By applying segmentation-based localization training, we address cross-attention misalignment, achieving improved accuracy in binding multiple attributes to objects. Our approaches outperform existing compositional text-to-image diffusion models on the benchmark T2I CompBench, achieving better image quality, evaluated by humans, and emerging robustness under scaling number of binding pairs in the prompt.

arxiv情報

著者 Do Huu Dat,Nam Hyeonu,Po-Yuan Mao,Tae-Hyun Oh
発行日 2025-05-02 08:31:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | VSC: Visual Search Compositional Text-to-Image Diffusion Model はコメントを受け付けていません

Task-Oriented Communications for Visual Navigation with Edge-Aerial Collaboration in Low Altitude Economy

要約

低高度経済(LAE)を支援するため、全地球測位システム(GPS)信号が利用できない都市部での正確な無人航空機(UAV)の位置特定が必要である。ビジョンベースの方法は実行可能な代替手段を提供するが、軽量UAVでは帯域幅、メモリ、処理の厳しい制約に直面する。哺乳類の空間認知にヒントを得て、マルチカメラシステムを搭載したUAVがコンパクトなマルチビューの特徴を抽出し、ローカライゼーションタスクをエッジサーバーにオフロードする、タスク指向のコミュニケーションフレームワークを提案する。このエンコーダは、冗長性を最小化するために直交性を強制する一方で、非情報的な特徴を除去するために自動関連性決定(ARD)を組み込んでいる。これにより、最小限の伝送コストで効率的かつ正確な位置特定が可能になる。LAE UAV データセットを用いた広範な評価により、O-VIB は厳しい帯域幅バジェットの下でも高精度なローカライゼーションを実現することが示されました。コードとデータセットは、github.com/fangzr/TOC-Edge-Aerialで公開予定。

要約(オリジナル)

To support the Low Altitude Economy (LAE), precise unmanned aerial vehicles (UAVs) localization in urban areas where global positioning system (GPS) signals are unavailable. Vision-based methods offer a viable alternative but face severe bandwidth, memory and processing constraints on lightweight UAVs. Inspired by mammalian spatial cognition, we propose a task-oriented communication framework, where UAVs equipped with multi-camera systems extract compact multi-view features and offload localization tasks to edge servers. We introduce the Orthogonally-constrained Variational Information Bottleneck encoder (O-VIB), which incorporates automatic relevance determination (ARD) to prune non-informative features while enforcing orthogonality to minimize redundancy. This enables efficient and accurate localization with minimal transmission cost. Extensive evaluation on a dedicated LAE UAV dataset shows that O-VIB achieves high-precision localization under stringent bandwidth budgets. Code and dataset will be made publicly available: github.com/fangzr/TOC-Edge-Aerial.

arxiv情報

著者 Zhengru Fang,Zhenghao Liu,Jingjing Wang,Senkang Hu,Yu Guo,Yiqin Deng,Yuguang Fang
発行日 2025-05-02 08:32:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.NI | Task-Oriented Communications for Visual Navigation with Edge-Aerial Collaboration in Low Altitude Economy はコメントを受け付けていません

Self-Supervision Enhances Instance-based Multiple Instance Learning Methods in Digital Pathology: A Benchmark Study

要約

複数インスタンス学習(Multiple Instance Learning: MIL)は、全スライド画像(Whole Slide Image: WSI)の分類に最適なソリューションとして登場した。MILは各スライドをパッチに分割し、グローバルラベルでラベル付けされたインスタンスのバッグとして扱う。MILには、インスタンスベースと埋め込みベースの2つのアプローチがある。前者では、各パッチは独立して分類され、次にパッチスコアがバッグラベルを予測するために集約される。後者では、パッチ埋め込みを集約した後にバッグ分類が行われる。たとえインスタンスベースの手法がより解釈しやすいものであったとしても、埋め込みベースのMILは劣悪な特徴抽出器に対して頑健であるため、これまでは通常好まれてきた。しかし近年、SSL(Self-Supervised Learning:自己教師あり学習)を用いることで、特徴埋込の品質は飛躍的に向上している。それにもかかわらず、多くの著者は埋め込みベースのMILの優位性を支持し続けている。これをさらに調査するために、我々は4つのデータセットで710の実験を行い、10のMIL戦略、4つのバックボーンを持つ6つの自己教師付き手法、4つの基礎モデル、様々な病理学に適応した手法を比較する。さらに、病理学領域でこれまで使用されたことのないインスタンスベースのMIL手法を4つ紹介する。これらの広範な実験を通して、優れたSSL特徴抽出器を用いれば、非常に少ないパラメータで、単純なインスタンスベースのMILが、複雑な最先端の(SOTA)埋め込みベースのMIL手法と同等以上の性能を得ることを示し、BRACSとCamelyon16データセットで新たなSOTA結果を設定した。単純なインスタンスベースのMIL法は、当然ながら臨床医にとってより解釈しやすく説明しやすいので、我々の結果は、複雑な埋め込みベースのMIL法よりも、WSIによく適応したSSL法にもっと力を入れるべきであることを示唆している。

要約(オリジナル)

Multiple Instance Learning (MIL) has emerged as the best solution for Whole Slide Image (WSI) classification. It consists of dividing each slide into patches, which are treated as a bag of instances labeled with a global label. MIL includes two main approaches: instance-based and embedding-based. In the former, each patch is classified independently, and then the patch scores are aggregated to predict the bag label. In the latter, bag classification is performed after aggregating patch embeddings. Even if instance-based methods are naturally more interpretable, embedding-based MILs have usually been preferred in the past due to their robustness to poor feature extractors. However, recently, the quality of feature embeddings has drastically increased using self-supervised learning (SSL). Nevertheless, many authors continue to endorse the superiority of embedding-based MIL. To investigate this further, we conduct 710 experiments across 4 datasets, comparing 10 MIL strategies, 6 self-supervised methods with 4 backbones, 4 foundation models, and various pathology-adapted techniques. Furthermore, we introduce 4 instance-based MIL methods never used before in the pathology domain. Through these extensive experiments, we show that with a good SSL feature extractor, simple instance-based MILs, with very few parameters, obtain similar or better performance than complex, state-of-the-art (SOTA) embedding-based MIL methods, setting new SOTA results on the BRACS and Camelyon16 datasets. Since simple instance-based MIL methods are naturally more interpretable and explainable to clinicians, our results suggest that more effort should be put into well-adapted SSL methods for WSI rather than into complex embedding-based MIL methods.

arxiv情報

著者 Ali Mammadov,Loic Le Folgoc,Julien Adam,Anne Buronfosse,Gilles Hayem,Guillaume Hocquet,Pietro Gori
発行日 2025-05-02 08:43:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | Self-Supervision Enhances Instance-based Multiple Instance Learning Methods in Digital Pathology: A Benchmark Study はコメントを受け付けていません

NeuroLoc: Encoding Navigation Cells for 6-DOF Camera Localization

要約

近年、カメラローカライゼーションは、その効率性と利便性から、自律型ロボットナビゲーションに広く採用されている。しかし、未知の環境における自律航法では、カメラローカライゼーションにおいて、シーンの曖昧さ、環境外乱、動的な物体変換に悩まされることが多い。この問題に対処するため、我々は生物学的な脳のナビゲーション機構(グリッド細胞、場所細胞、頭部方向細胞など)に触発され、新しい神経生物学的カメラ位置特定法、すなわちNeuroLocを提案する。まず、場所細胞によって駆動されるヘッブ学習モジュールを設計し、履歴情報を保存・再生することで、履歴表現の詳細を復元し、シーンのファジィ性の問題を解決することを目指す。次に、頭部方向セルから着想を得た内部方向学習を多頭注意埋め込みとして利用し、類似シーンにおける真の方向の復元を支援した。最後に、最終的な間違った予測を減らすために、姿勢回帰モジュールに3Dグリッド中心予測を追加した。提案するNeuroLocを、一般的に使用される屋内外のベンチマークデータセットで評価する。実験の結果、提案するNeuroLocは、複雑な環境におけるロバスト性を向上させ、1枚の画像のみを用いることで姿勢回帰の性能を向上させることができることが示された。

要約(オリジナル)

Recently, camera localization has been widely adopted in autonomous robotic navigation due to its efficiency and convenience. However, autonomous navigation in unknown environments often suffers from scene ambiguity, environmental disturbances, and dynamic object transformation in camera localization. To address this problem, inspired by the biological brain navigation mechanism (such as grid cells, place cells, and head direction cells), we propose a novel neurobiological camera location method, namely NeuroLoc. Firstly, we designed a Hebbian learning module driven by place cells to save and replay historical information, aiming to restore the details of historical representations and solve the issue of scene fuzziness. Secondly, we utilized the head direction cell-inspired internal direction learning as multi-head attention embedding to help restore the true orientation in similar scenes. Finally, we added a 3D grid center prediction in the pose regression module to reduce the final wrong prediction. We evaluate the proposed NeuroLoc on commonly used benchmark indoor and outdoor datasets. The experimental results show that our NeuroLoc can enhance the robustness in complex environments and improve the performance of pose regression by using only a single image.

arxiv情報

著者 Xun Li,Jian Yang,Fenli Jia,Muyu Wang,Qi Wu,Jun Wu,Jinpeng Mi,Jilin Hu,Peidong Liang,Xuan Tang,Ke Li,Xiong You,Xian Wei
発行日 2025-05-02 08:47:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.NE, cs.RO | NeuroLoc: Encoding Navigation Cells for 6-DOF Camera Localization はコメントを受け付けていません

$X^2$-DFD: A framework for eXplainable and eXtendable Deepfake Detection

要約

ディープフェイクの検出は重要な課題となっている。既存の検出手法のほとんどは、人間が理解できる説明を提供することなく、本物か偽物かの予測のみを提供する。ディープフェイク検出にMLLMを活用した最近の研究では、説明可能性の向上が示されている。しかし、事前に訓練されたMLLM(例えば、LLaVA)の性能は、このタスクに対するMLLMの能力とそれを強化する戦略に対する理解が不足しているため、依然として限定的である。本研究では、特に偽造特徴分析によるディープフェイク検出におけるMLLMの長所と短所を実証的に評価する。これらの評価に基づき、3つのコアモジュールから構成される${X}^2$-DFDと呼ばれる新しいフレームワークを提案する。最初のモジュールであるモデル特徴評価(MFA)は、MLLMに内在する偽造特徴の検出能力を測定し、これらの特徴の降順ランキングを与える。2番目のモジュールである強力特徴強化(SFS)は、上位にランク付けされた特徴に基づいて構築されたデータセット上でMLLMを微調整することにより、検出および説明能力を強化する。第3のモジュールであるWeak Feature Supplementing (WFS)は、外部の専用ディープフェイク検出器を統合することで、微調整されたMLLMの低ランク特徴に対する能力を向上させる。本フレームワークの有効性を検証するため、MFAモジュールには、自動化された偽造特徴生成、評価、およびランク付け手順を設計し、SFSモデルには、上位にランク付けされた特徴に基づく説明付きの実画像と偽造画像を含む微調整データセットの自動生成手順を開発し、WFSモジュールには、事前学習されたMLLMの低い検出能力に対応するブレンドアーチファクトに焦点を当てた外部の従来のディープフェイク検出器を統合した、実用的な実装を示す。実験により、我々のアプローチが検出と説明の両方の性能を向上させることが示された。

要約(オリジナル)

Detecting deepfakes has become an important task. Most existing detection methods provide only real/fake predictions without offering human-comprehensible explanations. Recent studies leveraging MLLMs for deepfake detection have shown improvements in explainability. However, the performance of pre-trained MLLMs (e.g., LLaVA) remains limited due to a lack of understanding of their capabilities for this task and strategies to enhance them. In this work, we empirically assess the strengths and weaknesses of MLLMs specifically in deepfake detection via forgery features analysis. Building on these assessments, we propose a novel framework called ${X}^2$-DFD, consisting of three core modules. The first module, Model Feature Assessment (MFA), measures the detection capabilities of forgery features intrinsic to MLLMs, and gives a descending ranking of these features. The second module, Strong Feature Strengthening (SFS), enhances the detection and explanation capabilities by fine-tuning the MLLM on a dataset constructed based on the top-ranked features. The third module, Weak Feature Supplementing (WFS), improves the fine-tuned MLLM’s capabilities on lower-ranked features by integrating external dedicated deepfake detectors. To verify the effectiveness of this framework, we further present a practical implementation, where an automated forgery features generation, evaluation, and ranking procedure is designed for MFA module; an automated generation procedure of the fine-tuning dataset containing real and fake images with explanations based on top-ranked features is developed for SFS model; an external conventional deepfake detector focusing on blending artifact, which corresponds to a low detection capability in the pre-trained MLLM, is integrated for WFS module. Experiments show that our approach enhances both detection and explanation performance.

arxiv情報

著者 Yize Chen,Zhiyuan Yan,Siwei Lyu,Baoyuan Wu
発行日 2025-05-02 08:48:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | $X^2$-DFD: A framework for eXplainable and eXtendable Deepfake Detection はコメントを受け付けていません

ADAPT: An Autonomous Forklift for Construction Site Operation

要約

効率的な資材ロジスティクスは、建設業界のコストとスケジュールを管理する上で重要な役割を果たす。しかし、手作業による資材運搬は、依然として非効率、遅延、安全リスクを引き起こしやすい。自律型フォークリフトは、現場物流を合理化する有望な解決策を提供し、人間のオペレーターへの依存を減らし、労働力不足を緩和する。本稿では、建設環境向けに設計された完全自律型オフロードフォークリフトADAPT(Autonomous Dynamic All-terrain Pallet Transporter)の開発と評価を紹介する。構造化された倉庫環境とは異なり、建設現場は、動的な障害物、構造化されていない地形、変化する天候条件など、大きな課題をもたらす。これらの課題に対処するため、我々のシステムは、AI主導の知覚技術を、意思決定、計画、制御のための従来のアプローチと統合し、複雑な環境での信頼性の高い操作を可能にする。我々は、様々な気象条件下で、経験豊富な人間のオペレーターと継続的なパフォーマンスを比較し、広範な実世界テストを通じてシステムを検証した。我々の発見は、自律型屋外フォークリフトが人間レベルに近い性能で運転できることを実証し、より安全で効率的な建設物流に向けた実行可能な道を提供する。

要約(オリジナル)

Efficient material logistics play a critical role in controlling costs and schedules in the construction industry. However, manual material handling remains prone to inefficiencies, delays, and safety risks. Autonomous forklifts offer a promising solution to streamline on-site logistics, reducing reliance on human operators and mitigating labor shortages. This paper presents the development and evaluation of ADAPT (Autonomous Dynamic All-terrain Pallet Transporter), a fully autonomous off-road forklift designed for construction environments. Unlike structured warehouse settings, construction sites pose significant challenges, including dynamic obstacles, unstructured terrain, and varying weather conditions. To address these challenges, our system integrates AI-driven perception techniques with traditional approaches for decision making, planning, and control, enabling reliable operation in complex environments. We validate the system through extensive real-world testing, comparing its continuous performance against an experienced human operator across various weather conditions. Our findings demonstrate that autonomous outdoor forklifts can operate near human-level performance, offering a viable path toward safer and more efficient construction logistics.

arxiv情報

著者 Johannes Huemer,Markus Murschitz,Matthias Schörghuber,Lukas Reisinger,Thomas Kadiofsky,Christoph Weidinger,Mario Niedermeyer,Benedikt Widy,Marcel Zeilinger,Csaba Beleznai,Tobias Glück,Andreas Kugi,Patrik Zips
発行日 2025-05-02 09:17:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO, cs.SY, eess.SY | ADAPT: An Autonomous Forklift for Construction Site Operation はコメントを受け付けていません