Do Not Trust Licenses You See: Dataset Compliance Requires Massive-Scale AI-Powered Lifecycle Tracing

要約

このペーパーでは、データセットの法的リスクは、ライセンス条件だけでは正確に評価できないと主張しています。
代わりに、データセットの再分配とその完全なライフサイクルの追跡が不可欠です。
ただし、このプロセスは、法律専門家が大規模に手動で処理するには複雑すぎます。
データセットの起源の追跡、再分配権の検証、および複数の段階で進化する法的リスクの評価には、人間の能力を超えるレベルの精度と効率が必要です。
この課題に対処するには、データセットの再分配を体系的に追跡し、コンプライアンスを分析し、法的リスクを特定できるAIエージェントが効果的に要求されます。
Nexusと呼ばれる自動データコンプライアンスシステムを開発し、AIがこれらのタスクを人間の専門家よりも高い精度、効率、費用対効果で実行できることを示しています。
このアプローチを使用した17,429のユニークなエンティティと8,072のライセンス条件の当社の大規模な法的分析は、再分配前の元のデータセットとその再配布されたサブセット間の法的権利の矛盾を明らかにし、データライフサイクルに認識されたコンプライアンスの必要性を強調しています。
たとえば、商業的に実行可能な個別のライセンス条件を持つ2,852のデータセットのうち、商業化には法的に許可されているのは605(21%)のみであることがわかります。
この作業は、AIデータガバナンスの新しい基準を設定し、データセットの再分配のライフサイクル全体を体系的に調べて、透明性、法的、責任あるデータセット管理を確保するフレームワークを提唱します。

要約(オリジナル)

This paper argues that a dataset’s legal risk cannot be accurately assessed by its license terms alone; instead, tracking dataset redistribution and its full lifecycle is essential. However, this process is too complex for legal experts to handle manually at scale. Tracking dataset provenance, verifying redistribution rights, and assessing evolving legal risks across multiple stages require a level of precision and efficiency that exceeds human capabilities. Addressing this challenge effectively demands AI agents that can systematically trace dataset redistribution, analyze compliance, and identify legal risks. We develop an automated data compliance system called NEXUS and show that AI can perform these tasks with higher accuracy, efficiency, and cost-effectiveness than human experts. Our massive legal analysis of 17,429 unique entities and 8,072 license terms using this approach reveals the discrepancies in legal rights between the original datasets before redistribution and their redistributed subsets, underscoring the necessity of the data lifecycle-aware compliance. For instance, we find that out of 2,852 datasets with commercially viable individual license terms, only 605 (21%) are legally permissible for commercialization. This work sets a new standard for AI data governance, advocating for a framework that systematically examines the entire lifecycle of dataset redistribution to ensure transparent, legal, and responsible dataset management.

arxiv情報

著者 Jaekyeom Kim,Sungryull Sohn,Gerrard Jeongwon Jo,Jihoon Choi,Kyunghoon Bae,Hwayoung Lee,Yongmin Park,Honglak Lee
発行日 2025-03-14 16:58:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Do Not Trust Licenses You See: Dataset Compliance Requires Massive-Scale AI-Powered Lifecycle Tracing はコメントを受け付けていません

Master Stability Functions in Complex Networks

要約

同期は、自然界および設計されたシステムにおける緊急で基本的な現象です。
同期された現象の安定性を理解することは、さまざまな複雑なシステムで機能を確保するために重要です。
同期現象の安定性は、マスター安定性関数(MSF)を使用して広範囲に研究されています。
この強力でエレガントなツールは、同期状態の安定性を決定する上で極めて重要な役割を果たし、結合システムの同期に関する深い洞察を提供します。
MSF分析は同期状態の安定性を研究するために25年間使用されてきましたが、さまざまなネットワーク化されたシステムにわたるMSFの体系的な調査は、文献から欠落しています。
この記事では、多様な無向および指示ネットワークシステムのための簡素化された統一されたMSF分析を紹介します。
拡散的で自然な結合スキームを備えたペアワイズ結合同一システムの分析MSFフレームワークから始め、分析を指示されたネットワークと多層ネットワークに拡張します。
さらに、MSFフレームワークを再訪して、ペアワイズ相互作用とともに高次の相互作用を組み込みます。
理解を向上させるために、ペアワイズ拡散カップリングの下で​​結合されたr \ ‘osslerシステムの同期の数値分析を提供し、MSFを決定し、安定性レジームを特定し、MSF関数を分類するためのアルゴリズムを提案します。
全体として、このレビューの主な目標は、結合された動的ネットワークでのMSFの体系的な研究を明確で構造化された方法で提示し、この強力なツールをよりアクセスしやすくすることです。
さらに、MSFを使用した同期状態の研究が未掘削装置のままであるケースを強調します。
さらに、時系列データと機械学習アプローチを使用してMSF分析に焦点を当てた最近の研究について説明します。

要約(オリジナル)

Synchronization is an emergent and fundamental phenomenon in nature and engineered systems. Understanding the stability of a synchronized phenomenon is crucial for ensuring functionality in various complex systems. The stability of the synchronization phenomenon is extensively studied using the Master Stability Function (MSF). This powerful and elegant tool plays a pivotal role in determining the stability of synchronization states, providing deep insights into synchronization in coupled systems. Although MSF analysis has been used for 25 years to study the stability of synchronization states, a systematic investigation of MSF across various networked systems remains missing from the literature. In this article, we present a simplified and unified MSF analysis for diverse undirected and directed networked systems. We begin with the analytical MSF framework for pairwise-coupled identical systems with diffusive and natural coupling schemes and extend our analysis to directed networks and multilayer networks, considering both intra-layer and inter-layer interactions. Furthermore, we revisit the MSF framework to incorporate higher-order interactions alongside pairwise interactions. To enhance understanding, we also provide a numerical analysis of synchronization in coupled R\’ossler systems under pairwise diffusive coupling and propose algorithms for determining the MSF, identifying stability regimes, and classifying MSF functions. Overall, the primary goal of this review is to present a systematic study of MSF in coupled dynamical networks in a clear and structured manner, making this powerful tool more accessible. Furthermore, we highlight cases where the study of synchronization states using MSF remains underexplored. Additionally, we discuss recent research focusing on MSF analysis using time series data and machine learning approaches.

arxiv情報

著者 Suman Acharyya,Priodyuti Pradhan,Chandrakala Meena
発行日 2025-03-14 17:23:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, nlin.AO, nlin.CD | Master Stability Functions in Complex Networks はコメントを受け付けていません

ASMA-Tune: Unlocking LLMs’ Assembly Code Comprehension via Structural-Semantic Instruction Tuning

要約

アセンブリコードの分析と理解は、リバースエンジニアリングなど、さまざまなアプリケーションで重要です。
ただし、情報密度が低く、アセンブリコードの明示的な構文構造の欠如は、重要な課題をもたらします。
マスクされた言語モデリング(MLM)ベースの方法を使用した先駆的なアプローチは、自然言語の相互作用を促進することにより制限されています。
デコーダー中心の大手言語モデル(LLM)に基づく最近の方法は、セマンティック表現を大幅に強化していますが、アセンブリコードで微妙でまばらなセマンティクスをキャプチャするのに苦労しています。
このホワイトペーパーでは、エンドツーエンドの構造セマンティック命令調整フレームワークであるアセンブリ拡張チューニング(ASMA-Tune)を提案します。
当社のアプローチは、包括的なコード理解を可能にするために、プロジェクターモジュールを介してデコーダーベースのLLMSを使用してエンコーダーアーキテクチャを相乗化します。
実験では、ASMA-Tuneが既存のベンチマークを上回り、アセンブリコードの理解と命令に従う能力を大幅に向上させることが示されています。
モデルとデータセットはhttps://github.com/wxy3596/asma-tuneで公開されています。

要約(オリジナル)

Analysis and comprehension of assembly code are crucial in various applications, such as reverse engineering. However, the low information density and lack of explicit syntactic structures in assembly code pose significant challenges. Pioneering approaches with masked language modeling (MLM)-based methods have been limited by facilitating natural language interaction. While recent methods based on decoder-focused large language models (LLMs) have significantly enhanced semantic representation, they still struggle to capture the nuanced and sparse semantics in assembly code. In this paper, we propose Assembly Augmented Tuning (ASMA-Tune), an end-to-end structural-semantic instruction-tuning framework. Our approach synergizes encoder architectures with decoder-based LLMs through projector modules to enable comprehensive code understanding. Experiments show that ASMA-Tune outperforms existing benchmarks, significantly enhancing assembly code comprehension and instruction-following abilities. Our model and dataset are public at https://github.com/wxy3596/ASMA-Tune.

arxiv情報

著者 Xinyi Wang,Jiashui Wang,Peng Chen,Jinbo Su,Yanming Liu,Long Liu,Yangdong Wang,Qiyuan Chen,Kai Yun,Chunfu Jia
発行日 2025-03-14 17:36:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | ASMA-Tune: Unlocking LLMs’ Assembly Code Comprehension via Structural-Semantic Instruction Tuning はコメントを受け付けていません

Enhancing Deep Learning Based Structured Illumination Microscopy Reconstruction with Light Field Awareness

要約

構造化された照明顕微鏡(SIM)は、生細胞の動的な細胞内イメージングのための極めて重要な手法です。
従来のSIM再構成アルゴリズムは、照明パターンの正確な推定に依存し、この推定が不正確な場合にアーティファクトを導入できます。
最近の深い学習ベースのSIM再構成方法は速度、精度、堅牢性が向上しましたが、多くの場合、分散型のデータと格闘しています。
この制限に対処するために、データ分布シフトから生じるエラーを直接修正するために実際の光場を直接推定する光フィールドSIM(AL-SIM)再構成アプローチの認識を提案します。
シミュレートされたフィラメント構造とライブBSC1セルの両方での包括的な実験を通じて、我々の方法は正規化された根平均誤差(NRMSE)の7%の減少を示し、再構築のアーチファクトを大幅に低下させます。
これらのアーティファクトを最小限に抑え、全体的な精度を向上させることにより、AL-SIMは複雑な生物学的システムに対するSIMの適用性を拡大します。

要約(オリジナル)

Structured illumination microscopy (SIM) is a pivotal technique for dynamic subcellular imaging in live cells. Conventional SIM reconstruction algorithms depend on accurately estimating the illumination pattern and can introduce artefacts when this estimation is imprecise. Although recent deep learning-based SIM reconstruction methods have improved speed, accuracy, and robustness, they often struggle with out-of-distribution data. To address this limitation, we propose an Awareness-of-Light-field SIM (AL-SIM) reconstruction approach that directly estimates the actual light field to correct for errors arising from data distribution shifts. Through comprehensive experiments on both simulated filament structures and live BSC1 cells, our method demonstrates a 7% reduction in the normalized root mean square error (NRMSE) and substantially lowers reconstruction artefacts. By minimizing these artefacts and improving overall accuracy, AL-SIM broadens the applicability of SIM for complex biological systems.

arxiv情報

著者 Long-Kun Shan,Ze-Hao Wang,Tong-Tian Weng,Xiang-Dong Chen,Fang-Wen Sun
発行日 2025-03-14 17:56:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, physics.optics | Enhancing Deep Learning Based Structured Illumination Microscopy Reconstruction with Light Field Awareness はコメントを受け付けていません

BEVDiffLoc: End-to-End LiDAR Global Localization in BEV View based on Diffusion Model

要約

ローカリゼーションは、現代のロボット工学の中核部分の1つです。
通常、古典的なローカリゼーション方法は、取得してから登録されたパラダイムに従い、驚くべき成功を達成します。
最近、エンドツーエンドのローカリゼーションアプローチの出現により、合理化されたシステムアーキテクチャや広範なMAPデータを保存する必要性の排除など、明確な利点が提供されました。
これらの方法は有望な結果を実証していますが、現在のエンドツーエンドのローカリゼーションアプローチは、堅牢性と精度の制限に依然として直面しています。
Bird’seye-View(BEV)画像は、自律運転で最も広く採用されているデータ表現の1つです。
空間構造とスケールの一貫性を維持しながら、データの複雑さを大幅に削減し、ローカリゼーションタスクの理想的な表現となっています。
ただし、BEVベースのエンドツーエンドのローカリゼーションに関する研究は、依然として不十分です。
このギャップを埋めるために、リダーのローカリゼーションを条件付きのポーズとして定式化する新しいフレームワークであるBevdifflocを提案します。
BEVの特性を活用して、最初に特定のデータ増強方法を導入して、入力データの多様性を大幅に強化します。
次に、最大機能集約モジュールと視覚変圧器を使用して、堅牢な機能を学習しながら、重要な回転ビューのバリエーションに対して堅牢性を維持します。
最後に、学習された機能を繰り返し洗練して絶対ポーズを回復する拡散モデルを組み込みます。
Oxford Radar RobotcarおよびNCLTデータセットに関する広範な実験は、Bevdifflocがベースラインメソッドよりも優れていることを示しています。
私たちのコードは、https://github.com/nubot-nudt/bevdifflocで入手できます。

要約(オリジナル)

Localization is one of the core parts of modern robotics. Classic localization methods typically follow the retrieve-then-register paradigm, achieving remarkable success. Recently, the emergence of end-to-end localization approaches has offered distinct advantages, including a streamlined system architecture and the elimination of the need to store extensive map data. Although these methods have demonstrated promising results, current end-to-end localization approaches still face limitations in robustness and accuracy. Bird’s-Eye-View (BEV) image is one of the most widely adopted data representations in autonomous driving. It significantly reduces data complexity while preserving spatial structure and scale consistency, making it an ideal representation for localization tasks. However, research on BEV-based end-to-end localization remains notably insufficient. To fill this gap, we propose BEVDiffLoc, a novel framework that formulates LiDAR localization as a conditional generation of poses. Leveraging the properties of BEV, we first introduce a specific data augmentation method to significantly enhance the diversity of input data. Then, the Maximum Feature Aggregation Module and Vision Transformer are employed to learn robust features while maintaining robustness against significant rotational view variations. Finally, we incorporate a diffusion model that iteratively refines the learned features to recover the absolute pose. Extensive experiments on the Oxford Radar RobotCar and NCLT datasets demonstrate that BEVDiffLoc outperforms the baseline methods. Our code is available at https://github.com/nubot-nudt/BEVDiffLoc.

arxiv情報

著者 Ziyue Wang,Chenghao Shi,Neng Wang,Qinghua Yu,Xieyuanli Chen,Huimin Lu
発行日 2025-03-14 13:17:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | BEVDiffLoc: End-to-End LiDAR Global Localization in BEV View based on Diffusion Model はコメントを受け付けていません

Deepfake Detection of Face Images based on a Convolutional Neural Network

要約

偽のニュース、特にディープフェイク(生成された、非現実的な画像またはビデオコンテンツ)は、過去数年間にわたって深刻なトピックになりました。
機械学習アルゴリズムの出現により、個人的な人であっても、このような偽のコンテンツを生成することがこれまで以上に簡単になりました。
生成された偽の画像のこの問題は、政治や公人の文脈で特に重要です。
畳み込みニューラルネットワークに基づいてモデルを構築することにより、この競合に対処し、人間の肖像画を示すこのような生成された偽の画像を検出したいと考えています。
基礎として、画像の分類という点での有効性のため、事前に訓練されたResNet-50モデルを使用します。
次に、画像の信頼性を示す単一のニューロンを含む完全に接続された出力層を追加することにより、単一の画像を本物/本物または偽物として分類するというタスクに基本モデルを採用しました。
モデルを開発し、そのパラメーターを改善するために、微調整と転送学習を適用しました。
トレーニングプロセスのために、画像のデータセット「多様なフェイスフェイクデータセット」を収集しました。これは、画像上に見える顔の観点から、さまざまな画像操作方法と多様性を含む。
最終モデルを使用すると、次の優れたパフォーマンスメトリックに到達しました。Precision= 0.98、Recall 0.96、F1-Score = 0.97、およびAnea Under-Curve = 0.99です。

要約(オリジナル)

Fake News and especially deepfakes (generated, non-real image or video content) have become a serious topic over the last years. With the emergence of machine learning algorithms it is now easier than ever before to generate such fake content, even for private persons. This issue of generated fake images is especially critical in the context of politics and public figures. We want to address this conflict by building a model based on a Convolutions Neural Network in order to detect such generated and fake images showing human portraits. As a basis, we use a pre-trained ResNet-50 model due to its effectiveness in terms of classifying images. We then adopted the base model to our task of classifying a single image as authentic/real or fake by adding an fully connected output layer containing a single neuron indicating the authenticity of an image. We applied fine tuning and transfer learning to develop the model and improve its parameters. For the training process we collected the image data set ‘Diverse Face Fake Dataset’ containing a wide range of different image manipulation methods and also diversity in terms of faces visible on the images. With our final model we reached the following outstanding performance metrics: precision = 0.98, recall 0.96, F1-Score = 0.97 and an area-under-curve = 0.99.

arxiv情報

著者 Lukas Kroiß,Johannes Reschke
発行日 2025-03-14 13:33:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Deepfake Detection of Face Images based on a Convolutional Neural Network はコメントを受け付けていません

Watch and Learn: Leveraging Expert Knowledge and Language for Surgical Video Understanding

要約

自動手術ワークフロー分析は、教育、研究、臨床的意思決定には重要ですが、注釈付きデータセットの欠如は、正確で包括的なワークフロー分析ソリューションの開発を妨げます。
専門家を見て説明を理解するという人間の学習手順に触発された注釈付きトレーニングデータのスパースと不均一性に対処するための新しいアプローチを紹介します。
私たちの方法は、短期的な時点およびマルチモーダル表現を学ぶために、アライメント、除去、および生成タスクについて訓練されたビデオ言語モデルを活用しています。
次に、タスク固有の時間モデルを使用して、ビデオ全体にわたって関係をキャプチャします。
外科ドメインで包括的なビデオ言語の理解を深めるために、教育的なYouTubeビデオから大規模な事前トレーニングデータセットを構築するためのデータ収集とフィルタリング戦略を紹介します。
次に、公的に利用可能な外科的データセットから言語ドメインにダウンストリームタスク注釈を投影することにより、パラメーター効率の高い微調整を利用します。
2つの外科的ドメインでの広範な実験は、私たちのアプローチの有効性を示しており、位相セグメンテーションタスクで最大7%、ゼロショット相セグメンテーションで8%、少数のショット設定で完全に監視されたモデルに匹敵する機能を向上させます。
長距離の時間的ローカリゼーションとテキスト生成のためのモデルの機能を活用して、外科ドメインに既存のDVCデータセットが存在しないにもかかわらず、このタスクに対処するために、外科ビデオの密なビデオキャプション(DVC)の最初の包括的なソリューションを紹介します。
ビデオ言語の事前トレーニング、大規模なビデオ事前トレーニング、および最適化された微調整を活用する外科用ワークフロー理解に新しいアプローチを紹介します。
私たちの方法は、最先端の技術よりもパフォーマンスを向上させ、外科的ビデオ理解のための新しいダウンストリームタスクを可能にします。

要約(オリジナル)

Automated surgical workflow analysis is crucial for education, research, and clinical decision-making, but the lack of annotated datasets hinders the development of accurate and comprehensive workflow analysis solutions. We introduce a novel approach for addressing the sparsity and heterogeneity of annotated training data inspired by the human learning procedure of watching experts and understanding their explanations. Our method leverages a video-language model trained on alignment, denoising, and generative tasks to learn short-term spatio-temporal and multimodal representations. A task-specific temporal model is then used to capture relationships across entire videos. To achieve comprehensive video-language understanding in the surgical domain, we introduce a data collection and filtering strategy to construct a large-scale pretraining dataset from educational YouTube videos. We then utilize parameter-efficient fine-tuning by projecting downstream task annotations from publicly available surgical datasets into the language domain. Extensive experiments in two surgical domains demonstrate the effectiveness of our approach, with performance improvements of up to 7% in phase segmentation tasks, 8% in zero-shot phase segmentation, and comparable capabilities to fully-supervised models in few-shot settings. Harnessing our model’s capabilities for long-range temporal localization and text generation, we present the first comprehensive solution for dense video captioning (DVC) of surgical videos, addressing this task despite the absence of existing DVC datasets in the surgical domain. We introduce a novel approach to surgical workflow understanding that leverages video-language pretraining, large-scale video pretraining, and optimized fine-tuning. Our method improves performance over state-of-the-art techniques and enables new downstream tasks for surgical video understanding.

arxiv情報

著者 David Gastager,Ghazal Ghazaei,Constantin Patsch
発行日 2025-03-14 13:36:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Watch and Learn: Leveraging Expert Knowledge and Language for Surgical Video Understanding はコメントを受け付けていません

Towards Sample-specific Backdoor Attack with Clean Labels via Attribute Trigger

要約

現在、サンプル固有のバックドア攻撃(SSBA)は、現在のバックドア防御のほとんどを簡単に回避できるため、最も高度で悪意のある方法です。
この論文では、SSBAは、毒界の性質のために十分にステルスではないことを明らかにします。ここでは、ユーザーが画像界の関係をチェックすると異常を発見できます。
特に、ターゲットクラスのみからサンプルを中毒することにより、既存のSSBAをクリーンラベルバリアントに直接一般化することは効果がないことを実証します。
\ textBf {(1)}を含む2つの理由が原因であることを明らかにします。グラウンドトゥルース機能の「拮抗効果」と\ textBf {(2)}サンプル固有の特徴の学習難易度。
したがって、既存のSSBAのトリガー関連の機能は、ステルス性を確保するために必要な軽度のトリガー強度のため、クリーンラベル設定の下で効果的に学習することはできません。
既存のSSBAの強度の制約は、そのトリガーパターンが「コンテンツと無関係」であり、したがって人間とDNNの両方で「ノイズ」として機能するためであると主張します。
この理解に動機付けられて、私たちは、クリーンラベルSSBASを設計するトリガーパターンとして、コンテンツに関連する機能、$ a.k.a. $(人間による)属性を活用することを提案します。
この新しい攻撃パラダイムは、属性トリガー(BAAT)を備えたバックドア攻撃と呼ばれます。
ベンチマークデータセットで広範な実験が行われ、BAATの有効性と既存の防御に対する抵抗が検証されます。

要約(オリジナル)

Currently, sample-specific backdoor attacks (SSBAs) are the most advanced and malicious methods since they can easily circumvent most of the current backdoor defenses. In this paper, we reveal that SSBAs are not sufficiently stealthy due to their poisoned-label nature, where users can discover anomalies if they check the image-label relationship. In particular, we demonstrate that it is ineffective to directly generalize existing SSBAs to their clean-label variants by poisoning samples solely from the target class. We reveal that it is primarily due to two reasons, including \textbf{(1)} the `antagonistic effects’ of ground-truth features and \textbf{(2)} the learning difficulty of sample-specific features. Accordingly, trigger-related features of existing SSBAs cannot be effectively learned under the clean-label setting due to their mild trigger intensity required for ensuring stealthiness. We argue that the intensity constraint of existing SSBAs is mostly because their trigger patterns are `content-irrelevant’ and therefore act as `noises’ for both humans and DNNs. Motivated by this understanding, we propose to exploit content-relevant features, $a.k.a.$ (human-relied) attributes, as the trigger patterns to design clean-label SSBAs. This new attack paradigm is dubbed backdoor attack with attribute trigger (BAAT). Extensive experiments are conducted on benchmark datasets, which verify the effectiveness of our BAAT and its resistance to existing defenses.

arxiv情報

著者 Mingyan Zhu,Yiming Li,Junfeng Guo,Tao Wei,Shu-Tao Xia,Zhan Qin
発行日 2025-03-14 13:36:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG | Towards Sample-specific Backdoor Attack with Clean Labels via Attribute Trigger はコメントを受け付けていません

RectifiedHR: Enable Efficient High-Resolution Image Generation via Energy Rectification

要約

拡散モデルは、さまざまな画像生成タスクで顕著な進歩を達成しています。
ただし、トレーニング期間中に使用されたものよりも高い解像度で画像を生成すると、パフォーマンスは著しく低下します。
高解像度の画像を生成するための多数の方法が存在しているにもかかわらず、それらは非効率性に苦しむか、複雑な操作によって妨げられています。
この論文では、トレーニングのない高解像度の画像生成のための簡単で効率的なソリューションであるRectifiedHrを提案します。
具体的には、モデルの高解像度の生成能力のロックを解除し、効率を改善するために、理論的には数行のコードのみが必要なノイズリフレッシュ戦略を導入します。
さらに、最初に、高解像度の画像生成プロセス中に画像のぼやきを引き起こす可能性のあるエネルギー崩壊の現象を観察します。
この問題に対処するために、平均潜在エネルギー分析を導入し、改善された分類器のないガイダンスハイパーパラメーターが生成パフォーマンスを大幅に向上させることができることを発見します。
私たちの方法は完全にトレーニングなしであり、簡単な実装ロジックと効率的なパフォーマンスを誇っています。
多数のベースライン方法との広範な比較を通じて、当社のRectifiedHRは優れた有効性と効率性を示しています。

要約(オリジナル)

Diffusion models have achieved remarkable advances in various image generation tasks. However, their performance notably declines when generating images at resolutions higher than those used during the training period. Despite the existence of numerous methods for producing high-resolution images, they either suffer from inefficiency or are hindered by complex operations. In this paper, we propose RectifiedHR, an straightforward and efficient solution for training-free high-resolution image generation. Specifically, we introduce the noise refresh strategy, which theoretically only requires a few lines of code to unlock the model’s high-resolution generation ability and improve efficiency. Additionally, we first observe the phenomenon of energy decay that may cause image blurriness during the high-resolution image generation process. To address this issue, we introduce average latent energy analysis and discover that an improved classifier-free guidance hyperparameter can significantly enhance generation performance. Our method is entirely training-free and boasts a simple implementation logic and efficient performance. Through extensive comparisons with numerous baseline methods, our RectifiedHR demonstrates superior effectiveness and efficiency.

arxiv情報

著者 Zhen Yang,Guibao Shen,Liang Hou,Mushui Liu,Luozhou Wang,Xin Tao,Pengfei Wan,Di Zhang,Ying-Cong Chen
発行日 2025-03-14 13:40:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | RectifiedHR: Enable Efficient High-Resolution Image Generation via Energy Rectification はコメントを受け付けていません

A Framework for a Capability-driven Evaluation of Scenario Understanding for Multimodal Large Language Models in Autonomous Driving

要約

マルチモーダル大手言語モデル(MLLM)は、ドメインに依存しない世界知識とコンテキスト固有の言語ガイダンスを組み合わせることにより、自律運転を強化する可能性を秘めています。
自律運転システムへの統合は、孤立した概念実証アプリケーションで有望な結果を示し、そのパフォーマンスは、知覚、推論、または計画の選択的な特異な側面で評価されます。
自律運転のコンテキストでMLLMを評価するための体系的なフレームワークを最大限に活用することが必要です。
このペーパーでは、自律運転におけるMLLMの能力駆動型評価のための全体的な枠組みを提案します。
フレームワークは、4つのコア機能ディメンションセマンティック、空間、時間、および物理に沿ったシナリオの理解を構成します。
それらは、自律駆動システム、人間のドライバー認知、言語ベースの推論の一般的な要件から派生しています。
さらに、ドメインをコンテキストレイヤー、モダリティの処理、および言語ベースの相互作用や意思決定などの下流タスクに整理します。
フレームワークの適用性を説明するために、2つの模範的なトラフィックシナリオが分析され、現実的な運転状況で提案された次元を接地します。
このフレームワークは、自律運転におけるシナリオ理解のためのMLLMの可能性の構造化された評価の基盤を提供します。

要約(オリジナル)

Multimodal large language models (MLLMs) hold the potential to enhance autonomous driving by combining domain-independent world knowledge with context-specific language guidance. Their integration into autonomous driving systems shows promising results in isolated proof-of-concept applications, while their performance is evaluated on selective singular aspects of perception, reasoning, or planning. To leverage their full potential a systematic framework for evaluating MLLMs in the context of autonomous driving is required. This paper proposes a holistic framework for a capability-driven evaluation of MLLMs in autonomous driving. The framework structures scenario understanding along the four core capability dimensions semantic, spatial, temporal, and physical. They are derived from the general requirements of autonomous driving systems, human driver cognition, and language-based reasoning. It further organises the domain into context layers, processing modalities, and downstream tasks such as language-based interaction and decision-making. To illustrate the framework’s applicability, two exemplary traffic scenarios are analysed, grounding the proposed dimensions in realistic driving situations. The framework provides a foundation for the structured evaluation of MLLMs’ potential for scenario understanding in autonomous driving.

arxiv情報

著者 Tin Stribor Sohn,Philipp Reis,Maximilian Dillitzer,Johannes Bach,Jason J. Corso,Eric Sax
発行日 2025-03-14 13:43:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | A Framework for a Capability-driven Evaluation of Scenario Understanding for Multimodal Large Language Models in Autonomous Driving はコメントを受け付けていません