PSDiffusion: Harmonized Multi-Layer Image Generation via Layout and Appearance Alignment

要約

拡散モデルは、テキストの説明から高品質の画像を生成する際に顕著な進歩を遂げました。
LayerDiffuseのような最近の作品は、以前の単一層の統一された画像生成パラダイムを透明な画像層生成に拡張しました。
ただし、既存のマルチレイヤー生成方法は、合理的なグローバルレイアウト、物理学的に対応可能な接触、影や反射などの視覚効果などの複数のレイヤー間の相互作用を処理できません。
この問題を解決するために、同時多層テキストからイメージの生成のための統一された拡散フレームワークであるpsdiffusionを提案します。
私たちのモデルは、単一のフィードフォワードプロセスを通じて、1つのRGBバックグラウンドと複数のRGBAフォアグラウンドを備えたマルチレイヤー画像を自動的に生成できます。
廃止後の複数のツールを組み合わせたり、層を連続的かつ個別に生成する既存の方法とは異なり、私たちの方法は、層状イメージを同時に共同で生成するグローバル層インタラクティブメカニズムを導入し、各レイヤーの高品質と完全性だけでなく、グローバルな共同体の層の間の空間的および視覚的相互作用を確保します。

要約(オリジナル)

Diffusion models have made remarkable advancements in generating high-quality images from textual descriptions. Recent works like LayerDiffuse have extended the previous single-layer, unified image generation paradigm to transparent image layer generation. However, existing multi-layer generation methods fail to handle the interactions among multiple layers such as rational global layout, physics-plausible contacts and visual effects like shadows and reflections while maintaining high alpha quality. To solve this problem, we propose PSDiffusion, a unified diffusion framework for simultaneous multi-layer text-to-image generation. Our model can automatically generate multi-layer images with one RGB background and multiple RGBA foregrounds through a single feed-forward process. Unlike existing methods that combine multiple tools for post-decomposition or generate layers sequentially and separately, our method introduces a global-layer interactive mechanism that generates layered-images concurrently and collaboratively, ensuring not only high quality and completeness for each layer, but also spatial and visual interactions among layers for global coherence.

arxiv情報

著者 Dingbang Huang,Wenbo Li,Yifei Zhao,Xinyu Pan,Yanhong Zeng,Bo Dai
発行日 2025-05-16 17:23:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PSDiffusion: Harmonized Multi-Layer Image Generation via Layout and Appearance Alignment はコメントを受け付けていません

INSIGHT: Enhancing Autonomous Driving Safety through Vision-Language Models on Context-Aware Hazard Detection and Edge Case Evaluation

要約

自律駆動システムは、敵対的な歩行者の動き、危険な車両の操作、突然の環境の変化など、予測不可能なエッジケースシナリオの処理において大きな課題に直面しています。
現在のエンドツーエンドの運転モデル​​は、従来の検出と予測アプローチの制限により、これらのまれなイベントへの一般化と闘っています。
これに対処するために、ハザード検出とエッジケース評価を強化するために設計された階層ビジョン言語モデル(VLM)フレームワークである、洞察(一般化ハザード追跡のためのセマンティックおよび視覚入力の統合)を提案します。
マルチモーダルデータ融合を使用することにより、当社のアプローチはセマンティックと視覚の表現を統合し、運転シナリオの正確な解釈と潜在的な危険の正確な予測を可能にします。
VLMSの監視された微調整を通じて、注意ベースのメカニズムと調整回帰技術を使用して、空間ハザードのローカリゼーションを最適化します。
BDD100Kデータセットの実験結果は、既存のモデルよりもハザード予測の率直さと精度の大幅な改善を示し、一般化パフォーマンスの顕著な増加を達成します。
この進歩は、自律運転システムの堅牢性と安全性を高め、複雑な現実世界のシナリオでの状況認識と潜在的な意思決定を確保します。

要約(オリジナル)

Autonomous driving systems face significant challenges in handling unpredictable edge-case scenarios, such as adversarial pedestrian movements, dangerous vehicle maneuvers, and sudden environmental changes. Current end-to-end driving models struggle with generalization to these rare events due to limitations in traditional detection and prediction approaches. To address this, we propose INSIGHT (Integration of Semantic and Visual Inputs for Generalized Hazard Tracking), a hierarchical vision-language model (VLM) framework designed to enhance hazard detection and edge-case evaluation. By using multimodal data fusion, our approach integrates semantic and visual representations, enabling precise interpretation of driving scenarios and accurate forecasting of potential dangers. Through supervised fine-tuning of VLMs, we optimize spatial hazard localization using attention-based mechanisms and coordinate regression techniques. Experimental results on the BDD100K dataset demonstrate a substantial improvement in hazard prediction straightforwardness and accuracy over existing models, achieving a notable increase in generalization performance. This advancement enhances the robustness and safety of autonomous driving systems, ensuring improved situational awareness and potential decision-making in complex real-world scenarios.

arxiv情報

著者 Dianwei Chen,Zifan Zhang,Yuchen Liu,Xianfeng Terry Yang
発行日 2025-05-16 17:26:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | INSIGHT: Enhancing Autonomous Driving Safety through Vision-Language Models on Context-Aware Hazard Detection and Edge Case Evaluation はコメントを受け付けていません

CoMP: Continual Multimodal Pre-training for Vision Foundation Models

要約

事前に訓練されたVision Foundationモデル(VFM)は、幅広いアプリケーションに対して強力な視覚表現を提供します。
このホワイトペーパーでは、マルチモーダルな方法で継続的に訓練するVFMを継続的に事前に訓練し、さまざまなサイズの視覚入力を簡単に処理し、元のトレーニングプロセスに関係なく言語表現とより整合する視覚表現を生成できます。
この目的のために、慎重に設計されたマルチモーダルプリトレーニングパイプラインであるCompを紹介します。
COMPは、継続的な回転位置埋め込みを使用して、さまざまな解像度で視覚入力に対応し、視覚的な機能とテキスト機能の間のアライメント損失を適切に整列させ、より良いクロスモーダルアライメントに対応させます。
継続的なトレーニング前に、DinoV2、Siglip、AIMV2などの主要なVFMは、マルチモーダル理解タスクだけでなく、一般的な分類とセグメンテーションタスクにおいても顕著な改善を実現します。
驚くべきことに、Comp-Aimv2は0.5B LLMでChartqaで64.9のスコアを達成し、凍結チャンク評価下でImagenet-1Kで87.3%の精度とADE20Kで51.8 MIOUを維持します。

要約(オリジナル)

Pre-trained Vision Foundation Models (VFMs) provide strong visual representations for a wide range of applications. In this paper, we continually pre-train prevailing VFMs in a multimodal manner such that they can effortlessly process visual inputs of varying sizes and produce visual representations that are more aligned with language representations, regardless of their original pre-training process. To this end, we introduce CoMP, a carefully designed multimodal pre-training pipeline. CoMP uses a Continual Rotary Position Embedding to accommodate visual inputs with different resolutions, and an Alignment Loss between visual and textual features for better cross-modal alignment. After continual pre-training, leading VFMs like DINOv2, SigLIP and AIMv2 achieve remarkable improvements not only in multimodal understanding tasks but also in generic classification and segmentation tasks. Remarkably, CoMP-AIMv2 achieves scores of 64.9 on ChartQA with a 0.5B LLM, while maintaining an 87.3% accuracy on ImageNet-1K and a 51.8 mIoU on ADE20K under frozen chunk evaluation.

arxiv情報

著者 Yitong Chen,Lingchen Meng,Wujian Peng,Zuxuan Wu,Yu-Gang Jiang
発行日 2025-05-16 17:36:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CoMP: Continual Multimodal Pre-training for Vision Foundation Models はコメントを受け付けていません

Unsupervised Detection of Distribution Shift in Inverse Problems using Diffusion Models

要約

拡散モデルは、イメージングの逆の問題の事前に広く使用されています。
ただし、トレーニングとテスト時間画像の間の分布シフト下でのパフォーマンスはしばしば低下します。
分布シフトを識別および定量化するための既存の方法は、通常、逆の問題を解決している間はほとんど利用できないクリーンなテスト画像へのアクセスを必要とします(テスト時に)。
さまざまなデータセットでトレーニングされた拡散モデルからの間接(破損)測定とスコア関数のみを使用して、分布シフトを推定するための完全に監視されていないメトリックを提案します。
理論的には、このメトリックがトレーニングとテストの画像分布との間のKLの発散を推定することを示しています。
経験的には、スコアベースのメトリックは、破損した測定のみを使用して、クリーン画像から計算されたKL発散に密接に近似していることを示しています。
この結果に動機付けられているため、分散除外スコアを配置中のスコアに合わせると、破損した測定のみを使用してKLの発散が減少し、複数の逆問題にわたって再構成品質が向上することが示されます。

要約(オリジナル)

Diffusion models are widely used as priors in imaging inverse problems. However, their performance often degrades under distribution shifts between the training and test-time images. Existing methods for identifying and quantifying distribution shifts typically require access to clean test images, which are almost never available while solving inverse problems (at test time). We propose a fully unsupervised metric for estimating distribution shifts using only indirect (corrupted) measurements and score functions from diffusion models trained on different datasets. We theoretically show that this metric estimates the KL divergence between the training and test image distributions. Empirically, we show that our score-based metric, using only corrupted measurements, closely approximates the KL divergence computed from clean images. Motivated by this result, we show that aligning the out-of-distribution score with the in-distribution score — using only corrupted measurements — reduces the KL divergence and leads to improved reconstruction quality across multiple inverse problems.

arxiv情報

著者 Shirin Shoushtari,Edward P. Chandler,Yuanhao Wang,M. Salman Asif,Ulugbek S. Kamilov
発行日 2025-05-16 17:44:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Unsupervised Detection of Distribution Shift in Inverse Problems using Diffusion Models はコメントを受け付けていません

Discriminating image representations with principal distortions

要約

画像表現(人工的または生物学的)は、多くの場合、グローバルな幾何学的構造の観点から比較されます。
ただし、同様のグローバル構造を持つ表現は、著しく異なるローカル幾何学を持つことができます。
ここでは、地元の幾何学の観点から画像表現のセットを比較するためのフレームワークを提案します。
フィッシャー情報マトリックスを使用して表現の局所形状を定量化します。フィッシャー情報マトリックスは、局所刺激の歪みに対する感度を特徴付ける標準統計ツールであり、これをベース画像の近くの局所形状のメトリックの基質として使用します。
このメトリックは、このメトリックの下でモデルの分散を最大化する「主要な歪み」のペアを見つけることにより、モデルのセットを最適に区別するために使用できます。
例として、このフレームワークを使用して、初期の視覚システムの一連の単純なモデルを比較し、目視検査によるモデルの即時比較を可能にする画像の歪みの新しいセットを識別します。
2番目の例では、メソッドを一連の深いニューラルネットワークモデルに適用し、アーキテクチャとトレーニングの種類によって生じるローカルジオメトリの違いを明らかにします。
これらの例は、私たちのフレームワークを使用して、複雑なモデル間の局所的な感受性の有益な違いを調査するためにどのように使用できるかを示しており、モデル表現と人間の知覚を比較するためにどのように使用できるかを示唆しています。

要約(オリジナル)

Image representations (artificial or biological) are often compared in terms of their global geometric structure; however, representations with similar global structure can have strikingly different local geometries. Here, we propose a framework for comparing a set of image representations in terms of their local geometries. We quantify the local geometry of a representation using the Fisher information matrix, a standard statistical tool for characterizing the sensitivity to local stimulus distortions, and use this as a substrate for a metric on the local geometry in the vicinity of a base image. This metric may then be used to optimally differentiate a set of models, by finding a pair of ‘principal distortions’ that maximize the variance of the models under this metric. As an example, we use this framework to compare a set of simple models of the early visual system, identifying a novel set of image distortions that allow immediate comparison of the models by visual inspection. In a second example, we apply our method to a set of deep neural network models and reveal differences in the local geometry that arise due to architecture and training types. These examples demonstrate how our framework can be used to probe for informative differences in local sensitivities between complex models, and suggest how it could be used to compare model representations with human perception.

arxiv情報

著者 Jenelle Feather,David Lipshutz,Sarah E. Harvey,Alex H. Williams,Eero P. Simoncelli
発行日 2025-05-16 17:45:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, q-bio.NC, stat.ML | Discriminating image representations with principal distortions はコメントを受け付けていません

GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing

要約

自然言語の指示を使用した画像の編集は、視覚的なコンテンツを変更する自然で表現力のある方法になりました。
しかし、このようなモデルのパフォーマンスを評価することは依然として困難です。
既存の評価アプローチは、多くの場合、正確さを欠いているクリップのような画像テキストの類似性メトリックに依存しています。
この作業では、2つの重要な次元に沿って、より根拠のある方法でテキスト誘導画像編集モデルを評価するために設計された新しいベンチマークを導入します。(i)意図的な変更が正常に適用されたかどうかを確認する自動的に生成された複数選択の質問を介して評価される機能的正しさ。
(ii)画像コンテンツの保存。これにより、オブジェクト認識マスキングテクニックと保存スコアリングを使用して、画像の非標的領域が視覚的に一貫性を保つことが保証されます。
ベンチマークには、20の多様なコンテンツカテゴリにわたって1000を超える高品質の編集例が含まれており、それぞれに詳細な編集手順、評価の質問、および空間オブジェクトマスクが注釈が付けられています。
Text Guided画像編集スペースの最新のフラッグシップであるGPT-Image-1を、いくつかの最先端の編集モデルと比較した大規模な研究を実施し、人間の評価に対する自動メトリックを検証します。
結果は、GPT-Image-1が命令に従う精度でリードしているが、多くの場合、無関係な画像領域を過度に変化させ、現在のモデルの動作の重要なトレードオフを強調していることを示しています。
Gie-Benchは、テキスト誘導画像編集のより正確な評価を進めるためのスケーラブルで再現可能なフレームワークを提供します。

要約(オリジナル)

Editing images using natural language instructions has become a natural and expressive way to modify visual content; yet, evaluating the performance of such models remains challenging. Existing evaluation approaches often rely on image-text similarity metrics like CLIP, which lack precision. In this work, we introduce a new benchmark designed to evaluate text-guided image editing models in a more grounded manner, along two critical dimensions: (i) functional correctness, assessed via automatically generated multiple-choice questions that verify whether the intended change was successfully applied; and (ii) image content preservation, which ensures that non-targeted regions of the image remain visually consistent using an object-aware masking technique and preservation scoring. The benchmark includes over 1000 high-quality editing examples across 20 diverse content categories, each annotated with detailed editing instructions, evaluation questions, and spatial object masks. We conduct a large-scale study comparing GPT-Image-1, the latest flagship in the text-guided image editing space, against several state-of-the-art editing models, and validate our automatic metrics against human ratings. Results show that GPT-Image-1 leads in instruction-following accuracy, but often over-modifies irrelevant image regions, highlighting a key trade-off in the current model behavior. GIE-Bench provides a scalable, reproducible framework for advancing more accurate evaluation of text-guided image editing.

arxiv情報

著者 Yusu Qian,Jiasen Lu,Tsu-Jui Fu,Xinze Wang,Chen Chen,Yinfei Yang,Wenze Hu,Zhe Gan
発行日 2025-05-16 17:55:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing はコメントを受け付けていません

QVGen: Pushing the Limit of Quantized Video Generative Models

要約

ビデオ拡散モデル(DMS)により、高品質のビデオ統合が可能になりました。
しかし、彼らの実質的な計算とメモリの要求は、ハイエンドGPUであっても、現実世界の展開に深刻な課題をもたらします。
一般的に採用されているソリューションとして、量子化は画像DMのコストを削減することに顕著な成功を収めていますが、ビデオDMへの直接適用は依然として効果がありません。
このホワイトペーパーでは、非常に低いビット量子化(4ビット以下など)の下で高性能および推論効率の高いビデオDMに合わせた新しい量子化対応トレーニング(QAT)フレームワークであるQVGenを紹介します。
QATの収束を促進するために勾配規範を減らすことが不可欠であることを示す理論分析から始めます。
この目的のために、補助モジュール($ \ phi $)を導入して、大量の量子化エラーを緩和し、収束が大幅に向上します。
$ \ phi $の推論のオーバーヘッドを排除するために、$ \ phi $を徐々に排除するランク廃止戦略を提案します。
具体的には、低支配コンポーネントを識別および減衰させるために、特異値分解(SVD)と提案されたランクベースの正規化$ \ mathbf {\ gamma} $を繰り返し採用しています。
この戦略はパフォーマンスを保持し、推論のオーバーヘッドをゼロにします。
$ 1.3 $ $ $ \ sim14 $ bの範囲のパラメーターサイズを備えた4ドルの最先端(SOTA)ビデオDMSにまたがる広範な実験は、QVGenが4ビット設定の下で完全な程度の同等の品質に達する最初のものであることを示しています。
さらに、既存の方法を大幅に上回ります。
たとえば、3ビットのCogvideox-2Bは、動的程度で$+25.28 $、VBenchのシーンの一貫性$+8.43 $の改善を達成します。

要約(オリジナル)

Video diffusion models (DMs) have enabled high-quality video synthesis. Yet, their substantial computational and memory demands pose serious challenges to real-world deployment, even on high-end GPUs. As a commonly adopted solution, quantization has proven notable success in reducing cost for image DMs, while its direct application to video DMs remains ineffective. In this paper, we present QVGen, a novel quantization-aware training (QAT) framework tailored for high-performance and inference-efficient video DMs under extremely low-bit quantization (e.g., 4-bit or below). We begin with a theoretical analysis demonstrating that reducing the gradient norm is essential to facilitate convergence for QAT. To this end, we introduce auxiliary modules ($\Phi$) to mitigate large quantization errors, leading to significantly enhanced convergence. To eliminate the inference overhead of $\Phi$, we propose a rank-decay strategy that progressively eliminates $\Phi$. Specifically, we repeatedly employ singular value decomposition (SVD) and a proposed rank-based regularization $\mathbf{\gamma}$ to identify and decay low-contributing components. This strategy retains performance while zeroing out inference overhead. Extensive experiments across $4$ state-of-the-art (SOTA) video DMs, with parameter sizes ranging from $1.3$B $\sim14$B, show that QVGen is the first to reach full-precision comparable quality under 4-bit settings. Moreover, it significantly outperforms existing methods. For instance, our 3-bit CogVideoX-2B achieves improvements of $+25.28$ in Dynamic Degree and $+8.43$ in Scene Consistency on VBench.

arxiv情報

著者 Yushi Huang,Ruihao Gong,Jing Liu,Yifu Ding,Chengtao Lv,Haotong Qin,Jun Zhang
発行日 2025-05-16 17:59:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | QVGen: Pushing the Limit of Quantized Video Generative Models はコメントを受け付けていません

Grasp EveryThing (GET): 1-DoF, 3-Fingered Gripper with Tactile Sensing for Robust Grasping

要約

多くの形状とサイズのオブジェクトを安全に把握するための新しい1-dof、3本指のデザインであるすべての(get)グリッパーを紹介します。
標準の平行な顎のアクチュエーターに取り付けられたデザインは、2つの指が2つの指がV字型に収束する2つの狭い1つの構成に配置された3つの狭いテーパー指の指を備えています。
Get Gripperは、2つの平らな指を持つ従来のデザインよりも、オブジェクトジオメトリに適合し、安全な握りを形成する能力があります。
自己類似性の原理に触発されて、これらのV字型の指は、幅広いオブジェクトサイズを横切って安全につかむことができます。
この目的のために、指はパラメトリックに設計されており、パラレルジョーグリッパーを備えたロボット具体化の便利なサイズ変更と交換性があります。
さらに、小さなオブジェクトの操作を強化するために、剛性のある爪を組み込みます。
触覚センシングは、外部に取り付けられたカメラを介してスタンドアロンの指に統合できます。
ニューラルネットワークは、多様なジオメトリのセットにわたって平均検証誤差が1.3〜nの触覚画像からの正常な力を推定するように訓練されました。
15個のオブジェクトを把握し、テレオ操作を介して3つのタスクを実行する際に、Get Fingersは一貫して標準的なフラットフィンガーを上回っています。
複数のロボット実施形態で使用する指のデザインは、GitHubで利用できます。

要約(オリジナル)

We introduce the Grasp EveryThing (GET) gripper, a novel 1-DoF, 3-finger design for securely grasping objects of many shapes and sizes. Mounted on a standard parallel jaw actuator, the design features three narrow, tapered fingers arranged in a two-against-one configuration, where the two fingers converge into a V-shape. The GET gripper is more capable of conforming to object geometries and forming secure grasps than traditional designs with two flat fingers. Inspired by the principle of self-similarity, these V-shaped fingers enable secure grasping across a wide range of object sizes. Further to this end, fingers are parametrically designed for convenient resizing and interchangeability across robotic embodiments with a parallel jaw gripper. Additionally, we incorporate a rigid fingernail to enhance small object manipulation. Tactile sensing can be integrated into the standalone finger via an externally-mounted camera. A neural network was trained to estimate normal force from tactile images with an average validation error of 1.3~N across a diverse set of geometries. In grasping 15 objects and performing 3 tasks via teleoperation, the GET fingers consistently outperformed standard flat fingers. Finger designs for use with multiple robotic embodiments are available on GitHub.

arxiv情報

著者 Michael Burgess,Edward H. Adelson
発行日 2025-05-16 16:05:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Grasp EveryThing (GET): 1-DoF, 3-Fingered Gripper with Tactile Sensing for Robust Grasping はコメントを受け付けていません

From Uncertain to Safe: Conformal Fine-Tuning of Diffusion Models for Safe PDE Control

要約

部分微分方程式(PDE)に制約された制御のための深い学習の適用は、注目を集めています。
ただし、既存の方法は、現実世界のアプリケーションでは安全要件が重要であるとは考えられません。
この制限に対処するために、PDEコントロール(SafeDiffCon)の安全な拡散モデルを提案します。これにより、モデルの不確実性の定量化として不確実性分位が導入され、トレーニング後の段階と推論段階の両方を通じて安全制約の下で最適な制御を実現します。
第一に、私たちのアプローチは、事前に訓練された拡散モデルを導き出し、適合予測を使用して推定された不確実性分位を組み込んだ、再重量化された拡散損失を介して改善された制御目標を達成しながら、安全性の制約をよりよく満たす制御シーケンスを生成します。
第二に、推論中、拡散モデルは、推定された不確実性分位を同時に統合しながら、コントロールターゲットに条件付けられた、反復ガイダンスと微調整を通じて、その生成プロセスとパラメーターの両方を動的に調整します。
SafeDiffConを3つの制御タスクで評価します:1Dハンバーガーの方程式、2D非圧縮性液、および制御された核融合問題。
結果は、SafediffConがすべての安全上の制約を満たす唯一の方法であることを示していますが、他の古典的および深い学習ベースラインは失敗します。
さらに、安全上の制約を順守しながら、SafeDiffConは最高の制御パフォーマンスを達成します。
このコードは、https://github.com/ai4science-westlakeu/safediffconにあります。

要約(オリジナル)

The application of deep learning for partial differential equation (PDE)-constrained control is gaining increasing attention. However, existing methods rarely consider safety requirements crucial in real-world applications. To address this limitation, we propose Safe Diffusion Models for PDE Control (SafeDiffCon), which introduce the uncertainty quantile as model uncertainty quantification to achieve optimal control under safety constraints through both post-training and inference phases. Firstly, our approach post-trains a pre-trained diffusion model to generate control sequences that better satisfy safety constraints while achieving improved control objectives via a reweighted diffusion loss, which incorporates the uncertainty quantile estimated using conformal prediction. Secondly, during inference, the diffusion model dynamically adjusts both its generation process and parameters through iterative guidance and fine-tuning, conditioned on control targets while simultaneously integrating the estimated uncertainty quantile. We evaluate SafeDiffCon on three control tasks: 1D Burgers’ equation, 2D incompressible fluid, and controlled nuclear fusion problem. Results demonstrate that SafeDiffCon is the only method that satisfies all safety constraints, whereas other classical and deep learning baselines fail. Furthermore, while adhering to safety constraints, SafeDiffCon achieves the best control performance. The code can be found at https://github.com/AI4Science-WestlakeU/safediffcon.

arxiv情報

著者 Peiyan Hu,Xiaowei Qian,Wenhao Deng,Rui Wang,Haodong Feng,Ruiqi Feng,Tao Zhang,Long Wei,Yue Wang,Zhi-Ming Ma,Tailin Wu
発行日 2025-05-16 09:16:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | From Uncertain to Safe: Conformal Fine-Tuning of Diffusion Models for Safe PDE Control はコメントを受け付けていません

The Lazy Student’s Dream: ChatGPT Passing an Engineering Course on Its Own

要約

このペーパーでは、学期にわたる学部管理システムコースを正常に完了するための大規模な言語モデル(LLMS)の能力に関する包括的な調査を提示します。
115のコース成果物の評価を通じて、現実的な学生の使用パターンをシミュレートする「最小限の労力」プロトコルの下でChatGPTを使用してLLMパフォーマンスを評価します。
この調査では、自動格付けされた複数選択の質問から複雑なPythonプログラミングタスクや長期の分析ライティングまで、複数の評価形式にわたる厳格なテスト方法を採用しています。
私たちの分析は、制御システムエンジニアリングにおける数学の定式化、コーディングの課題、および理論的概念の処理におけるAIの強みと制限に関する定量的洞察を提供します。
LLMはBグレードのパフォーマンス(82.24 \%)を達成し、近づいていますが、クラスの平均(84.99 \%)を超えていませんでした。
調査結果は、AIの進歩に応じたコース設計適応についての議論を知らせ、工学教育におけるこれらのツールの思慮深い統合に向けて単純な禁止を超えて移動します。
シラバス、試験用紙、設計プロジェクト、および例の回答などの追加資料は、プロジェクトWebサイトhttps://gradegpt.github.ioに記載されています。

要約(オリジナル)

This paper presents a comprehensive investigation into the capability of Large Language Models (LLMs) to successfully complete a semester-long undergraduate control systems course. Through evaluation of 115 course deliverables, we assess LLM performance using ChatGPT under a ‘minimal effort’ protocol that simulates realistic student usage patterns. The investigation employs a rigorous testing methodology across multiple assessment formats, from auto-graded multiple choice questions to complex Python programming tasks and long-form analytical writing. Our analysis provides quantitative insights into AI’s strengths and limitations in handling mathematical formulations, coding challenges, and theoretical concepts in control systems engineering. The LLM achieved a B-grade performance (82.24\%), approaching but not exceeding the class average (84.99\%), with strongest results in structured assignments and greatest limitations in open-ended projects. The findings inform discussions about course design adaptation in response to AI advancement, moving beyond simple prohibition towards thoughtful integration of these tools in engineering education. Additional materials including syllabus, examination papers, design projects, and example responses can be found at the project website: https://gradegpt.github.io.

arxiv情報

著者 Gokul Puthumanaillam,Timothy Bretl,Melkior Ornik
発行日 2025-05-16 04:45:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | The Lazy Student’s Dream: ChatGPT Passing an Engineering Course on Its Own はコメントを受け付けていません