A Survey of LLM-based Agents in Medicine: How far are we from Baymax?

要約

大規模な言語モデル(LLM)は、医療タスクを理解し、推論し、支援できるLLMベースのエージェントの開発を通じて、ヘルスケアを変革しています。
この調査では、LLMベースの薬剤中のLLMベースのエージェントの包括的なレビューを提供し、それらのアーキテクチャ、アプリケーション、および課題を調べます。
システムプロファイル、臨床計画メカニズム、医療推論フレームワーク、外部能力強化など、医療エージェントシステムの主要なコンポーネントを分析します。
この調査では、臨床的意思決定サポート、医療文書、トレーニングシミュレーション、ヘルスケアサービスの最適化などの主要なアプリケーションシナリオについて説明しています。
ヘルスケアの設定でのこれらのエージェントのパフォーマンスを評価するために使用される評価フレームワークとメトリックについて説明します。
LLMベースのエージェントは、幻覚管理、マルチモーダル統合、実装の障壁、倫理的考慮事項など、ヘルスケアの提供を強化することで有望ですが、いくつかの課題が残っています。
この調査は、LLMアーキテクチャの最近の開発、物理システムとの統合、トレーニングシミュレーションの改善に触発された医療推論の進歩を含む、将来の研究の方向性を強調することで締めくくります。
この研究は、研究者と実践者に、医学におけるLLMベースのエージェントの現在の状態と将来の見通しの構造化された概要を提供します。

要約(オリジナル)

Large Language Models (LLMs) are transforming healthcare through the development of LLM-based agents that can understand, reason about, and assist with medical tasks. This survey provides a comprehensive review of LLM-based agents in medicine, examining their architectures, applications, and challenges. We analyze the key components of medical agent systems, including system profiles, clinical planning mechanisms, medical reasoning frameworks, and external capacity enhancement. The survey covers major application scenarios such as clinical decision support, medical documentation, training simulations, and healthcare service optimization. We discuss evaluation frameworks and metrics used to assess these agents’ performance in healthcare settings. While LLM-based agents show promise in enhancing healthcare delivery, several challenges remain, including hallucination management, multimodal integration, implementation barriers, and ethical considerations. The survey concludes by highlighting future research directions, including advances in medical reasoning inspired by recent developments in LLM architectures, integration with physical systems, and improvements in training simulations. This work provides researchers and practitioners with a structured overview of the current state and future prospects of LLM-based agents in medicine.

arxiv情報

著者 Wenxuan Wang,Zizhan Ma,Zheng Wang,Chenghan Wu,Jiaming Ji,Wenting Chen,Xiang Li,Yixuan Yuan
発行日 2025-05-26 14:11:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | A Survey of LLM-based Agents in Medicine: How far are we from Baymax? はコメントを受け付けていません

ReasonPlan: Unified Scene Prediction and Decision Reasoning for Closed-loop Autonomous Driving

要約

強力なビジョン言語の推論と一般化能力により、マルチモーダルの大手言語モデル(MLLM)は、エンドツーエンド(E2E)の自律運転の分野で大きな注目を集めています。
ただし、クローズドループシステムへの適用は既存のままであり、現在のMLLMベースの方法では、主流のE2E模倣学習アプローチに対する明確な優位性が示されていません。
この作業では、自己監視された次のシーン予測タスクと監督された決定チェーンオブサブプロセスを使用して、全体的な推論を閉鎖するために設計された新しいMLLM微調整フレームワークであるReasonPlanを提案します。
このデュアルメカニズムは、モデルが視覚表現を実用的な運転コンテキストに合わせることを奨励し、一方、解釈可能かつ因果関係のある意思決定を促進します。
計画指向の決定推論データセット、すなわち210K多様で高品質のサンプルで構成されるPDRをキュレートします。
私たちの方法は、Bench2Driveベンチマークの19%L2および16.1の運転スコアの大きなマージンによって、主流のE2E模倣学習方法よりも優れています。
さらに、ReasonPlanは、目に見えないDOSベンチマークで強力なゼロショット一般化を実証し、ゼロショットコーナーケースの処理における適応性を強調しています。
コードとデータセットは、https://github.com/liuxueyi/ReasonPlanにあります。

要約(オリジナル)

Due to the powerful vision-language reasoning and generalization abilities, multimodal large language models (MLLMs) have garnered significant attention in the field of end-to-end (E2E) autonomous driving. However, their application to closed-loop systems remains underexplored, and current MLLM-based methods have not shown clear superiority to mainstream E2E imitation learning approaches. In this work, we propose ReasonPlan, a novel MLLM fine-tuning framework designed for closed-loop driving through holistic reasoning with a self-supervised Next Scene Prediction task and supervised Decision Chain-of-Thought process. This dual mechanism encourages the model to align visual representations with actionable driving context, while promoting interpretable and causally grounded decision making. We curate a planning-oriented decision reasoning dataset, namely PDR, comprising 210k diverse and high-quality samples. Our method outperforms the mainstream E2E imitation learning method by a large margin of 19% L2 and 16.1 driving score on Bench2Drive benchmark. Furthermore, ReasonPlan demonstrates strong zero-shot generalization on unseen DOS benchmark, highlighting its adaptability in handling zero-shot corner cases. Code and dataset will be found in https://github.com/Liuxueyi/ReasonPlan.

arxiv情報

著者 Xueyi Liu,Zuodong Zhong,Yuxin Guo,Yun-Fu Liu,Zhiguo Su,Qichao Zhang,Junli Wang,Yinfeng Gao,Yupeng Zheng,Qiao Lin,Huiyong Chen,Dongbin Zhao
発行日 2025-05-26 14:12:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T40(Primary), 68T45, 68T50(Secondary), cs.AI, cs.CV, cs.RO, I.2.10 | ReasonPlan: Unified Scene Prediction and Decision Reasoning for Closed-loop Autonomous Driving はコメントを受け付けていません

A Survey on the Safety and Security Threats of Computer-Using Agents: JARVIS or Ultron?

要約

最近、コンピューティングデバイスとのAI駆動型の相互作用は、基本的なプロトタイプツールから、グラフィカルユーザーインターフェイスで人間のような操作をエミュレートする洗練されたLLMベースのシステムに進みました。
現在、デスクトップアプリケーション、Webページ、モバイルアプリのナビゲートなどのタスクを自律的に実行できる\ emph {コンピューター使用エージェント}(CUAS)の出現を目撃しています。
ただし、これらのエージェントが能力が高まるにつれて、新しい安全性とセキュリティリスクも導入します。
複数のソフトウェアコンポーネントとマルチモーダル入力を統合するという複雑さが追加されたLLM主導の推論の脆弱性は、セキュリティ環境をさらに複雑にします。
この論文では、CUAの安全性とセキュリティの脅威に関する知識の体系化を提示します。
包括的な文献レビューを実施し、4つの研究目標に沿って調査結果を蒸留します。
\ textit {\ textbf {(ii)}}}は、CUAS間の現在の安全脅威を分類します。
\ textit {\ textbf {(iii)}}既存の防御戦略の包括的な分類法を提案します。
\ textIT {\ textBf {(iv)}}は、CUAの安全性とパフォーマンスを評価するために使用される、一般的なベンチマーク、データセット、および評価メトリックを要約します。
これらの洞察に基づいて、私たちの研究は、未熟な脆弱性を探索するための構造化された基盤を将来の研究者に提供し、安全なコンピューター使用エージェントの設計と展開における実務家に実践的なガイダンスを提供します。

要約(オリジナル)

Recently, AI-driven interactions with computing devices have advanced from basic prototype tools to sophisticated, LLM-based systems that emulate human-like operations in graphical user interfaces. We are now witnessing the emergence of \emph{Computer-Using Agents} (CUAs), capable of autonomously performing tasks such as navigating desktop applications, web pages, and mobile apps. However, as these agents grow in capability, they also introduce novel safety and security risks. Vulnerabilities in LLM-driven reasoning, with the added complexity of integrating multiple software components and multimodal inputs, further complicate the security landscape. In this paper, we present a systematization of knowledge on the safety and security threats of CUAs. We conduct a comprehensive literature review and distill our findings along four research objectives: \textit{\textbf{(i)}} define the CUA that suits safety analysis; \textit{\textbf{(ii)} } categorize current safety threats among CUAs; \textit{\textbf{(iii)}} propose a comprehensive taxonomy of existing defensive strategies; \textit{\textbf{(iv)}} summarize prevailing benchmarks, datasets, and evaluation metrics used to assess the safety and performance of CUAs. Building on these insights, our work provides future researchers with a structured foundation for exploring unexplored vulnerabilities and offers practitioners actionable guidance in designing and deploying secure Computer-Using Agents.

arxiv情報

著者 Ada Chen,Yongjiang Wu,Junyuan Zhang,Jingyu Xiao,Shu Yang,Jen-tse Huang,Kun Wang,Wenxuan Wang,Shuai Wang
発行日 2025-05-26 14:15:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.CV, cs.SE | A Survey on the Safety and Security Threats of Computer-Using Agents: JARVIS or Ultron? はコメントを受け付けていません

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

要約

触覚センシングは、テクスチャ、コンプライアンス、力などの視覚的知覚を補完するローカルな本質的な情報を提供します。
視覚能力表現学習の最近の進歩にもかかわらず、課題はこれらのモダリティを融合し、事前に訓練されたビジョン言語モデルに大きく依存せずにタスクと環境を一般化することに残っています。
さらに、既存の方法は位置のエンコーディングを研究せず、それにより、細粒の視覚能力相関をキャプチャするために必要なマルチスケールの空間的推論を見落とします。
Vitapesを紹介します。これは、視覚的および触覚的な入力データを堅牢に統合して、視覚操作の知覚のためのタスクに依存しない表現を学習するためのトランスベースのフレームワークを紹介します。
私たちのアプローチは、クロスモーダルキューをモデル化しながら、モーダル内構造をキャプチャするために、新しいマルチスケールの位置エンコードスキームを活用します。
以前の作業とは異なり、visuotactile融合における証明された保証を提供します。エンコーディングは、これらの特性を経験的に検証して、我々のエンコーディングが無視、剛性駆動、および情報提供であることを示します。
複数の大規模な現実世界のデータセットでの実験は、Vitapeがさまざまな認識タスクにわたって最先端のベースラインを上回るだけでなく、目に見えないドメインのないシナリオにゼロショットの一般化を示していることを示しています。
さらに、ロボットの把握タスクでVitapesのトランスファーラーニング強度を示します。そこでは、把握成功を予測する上で最先端のベースラインよりも優れています。
プロジェクトページ:https://sites.google.com/view/vitapes

要約(オリジナル)

Tactile sensing provides local essential information that is complementary to visual perception, such as texture, compliance, and force. Despite recent advances in visuotactile representation learning, challenges remain in fusing these modalities and generalizing across tasks and environments without heavy reliance on pre-trained vision-language models. Moreover, existing methods do not study positional encodings, thereby overlooking the multi-scale spatial reasoning needed to capture fine-grained visuotactile correlations. We introduce ViTaPEs, a transformer-based framework that robustly integrates visual and tactile input data to learn task-agnostic representations for visuotactile perception. Our approach exploits a novel multi-scale positional encoding scheme to capture intra-modal structures, while simultaneously modeling cross-modal cues. Unlike prior work, we provide provable guarantees in visuotactile fusion, showing that our encodings are injective, rigid-motion-equivariant, and information-preserving, validating these properties empirically. Experiments on multiple large-scale real-world datasets show that ViTaPEs not only surpasses state-of-the-art baselines across various recognition tasks but also demonstrates zero-shot generalization to unseen, out-of-domain scenarios. We further demonstrate the transfer-learning strength of ViTaPEs in a robotic grasping task, where it outperforms state-of-the-art baselines in predicting grasp success. Project page: https://sites.google.com/view/vitapes

arxiv情報

著者 Fotios Lygerakis,Ozan Özdenizci,Elmar Rückert
発行日 2025-05-26 14:19:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers はコメントを受け付けていません

EmoNet-Face: An Expert-Annotated Benchmark for Synthetic Emotion Recognition

要約

効果的な人間との相互作用は、人間の感情を正確に認識して解釈するAIの能力に依存しています。
ビジョンおよびビジョン言語モデルの現在のベンチマークは厳しく制限されており、微妙な状態(苦味、中毒など)を見下ろす狭い感情的なスペクトルを提供し、関連する感情の微妙な違いを区別できません(例:恥と恥ずかしさ)。
また、既存のデータセットは、閉塞された顔と人口統計の多様性を欠いている制御されていない画像を使用して、重要なバイアスを危険にさらします。
これらの重要なギャップに対処するために、包括的なベンチマークスイートであるEmonet Faceを紹介します。
Emonet Faceの特徴:(1)人間の感情的経験のより細かい詳細を捉えるために、基礎研究から細心の注意を払って派生した40カテゴリーの感情分類法。
(2)明示的なフルフェースの表現と、民族性、年齢、性別にわたる明示的なフルフェースの表現と制御された人口統計のバランスを備えた3つの大規模なAI生成データセット(Emonet HQ、Biry、およびBig)。
(3)トレーニングと忠実度の高い評価のための厳格なマルチ専門家の注釈。
(4)私たちは、私たちのベンチマークで人間の専門レベルのパフォーマンスを達成するモデルである共感的洞察の顔を構築します。
公開されたEmonet Face Suite(分類法、データセット、モデル)は、人間の感情をより深く理解してAIシステムを開発および評価するための堅牢な基盤を提供します。

要約(オリジナル)

Effective human-AI interaction relies on AI’s ability to accurately perceive and interpret human emotions. Current benchmarks for vision and vision-language models are severely limited, offering a narrow emotional spectrum that overlooks nuanced states (e.g., bitterness, intoxication) and fails to distinguish subtle differences between related feelings (e.g., shame vs. embarrassment). Existing datasets also often use uncontrolled imagery with occluded faces and lack demographic diversity, risking significant bias. To address these critical gaps, we introduce EmoNet Face, a comprehensive benchmark suite. EmoNet Face features: (1) A novel 40-category emotion taxonomy, meticulously derived from foundational research to capture finer details of human emotional experiences. (2) Three large-scale, AI-generated datasets (EmoNet HQ, Binary, and Big) with explicit, full-face expressions and controlled demographic balance across ethnicity, age, and gender. (3) Rigorous, multi-expert annotations for training and high-fidelity evaluation. (4) We build Empathic Insight Face, a model achieving human-expert-level performance on our benchmark. The publicly released EmoNet Face suite – taxonomy, datasets, and model – provides a robust foundation for developing and evaluating AI systems with a deeper understanding of human emotions.

arxiv情報

著者 Christoph Schuhmann,Robert Kaczmarczyk,Gollam Rabby,Maurice Kraus,Felix Friedrich,Huu Nguyen,Krishna Kalyan,Kourosh Nadi,Kristian Kersting,Sören Auer
発行日 2025-05-26 14:19:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | EmoNet-Face: An Expert-Annotated Benchmark for Synthetic Emotion Recognition はコメントを受け付けていません

Attentive Eraser: Unleashing Diffusion Model’s Object Removal Potential via Self-Attention Redirection Guidance

要約

最近、拡散モデルは、生成モデルの分野で有望な新人として浮上し、画像生成で明るく輝いています。
ただし、オブジェクト削除タスクに使用されている場合、ランダムアーティファクトを生成したり、削除後に適切なコンテンツで前景オブジェクトエリアを塗り直すことができないなどの問題に遭遇します。
これらの問題に取り組むために、安定した効果的なオブジェクト除去のために事前に訓練された拡散モデルを強化するためのチューニングフリーの方法である注意深い消しゴムを提案します。
第一に、自己関節マップが生成された画像の構造と形状の詳細に影響を与えるという観察に照らして、注意活性化と抑制(ASS)を提案します。これは、特定のマスクに基づいた事前に訓練された拡散モデル内の自己立文、それにより、リバース生成プロセス中のフォアグラウンドオブジェクトの背景を優先することを優先します。
さらに、私たちは自己attentionリダイレクトガイダンス(SARG)を導入します。これは、ASSによってリダイレクトされた自己関節を利用して生成プロセスを導き、マスク内の前景オブジェクトを効果的に削除しながら、もっともらしいと一貫性のあるコンテンツを同時に生成します。
実験は、さまざまな訓練を受けた拡散モデルにわたるオブジェクト除去における丁寧な消しゴムの安定性と有効性を示しており、トレーニングベースの方法を上回ることさえあります。
さらに、気配りの消しゴムは、さまざまな拡散モデルアーキテクチャとチェックポイントに実装でき、優れたスケーラビリティを可能にします。
コードはhttps://github.com/anonym0u3/attentiveeraserで入手できます。

要約(オリジナル)

Recently, diffusion models have emerged as promising newcomers in the field of generative models, shining brightly in image generation. However, when employed for object removal tasks, they still encounter issues such as generating random artifacts and the incapacity to repaint foreground object areas with appropriate content after removal. To tackle these problems, we propose Attentive Eraser, a tuning-free method to empower pre-trained diffusion models for stable and effective object removal. Firstly, in light of the observation that the self-attention maps influence the structure and shape details of the generated images, we propose Attention Activation and Suppression (ASS), which re-engineers the self-attention mechanism within the pre-trained diffusion models based on the given mask, thereby prioritizing the background over the foreground object during the reverse generation process. Moreover, we introduce Self-Attention Redirection Guidance (SARG), which utilizes the self-attention redirected by ASS to guide the generation process, effectively removing foreground objects within the mask while simultaneously generating content that is both plausible and coherent. Experiments demonstrate the stability and effectiveness of Attentive Eraser in object removal across a variety of pre-trained diffusion models, outperforming even training-based methods. Furthermore, Attentive Eraser can be implemented in various diffusion model architectures and checkpoints, enabling excellent scalability. Code is available at https://github.com/Anonym0u3/AttentiveEraser.

arxiv情報

著者 Wenhao Sun,Benlei Cui,Xue-Mei Dong,Jingqun Tang,Yi Liu
発行日 2025-05-26 14:21:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Attentive Eraser: Unleashing Diffusion Model’s Object Removal Potential via Self-Attention Redirection Guidance はコメントを受け付けていません

Towards Video to Piano Music Generation with Chain-of-Perform Support Benchmarks

要約

ビデオから高品質のピアノオーディオを生成するには、視覚的な手がかりと音楽出力の間の正確な同期が必要であり、正確なセマンティックおよび時間的アライメントを確保する必要があります。
包括的なベンチマークは、2つの主な理由に不可欠です。(1)既存のメトリックは、ビデオとピアノの音楽の相互作用の複雑さを反映していません。
これらの課題に対処するために、ビデオ誘導ピアノ音楽の世代向けに特別に設計された完全にオープンソースのマルチモーダルベンチマークA Cop Benchmark Dataset-Aを紹介します。
提案されているパフォーマンスのチェーン(COP)ベンチマークは、いくつかの説得力のある機能を提供します。(1)詳細なマルチモーダルアノテーションは、ビデオコンテンツとピアノオーディオの間の正確なセマンティックと時間的アライメントを段階的なパフォーマンスガイダンスを介して可能にします。
(2)汎用と特殊なビデオからピアノの世代の両方のタスクの両方を厳密に評価するための汎用性の高い評価フレームワーク。
(3)データセット、注釈、および評価プロトコルの完全なオープンソース。
データセットは、https://github.com/acappemin/video-to-audio-and-pianoで公開されており、このドメインで進行中の研究を促進するために継続的に更新されたリーダーボードがあります。

要約(オリジナル)

Generating high-quality piano audio from video requires precise synchronization between visual cues and musical output, ensuring accurate semantic and temporal alignment.However, existing evaluation datasets do not fully capture the intricate synchronization required for piano music generation. A comprehensive benchmark is essential for two primary reasons: (1) existing metrics fail to reflect the complexity of video-to-piano music interactions, and (2) a dedicated benchmark dataset can provide valuable insights to accelerate progress in high-quality piano music generation. To address these challenges, we introduce the CoP Benchmark Dataset-a fully open-sourced, multimodal benchmark designed specifically for video-guided piano music generation. The proposed Chain-of-Perform (CoP) benchmark offers several compelling features: (1) detailed multimodal annotations, enabling precise semantic and temporal alignment between video content and piano audio via step-by-step Chain-of-Perform guidance; (2) a versatile evaluation framework for rigorous assessment of both general-purpose and specialized video-to-piano generation tasks; and (3) full open-sourcing of the dataset, annotations, and evaluation protocols. The dataset is publicly available at https://github.com/acappemin/Video-to-Audio-and-Piano, with a continuously updated leaderboard to promote ongoing research in this domain.

arxiv情報

著者 Chang Liu,Haomin Zhang,Shiyu Xia,Zihao Chen,Chaofan Ding,Xin Yue,Huizhe Chen,Xinhan Di
発行日 2025-05-26 14:24:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS | Towards Video to Piano Music Generation with Chain-of-Perform Support Benchmarks はコメントを受け付けていません

DepthMatch: Semi-Supervised RGB-D Scene Parsing through Depth-Guided Regularization

要約

RGB-Dシーンの解析方法は、環境のセマンティックと幾何学的特徴の両方を効果的にキャプチャし、極端な天候や低照明などの困難な条件下で大きな可能性を示しています。
ただし、既存のRGB-Dシーンの解析方法は、主に監視されたトレーニング戦略に依存しています。これには、時間がかかり、費用がかかる大量の手動注釈付きピクセルレベルのラベルが必要です。
これらの制限を克服するために、RGB-Dシーンの解析用に特別に設計された半監視学習フレームワークであるDepthmatchを導入します。
ラベルのないデータを最大限に活用するために、RGB-D画像ペアのテクスチャ機能と空間的特徴の潜在的な関係を調査するために、補完的なパッチミックスアップの増強を提案します。
また、従来の複雑な融合モジュールを置き換えるために、軽量の空間事前インジェクターを設計し、不均一な特徴融合の効率を改善します。
さらに、モデルの境界予測機能を強化するために、深さ誘導境界損失を導入します。
実験結果は、深さ格子が屋内と屋外の両方のシーンで高い適用性を示し、NYUV2データセットで最先端の結果を達成し、キッティセマンティクスベンチマークで最初にランキングを達成することを示しています。

要約(オリジナル)

RGB-D scene parsing methods effectively capture both semantic and geometric features of the environment, demonstrating great potential under challenging conditions such as extreme weather and low lighting. However, existing RGB-D scene parsing methods predominantly rely on supervised training strategies, which require a large amount of manually annotated pixel-level labels that are both time-consuming and costly. To overcome these limitations, we introduce DepthMatch, a semi-supervised learning framework that is specifically designed for RGB-D scene parsing. To make full use of unlabeled data, we propose complementary patch mix-up augmentation to explore the latent relationships between texture and spatial features in RGB-D image pairs. We also design a lightweight spatial prior injector to replace traditional complex fusion modules, improving the efficiency of heterogeneous feature fusion. Furthermore, we introduce depth-guided boundary loss to enhance the model’s boundary prediction capabilities. Experimental results demonstrate that DepthMatch exhibits high applicability in both indoor and outdoor scenes, achieving state-of-the-art results on the NYUv2 dataset and ranking first on the KITTI Semantics benchmark.

arxiv情報

著者 Jianxin Huang,Jiahang Li,Sergey Vityazev,Alexander Dvorkovich,Rui Fan
発行日 2025-05-26 14:26:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DepthMatch: Semi-Supervised RGB-D Scene Parsing through Depth-Guided Regularization はコメントを受け付けていません

NFIG: Autoregressive Image Generation with Next-Frequency Prediction

要約

自己回帰モデルは、自然言語処理において有望な結果を達成しています。
ただし、画像生成タスクでは、長距離依存関係を効果的にキャプチャし、計算コストを管理し、最も重要なことに、自然画像階層を反映する意味のある自己回帰シーケンスを定義する上で大きな課題に遭遇します。
これらの問題に対処するために、\ textbf {n} ext- \ textbf {f} requency \ textbf {i} mage \ textbf {g} eneration(\ textbf {nfig})を提示します。
私たちのアプローチは、最初に低周波コンポーネントを生成して、より少ないトークンでグローバル構造を確立し、次に画像の自然なスペクトル階層に従って、徐々に高周波の詳細を追加します。
この原則的な自己回帰シーケンスは、画像コンポーネント間の真の因果関係をより適切にキャプチャすることにより、生成された画像の品質を向上させるだけでなく、推論中の計算オーバーヘッドを大幅に削減します。
大規模な実験は、NFIGがより少ないステップで最先端のパフォーマンスを達成し、画像生成のためのより効率的なソリューションを提供することを示しています。VarD20と比較して1.25 $ \ Times $ speedUpで、Imagenet-256ベンチマークでより良いパフォーマンス(FID:2.81)を達成します。
私たちは、周波数ドメインの知識を取り入れて自己回帰シーケンスの設計を導くという洞察が、将来の研究に光を当てることを願っています。
私たちは、論文を受け入れたときにコードを公開します。

要約(オリジナル)

Autoregressive models have achieved promising results in natural language processing. However, for image generation tasks, they encounter substantial challenges in effectively capturing long-range dependencies, managing computational costs, and most crucially, defining meaningful autoregressive sequences that reflect natural image hierarchies. To address these issues, we present \textbf{N}ext-\textbf{F}requency \textbf{I}mage \textbf{G}eneration (\textbf{NFIG}), a novel framework that decomposes the image generation process into multiple frequency-guided stages. Our approach first generates low-frequency components to establish global structure with fewer tokens, then progressively adds higher-frequency details, following the natural spectral hierarchy of images. This principled autoregressive sequence not only improves the quality of generated images by better capturing true causal relationships between image components, but also significantly reduces computational overhead during inference. Extensive experiments demonstrate that NFIG achieves state-of-the-art performance with fewer steps, offering a more efficient solution for image generation, with 1.25$\times$ speedup compared to VAR-d20 while achieving better performance (FID: 2.81) on the ImageNet-256 benchmark. We hope that our insight of incorporating frequency-domain knowledge to guide autoregressive sequence design will shed light on future research. We will make our code publicly available upon acceptance of the paper.

arxiv情報

著者 Zhihao Huang,Xi Qiu,Yukuo Ma,Yifu Zhou,Junjie Chen,Hongyuan Zhang,Chi Zhang,Xuelong Li
発行日 2025-05-26 14:28:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.AI, cs.CV, I.2.10 | NFIG: Autoregressive Image Generation with Next-Frequency Prediction はコメントを受け付けていません

Efficient Training-Free High-Resolution Synthesis with Energy Rectification in Diffusion Models

要約

拡散モデルは、さまざまな視覚生成タスクにわたって顕著な進歩を遂げています。
ただし、トレーニング中に使用されたものよりも高い解像度でコンテンツを生成すると、パフォーマンスは大幅に低下します。
高解像度の生成を可能にするために多くの方法が提案されていますが、それらはすべて非効率性に苦しんでいます。
この論文では、トレーニングのない高解像度合成のための簡単で効率的なソリューションである修正済みHRを提案します。
具体的には、モデルのトレーニングのない高解像度の合成能力を解き放ち、効率を向上させるノイズリフレッシュ戦略を提案します。
さらに、私たちはエネルギー崩壊の現象を観察した最初の人です。これは、高解像度の合成プロセス中に画像のぼやきを引き起こす可能性があります。
この問題に対処するために、平均潜在エネルギー分析を導入し、分類器のないガイダンスハイパーパラメーターを調整すると、生成パフォーマンスが大幅に向上する可能性があることがわかります。
私たちの方法は完全にトレーニングなしであり、効率的なパフォーマンスを示しています。
さらに、RectifiedHRは、画像編集、カスタマイズされた生成、ビデオ合成などの高度な機能を可能にするさまざまな拡散モデル手法と互換性があることを示しています。
多数のベースラインメソッドとの広範な比較により、修正されたHRの優れた効果と効率が検証されます。

要約(オリジナル)

Diffusion models have achieved remarkable progress across various visual generation tasks. However, their performance significantly declines when generating content at resolutions higher than those used during training. Although numerous methods have been proposed to enable high-resolution generation, they all suffer from inefficiency. In this paper, we propose RectifiedHR, a straightforward and efficient solution for training-free high-resolution synthesis. Specifically, we propose a noise refresh strategy that unlocks the model’s training-free high-resolution synthesis capability and improves efficiency. Additionally, we are the first to observe the phenomenon of energy decay, which may cause image blurriness during the high-resolution synthesis process. To address this issue, we introduce average latent energy analysis and find that tuning the classifier-free guidance hyperparameter can significantly improve generation performance. Our method is entirely training-free and demonstrates efficient performance. Furthermore, we show that RectifiedHR is compatible with various diffusion model techniques, enabling advanced features such as image editing, customized generation, and video synthesis. Extensive comparisons with numerous baseline methods validate the superior effectiveness and efficiency of RectifiedHR.

arxiv情報

著者 Zhen Yang,Guibao Shen,Minyang Li,Liang Hou,Mushui Liu,Luozhou Wang,Xin Tao,Pengfei Wan,Di Zhang,Ying-Cong Chen
発行日 2025-05-26 14:37:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Efficient Training-Free High-Resolution Synthesis with Energy Rectification in Diffusion Models はコメントを受け付けていません