SwiftEdit: Lightning Fast Text-Guided Image Editing via One-Step Diffusion

要約

テキスト誘導画像編集の最近の進歩により、ユーザーは単純なテキスト入力を介して画像編集を実行でき、マルチステップ拡散ベースのテキストからイメージモデルの広範な事前層を活用できます。
ただし、これらの方法は、費用のかかるマルチステップの反転とサンプリングプロセスのために、実際のアプリケーションとデバイス上のアプリケーションに必要な速度需要に達していないことがよくあります。
これに応じて、SwiftEditを紹介します。SwiftEditは、インスタントテキスト誘導画像編集(0.23秒)を実現するシンプルでありながら非常に効率的な編集ツールを紹介します。
Swifteditの進歩は、その2つの斬新な貢献にあります。局所的な画像編集を実行するために、提案された注意再発メカニズムを備えた、反転によるワンステップ画像の再構築を可能にするワンステップの反転フレームワークと、1段階の反転フレームワークです。
Swifteditの有効性と効率性を実証するために、広範な実験が提供されます。
特に、SwiftEditはインスタントテキスト誘導画像編集を可能にします。これは、以前のマルチステップ方法(少なくとも50倍高速)よりも非常に高速であり、編集結果で競争力のあるパフォーマンスを維持します。
プロジェクトページはhttps://swift-edit.github.io/にあります

要約(オリジナル)

Recent advances in text-guided image editing enable users to perform image edits through simple text inputs, leveraging the extensive priors of multi-step diffusion-based text-to-image models. However, these methods often fall short of the speed demands required for real-world and on-device applications due to the costly multi-step inversion and sampling process involved. In response to this, we introduce SwiftEdit, a simple yet highly efficient editing tool that achieve instant text-guided image editing (in 0.23s). The advancement of SwiftEdit lies in its two novel contributions: a one-step inversion framework that enables one-step image reconstruction via inversion and a mask-guided editing technique with our proposed attention rescaling mechanism to perform localized image editing. Extensive experiments are provided to demonstrate the effectiveness and efficiency of SwiftEdit. In particular, SwiftEdit enables instant text-guided image editing, which is extremely faster than previous multi-step methods (at least 50 times faster) while maintain a competitive performance in editing results. Our project page is at: https://swift-edit.github.io/

arxiv情報

著者 Trong-Tung Nguyen,Quang Nguyen,Khoi Nguyen,Anh Tran,Cuong Pham
発行日 2025-06-02 09:59:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SwiftEdit: Lightning Fast Text-Guided Image Editing via One-Step Diffusion はコメントを受け付けていません

Contrastive Alignment with Semantic Gap-Aware Corrections in Text-Video Retrieval

要約

テキストビデオ検索の最近の進歩は、主に対照的な学習フレームワークによって推進されています。
ただし、既存の方法は、最適化の緊張の重要なソースを見落としています。表現空間(モダリティギャップと呼ばれる)のテキストとビデオ分布の分離、およびバッチサンプリングにおける偽陰性の有病率です。
これらの要因は、インフォンセ損失の下で矛盾する勾配につながり、安定したアライメントを妨げます。
これを緩和するために、グローバルアンカー表現から張力をオフロードするためにテキストT_IとビデオV_Jの間に学習可能なペア固有の増分DELTA_IJを導入するギャップアウェア検索フレームワークであるGareを提案します。
最初に、信託地域制約の下でのインフォンセ損失の結合された多変量の一次テイラー近似を介して、Delta_IJの理想的な形を導き出し、局所的に最適な降下方向に沿って更新を導くことにより、勾配競合を解決するメカニズムとして明らかにします。
Delta_IJを直接計算するコストがかかるため、各ビデオテキストペア間のセマンティックギャップを条件に条件付けられた軽量のニューラルモジュールを導入し、勾配監督によって導かれる構造対応修正を可能にします。
学習をさらに安定させ、解釈可能性を促進するために、3つのコンポーネントを使用してデルタを正規化します。振動を防ぐための信頼地域制約、セマンティックカバレッジを促進するための方向性の多様性用語、および冗長性を制限する情報ボトルネック。
4つの検索ベンチマークにわたる実験では、Gareが騒々しい監督に対するアライメントの精度と堅牢性を一貫して改善し、ギャップアウェアの緊張緩和の有効性を確認することが示されています。

要約(オリジナル)

Recent advances in text-video retrieval have been largely driven by contrastive learning frameworks. However, existing methods overlook a key source of optimization tension: the separation between text and video distributions in the representation space (referred to as the modality gap), and the prevalence of false negatives in batch sampling. These factors lead to conflicting gradients under the InfoNCE loss, impeding stable alignment. To mitigate this, we propose GARE, a Gap-Aware Retrieval framework that introduces a learnable, pair-specific increment Delta_ij between text t_i and video v_j to offload the tension from the global anchor representation. We first derive the ideal form of Delta_ij via a coupled multivariate first-order Taylor approximation of the InfoNCE loss under a trust-region constraint, revealing it as a mechanism for resolving gradient conflicts by guiding updates along a locally optimal descent direction. Due to the high cost of directly computing Delta_ij, we introduce a lightweight neural module conditioned on the semantic gap between each video-text pair, enabling structure-aware correction guided by gradient supervision. To further stabilize learning and promote interpretability, we regularize Delta using three components: a trust-region constraint to prevent oscillation, a directional diversity term to promote semantic coverage, and an information bottleneck to limit redundancy. Experiments across four retrieval benchmarks show that GARE consistently improves alignment accuracy and robustness to noisy supervision, confirming the effectiveness of gap-aware tension mitigation.

arxiv情報

著者 Jian Xiao,Zijie Song,Jialong Hu,Hao Cheng,Zhenzhen Hu,Jia Li,Richang Hong
発行日 2025-06-02 10:17:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR, cs.MM | Contrastive Alignment with Semantic Gap-Aware Corrections in Text-Video Retrieval はコメントを受け付けていません

MSDNet: Multi-Scale Decoder for Few-Shot Semantic Segmentation via Transformer-Guided Prototyping

要約

少数のセマンティックセグメンテーションでは、クエリ画像のオブジェクトをセグメント化するという課題に対処します。
ただし、以前の最先端の方法の多くは、複雑なローカルセマンティック機能を破棄するか、高い計算の複雑さに苦しむ必要があります。
これらの課題に対処するために、変圧器アーキテクチャに基づいて、新しい少数のセマンティックセグメンテーションフレームワークを提案します。
私たちのアプローチでは、空間変圧器デコーダーとコンテキストマスク生成モジュールを紹介して、サポート画像とクエリ画像の間のリレーショナル理解を改善します。
さらに、さまざまな解像度から機能を階層的に組み込むことにより、セグメンテーションマスクを改良するためのマルチスケールデコーダーを導入します。
さらに、当社のアプローチは、中間エンコーダーステージのグローバルな機能を統合して、コンテキストの理解を改善しながら、軽量構造を維持して複雑さを軽減します。
このパフォーマンスと効率のバランスにより、当社の方法は、1ショット設定と5ショット設定の両方で、Pascal-5^IやCoCO-20^Iなどのベンチマークデータセットで競争結果を達成できます。
特に、わずか150万のパラメーターを備えたモデルは、既存の方法論の制限を克服しながら、競争力のあるパフォーマンスを示しています。

要約(オリジナル)

Few-shot Semantic Segmentation addresses the challenge of segmenting objects in query images with only a handful of annotated examples. However, many previous state-of-the-art methods either have to discard intricate local semantic features or suffer from high computational complexity. To address these challenges, we propose a new Few-shot Semantic Segmentation framework based on the Transformer architecture. Our approach introduces the spatial transformer decoder and the contextual mask generation module to improve the relational understanding between support and query images. Moreover, we introduce a multi scale decoder to refine the segmentation mask by incorporating features from different resolutions in a hierarchical manner. Additionally, our approach integrates global features from intermediate encoder stages to improve contextual understanding, while maintaining a lightweight structure to reduce complexity. This balance between performance and efficiency enables our method to achieve competitive results on benchmark datasets such as PASCAL-5^i and COCO-20^i in both 1-shot and 5-shot settings. Notably, our model with only 1.5 million parameters demonstrates competitive performance while overcoming limitations of existing methodologies.

arxiv情報

著者 Amirreza Fateh,Mohammad Reza Mohammadi,Mohammad Reza Jahed Motlagh
発行日 2025-06-02 10:22:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | MSDNet: Multi-Scale Decoder for Few-Shot Semantic Segmentation via Transformer-Guided Prototyping はコメントを受け付けていません

MultiFlow: A unified deep learning framework for multi-vessel classification, segmentation and clustering of phase-contrast MRI validated on a multi-site single ventricle patient cohort

要約

単一室室患者のレジストリにおける自動セグメンテーションと大規模な流れの表現型の2つのモデルを備えた深い学習フレームワークを提示します。
MultiFlowsegは、5つの主要血管、左右の肺動脈、大動脈、上大静脈、および下Vena Cavaを同時に分類およびセグメント化し、速度エンコードされた位相コントラスト磁気共鳴(PCMR)データを分類します。
260 CMR試験(試験ごとに5 PCMRスキャン)でトレーニングされ、50の目に見えないテストケースで平均DICEスコアが0.91に達しました。
次に、この方法を自動化されたパイプラインに統合し、5,500を超えるレジストリ試験を人間の支援なしで処理しました。5隻すべての船舶を使用した試験では、98%の分類と90%のセグメンテーション精度を達成しました。
成功したセグメンテーションからのフロー曲線を使用して、MultiFlowDTCを訓練しました。これは、深い時間的クラスタリングを適用して、異なる流れの表現型を特定しました。
生存分析により、異なる表現型は、死/移植のリスクの増加と肝臓疾患の増加と有意に関連しており、フレームワークの可能性を示しています。

要約(オリジナル)

We present a deep learning framework with two models for automated segmentation and large-scale flow phenotyping in a registry of single-ventricle patients. MultiFlowSeg simultaneously classifies and segments five key vessels, left and right pulmonary arteries, aorta, superior vena cava, and inferior vena cava, from velocity encoded phase-contrast magnetic resonance (PCMR) data. Trained on 260 CMR exams (5 PCMR scans per exam), it achieved an average Dice score of 0.91 on 50 unseen test cases. The method was then integrated into an automated pipeline where it processed over 5,500 registry exams without human assistance, in exams with all 5 vessels it achieved 98% classification and 90% segmentation accuracy. Flow curves from successful segmentations were used to train MultiFlowDTC, which applied deep temporal clustering to identify distinct flow phenotypes. Survival analysis revealed distinct phenotypes were significantly associated with increased risk of death/transplantation and liver disease, demonstrating the potential of the framework.

arxiv情報

著者 Tina Yao,Nicole St. Clair,Madeline Gong,Gabriel F. Miller,Jennifer A. Steeden,Rahul H. Rathod,Vivek Muthurangu,FORCE Investigators
発行日 2025-06-02 10:24:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MultiFlow: A unified deep learning framework for multi-vessel classification, segmentation and clustering of phase-contrast MRI validated on a multi-site single ventricle patient cohort はコメントを受け付けていません

ReelWave: Multi-Agentic Movie Sound Generation through Multimodal LLM Conversation

要約

テキストまたはビデオで条件付けられた現在のオーディオ生成は、オーディオをテキスト/ビデオのモダリティと調整することに焦点を当てています。
優れたアラインメントの結果にもかかわらず、これらのマルチモーダルフレームワークは、「画面上」の音が一時的に整列したオーディオ生成を必要とする複数のシーンを含む説得力のある映画ストーリーテリングに直接適用することはできません。
プロの映画制作に触発されたこのペーパーでは、自律型のサウンドディレクターエージェントが監督したオーディオ生成のためのマルチエージェントフレームワークを提案し、マルチモーダルLLMを通じて画面上およびオフスクリーンのサウンド生成のために他のエージェントとのマルチターン会話を引き付けます。
画面上のサウンド生成に対処するために、ビデオで話す人間を検出した後、解釈可能な時変オーディオコントロールシグナルを予測する予測モデルをトレーニングすることにより、意味的かつ時間的に同期した音をキャプチャします。
フォーリーアーティストは、作曲家や声優のエージェントと協力して協力し、一緒になって全体的な制作を補完するためにオフスクリーンサウンドを自律的に生成します。
各エージェントは、映画制作チームの役割と同様の特定の役割を引き受けます。
一時的にオーディオ言語モデルを接地するために、リール波では、テキスト/ビデオの条件が、該当する場合にビジュアルと同期された原子的な特定のサウンド生成命令に分解されます。
その結果、私たちのフレームワークは、映画から抽出されたビデオクリップを条件付けたリッチで関連するオーディオコンテンツを生成できます。

要約(オリジナル)

Current audio generation conditioned by text or video focuses on aligning audio with text/video modalities. Despite excellent alignment results, these multimodal frameworks still cannot be directly applied to compelling movie storytelling involving multiple scenes, where ‘on-screen’ sounds require temporally-aligned audio generation, while ‘off-screen’ sounds contribute to appropriate environment sounds accompanied by background music when applicable. Inspired by professional movie production, this paper proposes a multi-agentic framework for audio generation supervised by an autonomous Sound Director agent, engaging multi-turn conversations with other agents for on-screen and off-screen sound generation through multimodal LLM. To address on-screen sound generation, after detecting any talking humans in videos, we capture semantically and temporally synchronized sound by training a prediction model that forecasts interpretable, time-varying audio control signals: loudness, pitch, and timbre, which are used by a Foley Artist agent to condition a cross-attention module in the sound generation. The Foley Artist works cooperatively with the Composer and Voice Actor agents, and together they autonomously generate off-screen sound to complement the overall production. Each agent takes on specific roles similar to those of a movie production team. To temporally ground audio language models, in ReelWave, text/video conditions are decomposed into atomic, specific sound generation instructions synchronized with visuals when applicable. Consequently, our framework can generate rich and relevant audio content conditioned on video clips extracted from movies.

arxiv情報

著者 Zixuan Wang,Chi-Keung Tang,Yu-Wing Tai
発行日 2025-06-02 10:38:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD | ReelWave: Multi-Agentic Movie Sound Generation through Multimodal LLM Conversation はコメントを受け付けていません

RemoteSAM: Towards Segment Anything for Earth Observation

要約

私たちは、地球観測のための堅牢で柔軟な視覚基盤モデルを開発することを目指しています。
さまざまなタスクシナリオで必要なさまざまな入出力インターフェイスとの互換性を提供しながら、多様な視覚ターゲットを認識してローカライズする上で強力な機能を備えている必要があります。
現在のシステムは、これらの要件を満たすことはできません。通常、セマンティックカバレッジが限られている狭いデータドメインでトレーニングされたタスク固有のアーキテクチャを利用するからです。
私たちの研究では、これらの制限は、データとモデリングの2つの側面からです。
最初に、以前の人間の注釈やルールベースのアプローチと比較して、非常に優れたスケーラビリティを享受する自動データエンジンを紹介します。
これにより、この種の最大のデータセットを作成することができました。これは、前例のない範囲の多様なセマンティックカテゴリと属性仕様をカバーする270kの画像テキストマスクトリプレットで構成されています。
このデータファンデーションに基づいて、式のセグメンテーションを参照することを中心とするタスク統合パラダイムをさらに提案します。
タスク固有のヘッドのない単一のモデルを使用して、分類、検出、セグメンテーション、接地など、視力中心の幅広い知覚タスクを効果的に処理します。
データとモデリングに関するこれらの革新を組み合わせることで、いくつかの地球観測知覚ベンチマークに新しいSOTAを確立する基礎モデルであるRemotesamを提示し、Falcon、Geochat、LHRS-Botなどの他の基礎モデルを優れた効率を高めます。
モデルとデータは、https://github.com/1e12leon/remotesamで公開されています。

要約(オリジナル)

We aim to develop a robust yet flexible visual foundation model for Earth observation. It should possess strong capabilities in recognizing and localizing diverse visual targets while providing compatibility with various input-output interfaces required across different task scenarios. Current systems cannot meet these requirements, as they typically utilize task-specific architecture trained on narrow data domains with limited semantic coverage. Our study addresses these limitations from two aspects: data and modeling. We first introduce an automatic data engine that enjoys significantly better scalability compared to previous human annotation or rule-based approaches. It has enabled us to create the largest dataset of its kind to date, comprising 270K image-text-mask triplets covering an unprecedented range of diverse semantic categories and attribute specifications. Based on this data foundation, we further propose a task unification paradigm that centers around referring expression segmentation. It effectively handles a wide range of vision-centric perception tasks, including classification, detection, segmentation, grounding, etc, using a single model without any task-specific heads. Combining these innovations on data and modeling, we present RemoteSAM, a foundation model that establishes new SoTA on several earth observation perception benchmarks, outperforming other foundation models such as Falcon, GeoChat, and LHRS-Bot with significantly higher efficiency. Models and data are publicly available at https://github.com/1e12Leon/RemoteSAM.

arxiv情報

著者 Liang Yao,Fan Liu,Delong Chen,Chuanyi Zhang,Yijun Wang,Ziyun Chen,Wei Xu,Shimin Di,Yuhui Zheng
発行日 2025-06-02 10:46:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RemoteSAM: Towards Segment Anything for Earth Observation はコメントを受け付けていません

A Conformal Risk Control Framework for Granular Word Assessment and Uncertainty Calibration of CLIPScore Quality Estimates

要約

この研究では、学習された画像キャプション評価メトリックの現在の制限、特にキャプション内のエラーの細かい評価の欠如、および不確実性を考慮せずに単一点の品質推定値への依存を調査します。
制限に対処するために、Clipscore値の分布を生成および校正するためのシンプルで効果的な戦略を提案します。
モデルに依存しないコンフォーマルリスク制御フレームワークを活用すると、タスク固有の制御変数のクリップスコア値を校正し、前述の制限に取り組みます。
実験結果は、入力マスキングなどの単純な方法で生成されたスコア分布を超えるコンフォーマルリスク制御を使用することで、より複雑なアプローチと比較して競争力のあるパフォーマンスを達成できることを示しています。
私たちの方法は、誤った単語を効果的に検出しながら、望ましいリスクレベルに合わせた正式な保証を提供します。
また、不確実性の推定と予測エラーとの相関関係を改善し、キャプション評価メトリックの全体的な信頼性を高めます。

要約(オリジナル)

This study explores current limitations of learned image captioning evaluation metrics, specifically the lack of granular assessments for errors within captions, and the reliance on single-point quality estimates without considering uncertainty. To address the limitations, we propose a simple yet effective strategy for generating and calibrating distributions of CLIPScore values. Leveraging a model-agnostic conformal risk control framework, we calibrate CLIPScore values for task-specific control variables, tackling the aforementioned limitations. Experimental results demonstrate that using conformal risk control, over score distributions produced with simple methods such as input masking, can achieve competitive performance compared to more complex approaches. Our method effectively detects erroneous words, while providing formal guarantees aligned with desired risk levels. It also improves the correlation between uncertainty estimations and prediction errors, thus enhancing the overall reliability of caption evaluation metrics.

arxiv情報

著者 Gonçalo Gomes,Bruno Martins,Chrysoula Zerva
発行日 2025-06-02 10:58:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | A Conformal Risk Control Framework for Granular Word Assessment and Uncertainty Calibration of CLIPScore Quality Estimates はコメントを受け付けていません

TextDestroyer: A Training- and Annotation-Free Diffusion Method for Destroying Anomal Text from Images

要約

この論文では、事前に訓練された拡散モデルを使用したシーンテキスト破壊のための最初のトレーニングおよび注釈なしの方法であるTextDestroyerを提案します。
既存のシーンのテキスト削除モデルには、複雑な注釈と再訓練が必要であり、プライバシー保護とコンテンツの隠蔽を損なうか、かすかに認識可能なテキスト情報を残す可能性があります。
TextDestroyerは、3段階の階層プロセスを使用して正確なテキストマスクを取得することにより、これらの問題に対処します。
私たちのメソッドは、再構築前にガウス分布を使用して潜在スタートコードのテキスト領域をスクランブルします。
拡散除去プロセス中に、妥協した背景を回復するために、元の潜在性から自己関節の鍵と価値が参照されます。
各反転ステップで保存された潜在コードは、再建中に交換に使用され、完全なバックグラウンドの修復を確保します。
TextDestroyerの利点には、次のものが含まれます。(1)労働集約的なデータ注釈とリソース集約型トレーニングを排除します。
(2)より徹底的なテキスト破壊を達成し、認識可能な痕跡を防ぎます。
(3)より良い一般化能力を示し、実際のシーンと生成された画像の両方でうまく機能します。

要約(オリジナル)

In this paper, we propose TextDestroyer, the first training- and annotation-free method for scene text destruction using a pre-trained diffusion model. Existing scene text removal models require complex annotation and retraining, and may leave faint yet recognizable text information, compromising privacy protection and content concealment. TextDestroyer addresses these issues by employing a three-stage hierarchical process to obtain accurate text masks. Our method scrambles text areas in the latent start code using a Gaussian distribution before reconstruction. During the diffusion denoising process, self-attention key and value are referenced from the original latent to restore the compromised background. Latent codes saved at each inversion step are used for replacement during reconstruction, ensuring perfect background restoration. The advantages of TextDestroyer include: (1) it eliminates labor-intensive data annotation and resource-intensive training; (2) it achieves more thorough text destruction, preventing recognizable traces; and (3) it demonstrates better generalization capabilities, performing well on both real-world scenes and generated images.

arxiv情報

著者 Mengcheng Li,Fei Chao,Chia-Wen Lin,Rongrong Ji
発行日 2025-06-02 11:08:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | TextDestroyer: A Training- and Annotation-Free Diffusion Method for Destroying Anomal Text from Images はコメントを受け付けていません

DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving

要約

エンドツーエンドの自律運転に関する研究の関心は、モジュラータスク、つまり、究極の目標を追求する最適化を可能にする、モジュラータスク、つまり知覚、予測、および計画を統合する完全な設計により急増しています。
エンドツーエンドのパラダイムの大きな可能性にもかかわらず、既存の方法は、複雑な現実世界のシナリオにおける高価なBEV(鳥瞰図)の計算、アクションの多様性、最適な決定など、いくつかの側面に苦しんでいます。
これらの課題に対処するために、diff-vlaと呼ばれるビジョン言語モデル(VLM)によって権限を与えられた、新しいハイブリッドスパース密度の高い拡散ポリシーを提案します。
効率的なマルチモーダル駆動行動のためのスパース拡散表現を探ります。
さらに、VLMの運転決定の有効性を再考し、エージェント、マップインスタンス、VLM出力を介した深い相互作用を通じて軌道生成ガイダンスを改善します。
私たちの方法は、挑戦的な現実的で反応性のある合成シナリオを含む自律的なグランドチャレンジ2025の優れたパフォーマンスを示しています。
私たちの方法は45.0 PDMSを達成します。

要約(オリジナル)

Research interest in end-to-end autonomous driving has surged owing to its fully differentiable design integrating modular tasks, i.e. perception, prediction and planing, which enables optimization in pursuit of the ultimate goal. Despite the great potential of the end-to-end paradigm, existing methods suffer from several aspects including expensive BEV (bird’s eye view) computation, action diversity, and sub-optimal decision in complex real-world scenarios. To address these challenges, we propose a novel hybrid sparse-dense diffusion policy, empowered by a Vision-Language Model (VLM), called Diff-VLA. We explore the sparse diffusion representation for efficient multi-modal driving behavior. Moreover, we rethink the effectiveness of VLM driving decision and improve the trajectory generation guidance through deep interaction across agent, map instances and VLM output. Our method shows superior performance in Autonomous Grand Challenge 2025 which contains challenging real and reactive synthetic scenarios. Our methods achieves 45.0 PDMS.

arxiv情報

著者 Anqing Jiang,Yu Gao,Zhigang Sun,Yiru Wang,Jijun Wang,Jinghao Chai,Qian Cao,Yuweng Heng,Hao Jiang,Zongzheng Zhang,Xianda Guo,Hao Sun,Hao Zhao
発行日 2025-06-02 11:51:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving はコメントを受け付けていません

Erwin: A Tree-based Hierarchical Transformer for Large-scale Physical Systems

要約

不規則なグリッドで定義された大規模な物理システムは、特に長距離相互作用とマルチスケールの結合が存在する場合、深い学習方法に大きなスケーラビリティの課題をもたらします。
注意などのすべてのペアワイズ相互作用を計算する従来のアプローチは、ノードの数と二次的にスケーリングするため、計算的に禁止されます。
樹木ベースのアルゴリズムの効率と注意メカニズムの表現率を組み合わせた、計算多体物理学の方法に触発された階層変圧器であるErwinを提示します。
Erwinは、ボールツリーパーティションを使用して計算を整理します。これにより、固定サイズのローカル近傍内でノードを並行してノードを処理することにより、線形時間の注意が整います。
新しいクロスボール相互作用メカニズムによって補完されたボールツリー構造の漸進的な粗大化と改良により、細粒の局所的な詳細とグローバルな特徴の両方をキャプチャします。
宇宙論、分子動力学、PDE解く、粒子流体のダイナミクスを含む複数のドメインにわたるErwinの有効性を示し、精度と計算効率の両方でベースラインメソッドを常に上回っています。

要約(オリジナル)

Large-scale physical systems defined on irregular grids pose significant scalability challenges for deep learning methods, especially in the presence of long-range interactions and multi-scale coupling. Traditional approaches that compute all pairwise interactions, such as attention, become computationally prohibitive as they scale quadratically with the number of nodes. We present Erwin, a hierarchical transformer inspired by methods from computational many-body physics, which combines the efficiency of tree-based algorithms with the expressivity of attention mechanisms. Erwin employs ball tree partitioning to organize computation, which enables linear-time attention by processing nodes in parallel within local neighborhoods of fixed size. Through progressive coarsening and refinement of the ball tree structure, complemented by a novel cross-ball interaction mechanism, it captures both fine-grained local details and global features. We demonstrate Erwin’s effectiveness across multiple domains, including cosmology, molecular dynamics, PDE solving, and particle fluid dynamics, where it consistently outperforms baseline methods both in accuracy and computational efficiency.

arxiv情報

著者 Maksim Zhdanov,Max Welling,Jan-Willem van de Meent
発行日 2025-06-02 11:57:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Erwin: A Tree-based Hierarchical Transformer for Large-scale Physical Systems はコメントを受け付けていません