Low-Resource Transliteration for Roman-Urdu and Urdu Using Transformer-Based Models

要約

情報検索(IR)フィールドが包括性の重要性をますます認識しているため、低リソース言語のニーズに対処することは依然として重要な課題です。
ウルドゥー語とそのローマ化された形式であるローマのウルドゥー語の間の音訳は、南アジアでの両方のスクリプトを広範囲に使用しているにもかかわらず、既知のままです。
Roman-Udu-ParlデータセットでRNNを使用した以前の研究は、有望な結果を示しましたが、貧弱なドメインの適応性と限られた評価に苦しんでいました。
M2M100多言語翻訳モデルを使用して変圧器ベースのアプローチを提案し、Masked Language Modeling(MLM)GretrainingとRoman-Udu-ParlとドメインダイバーDakshina Datasetの両方で強化されています。
以前の評価の欠陥に対処するために、厳密なデータセットの分割を導入し、BLEU、キャラクターレベルのBLE、およびCHRFを使用してパフォーマンスを評価します。
私たちのモデルは、Urdu-> Roman-Uduで96.37、Roman-Udu-> Urduで97.44のChar-Bleuスコアが96.37で、強力な音訳性能を達成しています。
これらの結果は、RNNベースラインとGPT-4O MINIの両方を上回り、低リソースの音訳タスクに対する多言語転送学習の有効性を示しています。

要約(オリジナル)

As the Information Retrieval (IR) field increasingly recognizes the importance of inclusivity, addressing the needs of low-resource languages remains a significant challenge. Transliteration between Urdu and its Romanized form, Roman Urdu, remains underexplored despite the widespread use of both scripts in South Asia. Prior work using RNNs on the Roman-Urdu-Parl dataset showed promising results but suffered from poor domain adaptability and limited evaluation. We propose a transformer-based approach using the m2m100 multilingual translation model, enhanced with masked language modeling (MLM) pretraining and fine-tuning on both Roman-Urdu-Parl and the domain-diverse Dakshina dataset. To address previous evaluation flaws, we introduce rigorous dataset splits and assess performance using BLEU, character-level BLEU, and CHRF. Our model achieves strong transliteration performance, with Char-BLEU scores of 96.37 for Urdu->Roman-Urdu and 97.44 for Roman-Urdu->Urdu. These results outperform both RNN baselines and GPT-4o Mini and demonstrate the effectiveness of multilingual transfer learning for low-resource transliteration tasks.

arxiv情報

著者 Umer Butt,Stalin Veranasi,Günter Neumann
発行日 2025-03-27 14:18:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Low-Resource Transliteration for Roman-Urdu and Urdu Using Transformer-Based Models はコメントを受け付けていません

Robust Counterfactual Inference in Markov Decision Processes

要約

このペーパーでは、マルコフ決定プロセス(MDP)の既存の反事実的推論方法の重要な制限について説明します。
現在のアプローチは、反事実を識別できるようにする特定の因果モデルを想定しています。
ただし、通常、MDPの観察および介入分布に沿った多くの因果モデルがあり、それぞれが異なる反事実的分布を生成するため、特定の因果モデルを修正すると、反事実的推論の妥当性(および有用性)が制限されます。
すべての互換性のある因果モデルにわたって反事実的遷移確率で密接な境界を計算する新しいノンパラメトリックアプローチを提案します。
法外に大きな最適化の問題を解決する必要がある以前の方法(MDPのサイズで指数関数的に成長する変数を使用)とは異なり、私たちのアプローチはこれらの境界の閉じた式式を提供し、計算を非常に効率的でスケーラブルにします。
このような間隔の反事実的なMDPが構築されると、私たちの方法は、最悪の報酬W.R.Tを最適化する堅牢な反事実的ポリシーを識別します。
不確実な間隔MDP確率。
さまざまなケーススタディでの方法を評価し、既存の方法に対する堅牢性の向上を示しています。

要約(オリジナル)

This paper addresses a key limitation in existing counterfactual inference methods for Markov Decision Processes (MDPs). Current approaches assume a specific causal model to make counterfactuals identifiable. However, there are usually many causal models that align with the observational and interventional distributions of an MDP, each yielding different counterfactual distributions, so fixing a particular causal model limits the validity (and usefulness) of counterfactual inference. We propose a novel non-parametric approach that computes tight bounds on counterfactual transition probabilities across all compatible causal models. Unlike previous methods that require solving prohibitively large optimisation problems (with variables that grow exponentially in the size of the MDP), our approach provides closed-form expressions for these bounds, making computation highly efficient and scalable for non-trivial MDPs. Once such an interval counterfactual MDP is constructed, our method identifies robust counterfactual policies that optimise the worst-case reward w.r.t. the uncertain interval MDP probabilities. We evaluate our method on various case studies, demonstrating improved robustness over existing methods.

arxiv情報

著者 Jessica Lally,Milad Kazemi,Nicola Paoletti
発行日 2025-03-27 14:20:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Robust Counterfactual Inference in Markov Decision Processes はコメントを受け付けていません

LOCATEdit: Graph Laplacian Optimized Cross Attention for Localized Text-Guided Image Editing

要約

テキスト誘導画像編集は、一般的な構造と背景の忠実度を維持しながら、自然言語の指示に従って画像の特定の領域を変更することを目的としています。
既存の方法は、拡散モデルから生成された交差アテンションマップから派生したマスクを利用して、修正のためのターゲット領域を識別します。
ただし、クロスアテンションメカニズムはセマンティック関連性に焦点を当てているため、イメージの完全性を維持するのに苦労しています。
その結果、これらの方法はしばしば空間的な一貫性を欠いており、アーティファクトと歪みの編集につながります。
この作業では、これらの制限に対処し、導入します。これにより、自己攻撃由来のパッチ関係を利用してグラフベースのアプローチを介してクロスアテナンスマップを強化して、画像領域全体で滑らかでコヒーレントな注意を維持し、周囲の構造を保持しながら変更されたアイテムに制限されるようにします。
\メソッドは、パイベンチの既存のベースラインを一貫して実質的に上回り、さまざまな編集タスクで最先端のパフォーマンスと有効性を示しています。
コードはhttps://github.com/locatedit/locatedit/にあります

要約(オリジナル)

Text-guided image editing aims to modify specific regions of an image according to natural language instructions while maintaining the general structure and the background fidelity. Existing methods utilize masks derived from cross-attention maps generated from diffusion models to identify the target regions for modification. However, since cross-attention mechanisms focus on semantic relevance, they struggle to maintain the image integrity. As a result, these methods often lack spatial consistency, leading to editing artifacts and distortions. In this work, we address these limitations and introduce LOCATEdit, which enhances cross-attention maps through a graph-based approach utilizing self-attention-derived patch relationships to maintain smooth, coherent attention across image regions, ensuring that alterations are limited to the designated items while retaining the surrounding structure. \method consistently and substantially outperforms existing baselines on PIE-Bench, demonstrating its state-of-the-art performance and effectiveness on various editing tasks. Code can be found on https://github.com/LOCATEdit/LOCATEdit/

arxiv情報

著者 Achint Soni,Meet Soni,Sirisha Rambhatla
発行日 2025-03-27 14:32:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | LOCATEdit: Graph Laplacian Optimized Cross Attention for Localized Text-Guided Image Editing はコメントを受け付けていません

SWI: Speaking with Intent in Large Language Models

要約

通常、明確に定式化され計画されている意図は、推論と問題解決のための認知フレームワークとして機能します。
このペーパーでは、大規模な言語モデル(LLMS)で意図(SWI)と話すという概念を紹介します。ここでは、明示的に生成された意図がモデルの根本的な意図をカプセル化し、その後の分析と通信を導くための高レベルの計画を提供します。
SWIは、人間の心の中で意図的で目的のある思考をエミュレートすることにより、LLMの推論能力と生成の質を高めるために仮定されています。
数学的推論ベンチマークに関する広範な実験は、ベースライン(つまり、明示的な意図のない生成)をめぐる意図で話すことの優位性を一貫して示しています。
さらに、SWIは、メソッドの考え方と計画と解決の方法を促し、強力なメソッドARR(分析、取得、および推論)で競争力を維持し、維持し、維持します。
さらに、SWIの有効性と一般化可能性は、SWIがベースライン生成に一貫した改善をもたらす、推論集約的な質問応答(QA)およびテキスト要約ベンチマークに固執しています。
テキストの要約では、SWIに生成された要約は、幻覚が少なく、より高い精度、簡潔さ、および事実の正確さを示します。
さらに、人間の評価は、SWIによって生成された意図の一貫性、有効性、および解釈可能性を検証します。
この概念実証研究は、認知的概念でLLMSの推論能力を高めるための新しい手段を作成します。

要約(オリジナル)

Intent, typically clearly formulated and planned, functions as a cognitive framework for reasoning and problem-solving. This paper introduces the concept of Speaking with Intent (SWI) in large language models (LLMs), where the explicitly generated intent encapsulates the model’s underlying intention and provides high-level planning to guide subsequent analysis and communication. By emulating deliberate and purposeful thoughts in the human mind, SWI is hypothesized to enhance the reasoning capabilities and generation quality of LLMs. Extensive experiments on mathematical reasoning benchmarks consistently demonstrate the superiority of Speaking with Intent over Baseline (i.e., generation without explicit intent). Moreover, SWI outperforms answer-trigger prompting methods Chain-of-Thought and Plan-and-Solve and maintains competitive performance with the strong method ARR (Analyzing, Retrieving, and Reasoning). Additionally, the effectiveness and generalizability of SWI are solidified on reasoning-intensive question answering (QA) and text summarization benchmarks, where SWI brings consistent improvement to the Baseline generation. In text summarization, SWI-generated summaries exhibit greater accuracy, conciseness, and factual correctness, with fewer hallucinations. Furthermore, human evaluations verify the coherence, effectiveness, and interpretability of the intent produced by SWI. This proof-of-concept study creates a novel avenue for enhancing LLMs’ reasoning abilities with cognitive notions.

arxiv情報

著者 Yuwei Yin,EunJeong Hwang,Giuseppe Carenini
発行日 2025-03-27 14:34:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.7 | SWI: Speaking with Intent in Large Language Models はコメントを受け付けていません

TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training

要約

拡散モデルは、視覚生成の主流のアプローチとして浮上しています。
ただし、これらのモデルは通常、サンプルの非効率性と高いトレーニングコストに悩まされています。
その結果、効率的な微調整、推論、パーソナライズの方法は、コミュニティによって迅速に採用されました。
ただし、そもそもこれらのモデルのトレーニングは非常に費用がかかります。
マスキング、蒸留、建築の修正を含むいくつかの最近のアプローチは、トレーニング効率を改善するために提案されていますが、これらの各方法にはトレードオフが伴います。計算コストの増加を犠牲にしてパフォーマンスが向上します。
対照的に、この作業は、初期層からモデルのより深い層までランダムに選択されたトークンの輸送メカニズムとして機能するルートを通じて、トレーニング効率と生成パフォーマンスを同時に改善することを目的としています。
私たちの方法は、一般的な変圧器ベースのモデルに限定されません。また、状態空間モデルにも適用でき、建築の変更や追加のパラメーターなしでこれを達成することもできます。
最後に、トレッドが計算コストを削減し、同時にクラス条件合成における標準のImagenet-256ベンチマークのモデルパフォーマンスを向上させることを示します。
これらの利点はどちらも、7mトレーニングの繰り返しでのDITの最高のベンチマークパフォーマンスと比較して、DITと37Xと比較して、400Kトレーニングイテレーションで14倍の収束速度を増やします。
さらに、ガイド付きで2.09の競争力のあるFID、ガイド付き設定で3.93の競争力のあるFIDを達成し、建築の変更なしにDITを改善します。

要約(オリジナル)

Diffusion models have emerged as the mainstream approach for visual generation. However, these models typically suffer from sample inefficiency and high training costs. Consequently, methods for efficient finetuning, inference and personalization were quickly adopted by the community. However, training these models in the first place remains very costly. While several recent approaches – including masking, distillation, and architectural modifications – have been proposed to improve training efficiency, each of these methods comes with a tradeoff: they achieve enhanced performance at the expense of increased computational cost or vice versa. In contrast, this work aims to improve training efficiency as well as generative performance at the same time through routes that act as a transport mechanism for randomly selected tokens from early layers to deeper layers of the model. Our method is not limited to the common transformer-based model – it can also be applied to state-space models and achieves this without architectural modifications or additional parameters. Finally, we show that TREAD reduces computational cost and simultaneously boosts model performance on the standard ImageNet-256 benchmark in class-conditional synthesis. Both of these benefits multiply to a convergence speedup of 14x at 400K training iterations compared to DiT and 37x compared to the best benchmark performance of DiT at 7M training iterations. Furthermore, we achieve a competitive FID of 2.09 in a guided and 3.93 in an unguided setting, which improves upon the DiT, without architectural changes.

arxiv情報

著者 Felix Krause,Timy Phan,Ming Gui,Stefan Andreas Baumann,Vincent Tao Hu,Björn Ommer
発行日 2025-03-27 14:42:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training はコメントを受け付けていません

debug-gym: A Text-Based Environment for Interactive Debugging

要約

大規模な言語モデル(LLM)は、タスクのコーディングにますます依存していますが、ほとんどのシナリオでは、関連するすべての情報にコンテキストでアクセスするか、トレーニングデータと一致すると想定されています。
LLMSは、コードベースをインタラクティブに探索して、タスクに関連する情報を収集する能力から利益を得ることができると仮定します。
これを達成するために、インタラクティブなコーディング設定でLLMベースのエージェントを開発するために、テキスト環境、つまりDebug-Gymを提示します。
私たちの環境は軽量で、LLMベースのエージェントのインタラクティブなデバッグを容易にするように設計されたPythonデバッガー(PDB)などの便利なツールをプリセットします。
タスクのコーディングとデバッグを超えて、このアプローチは、LLMエージェントによる情報を求める行動から恩恵を受ける他のタスクに一般化できます。

要約(オリジナル)

Large Language Models (LLMs) are increasingly relied upon for coding tasks, yet in most scenarios it is assumed that all relevant information can be either accessed in context or matches their training data. We posit that LLMs can benefit from the ability to interactively explore a codebase to gather the information relevant to their task. To achieve this, we present a textual environment, namely debug-gym, for developing LLM-based agents in an interactive coding setting. Our environment is lightweight and provides a preset of useful tools, such as a Python debugger (pdb), designed to facilitate an LLM-based agent’s interactive debugging. Beyond coding and debugging tasks, this approach can be generalized to other tasks that would benefit from information-seeking behavior by an LLM agent.

arxiv情報

著者 Xingdi Yuan,Morgane M Moss,Charbel El Feghali,Chinmay Singh,Darya Moldavskaya,Drew MacPhee,Lucas Caccia,Matheus Pereira,Minseon Kim,Alessandro Sordoni,Marc-Alexandre Côté
発行日 2025-03-27 14:43:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.PL, cs.SE | debug-gym: A Text-Based Environment for Interactive Debugging はコメントを受け付けていません

A Local Perspective-based Model for Overlapping Community Detection

要約

グループ間リンクをまばらで密に接続したノードクラスターを識別するコミュニティ検出は、実際のシステムでネットワーク構造と機能を分析するために不可欠です。
GCNに基づくほとんどの既存のコミュニティ検出方法は、主にノードレベルの情報に焦点を当て、コミュニティレベルの機能を見落とし、大規模なネットワークのパフォーマンスの制限につながります。
この問題に対処するために、地域社会の観点から重複するコミュニティ検出モデルであるLQ-GCNを提案します。
LQ-GCNは、Bernoulli-Poissonモデルを採用して、コミュニティの所属マトリックスを構築し、エンドツーエンドの検出フレームワークを形成します。
目的関数としてローカルモジュール性を採用することにより、モデルには地域コミュニティの情報が組み込まれて、クラスタリング結果の品質と精度が向上します。
さらに、従来のGCNSアーキテクチャは、大規模なネットワークで重複するコミュニティを識別する際のモデル機能を改善するために最適化されています。
実験結果は、LQ-GCNが、複数の実際のベンチマークデータセットのベースラインモデルと比較して、正規化された相互情報(NMI)の最大33%の改善とリコールの26.3%の改善を達成することを示しています。

要約(オリジナル)

Community detection, which identifies densely connected node clusters with sparse between-group links, is vital for analyzing network structure and function in real-world systems. Most existing community detection methods based on GCNs primarily focus on node-level information while overlooking community-level features, leading to performance limitations on large-scale networks. To address this issue, we propose LQ-GCN, an overlapping community detection model from a local community perspective. LQ-GCN employs a Bernoulli-Poisson model to construct a community affiliation matrix and form an end-to-end detection framework. By adopting local modularity as the objective function, the model incorporates local community information to enhance the quality and accuracy of clustering results. Additionally, the conventional GCNs architecture is optimized to improve the model capability in identifying overlapping communities in large-scale networks. Experimental results demonstrate that LQ-GCN achieves up to a 33% improvement in Normalized Mutual Information (NMI) and a 26.3% improvement in Recall compared to baseline models across multiple real-world benchmark datasets.

arxiv情報

著者 Gaofeng Zhou,Rui-Feng Wang,Kangning Cui
発行日 2025-03-27 14:43:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SI | A Local Perspective-based Model for Overlapping Community Detection はコメントを受け付けていません

Magnitude-Phase Dual-Path Speech Enhancement Network based on Self-Supervised Embedding and Perceptual Contrast Stretch Boosting

要約

スピーチの自己学習学習(SSL)は、さまざまな音声処理タスクで大きな進歩を遂げていますが、音声向上の改善の余地がまだあります(SE)。
このペーパーでは、自己監視された機能とSEのマグニチュードフェース情報を組み合わせたデュアルパスフレームワークであるBSP-MPNETを紹介します。
このアプローチは、知覚コントラストストレッチング(PCS)アルゴリズムを適用して、マグニチング相スペクトルを強化することから始まります。
次に、マグニチュードフェーズ2Dコース(MP-2DC)エンコーダーを拡張スペクトルから粗い特徴を抽出します。
次に、機能を分離する自己監視学習(FS-SSL)モデルは、大きさと位相コンポーネントの自己監視埋め込みを個別に生成します。
これらの埋め込みは、クロスドメインの特徴表現を作成するために融合します。
最後に、2つの並列RNN強化マルチアテンション(REMA)マスクデコーダー機能を改良し、マスクに塗布し、音声信号を再構築します。
VoiceBank+DemandとWhamrでBSP-MPNETを評価します!
データセット。
実験結果は、BSP-MPNETがさまざまな騒音条件下で既存の方法を上回り、自己監視された音声強化研究のための新しい指示を提供することを示しています。
BSP-mpnetコードの実装は、オンラインで入手できます\ footnote [2] {https://github.com/alimmat/bsp-mpnet。
\ label {s1}}

要約(オリジナル)

Speech self-supervised learning (SSL) has made great progress in various speech processing tasks, but there is still room for improvement in speech enhancement (SE). This paper presents BSP-MPNet, a dual-path framework that combines self-supervised features with magnitude-phase information for SE. The approach starts by applying the perceptual contrast stretching (PCS) algorithm to enhance the magnitude-phase spectrum. A magnitude-phase 2D coarse (MP-2DC) encoder then extracts coarse features from the enhanced spectrum. Next, a feature-separating self-supervised learning (FS-SSL) model generates self-supervised embeddings for the magnitude and phase components separately. These embeddings are fused to create cross-domain feature representations. Finally, two parallel RNN-enhanced multi-attention (REMA) mask decoders refine the features, apply them to the mask, and reconstruct the speech signal. We evaluate BSP-MPNet on the VoiceBank+DEMAND and WHAMR! datasets. Experimental results show that BSP-MPNet outperforms existing methods under various noise conditions, providing new directions for self-supervised speech enhancement research. The implementation of the BSP-MPNet code is available online\footnote[2]{https://github.com/AlimMat/BSP-MPNet. \label{s1}}

arxiv情報

著者 Alimjan Mattursun,Liejun Wang,Yinfeng Yu,Chunyang Ma
発行日 2025-03-27 14:52:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS | Magnitude-Phase Dual-Path Speech Enhancement Network based on Self-Supervised Embedding and Perceptual Contrast Stretch Boosting はコメントを受け付けていません

AlignDiff: Learning Physically-Grounded Camera Alignment via Diffusion

要約

正確なカメラのキャリブレーションは、特に複雑な光学歪みが一般的である現実世界の内部環境を扱う場合、3D認識の基本的なタスクです。
既存の方法は、多くの場合、事前に修正された画像またはキャリブレーションパターンに依存しており、適用性と柔軟性を制限します。
この作業では、一般的なレイカメラモデルを使用してカメラを共同でモデル化することにより、これらの課題に対処する新しいフレームワークを紹介します。
以前のアプローチとは異なり、Aligndiffはセマンティックから幾何学的特徴に焦点をシフトし、ローカルの歪みのより正確なモデリングを可能にします。
幾何学的前層を条件にした拡散モデルであるAligndiffを提案し、カメラの歪みとシーンジオメトリの同時推定を可能にします。
歪みの予測を強化するために、セマンティックコンテンツではなく、画像エッジの周りの幾何学的特徴にモデルを集中させ、エッジを意識した注意を組み込みます。
さらに、実際のキャプチャの一般化可能性を高めるために、3,000を超えるサンプルを含むレイトレースレンズの大きなデータベースを組み込みます。
このデータベースは、多様な種類のレンズフォームに固有の歪みを特徴付けます。
私たちの実験は、提案された方法が推定された光線バンドルの角度誤差を〜8.2度および全体的なキャリブレーション精度を大幅に減らし、挑戦的で現実世界のデータセットに関する既存のアプローチを上回ることを示しています。

要約(オリジナル)

Accurate camera calibration is a fundamental task for 3D perception, especially when dealing with real-world, in-the-wild environments where complex optical distortions are common. Existing methods often rely on pre-rectified images or calibration patterns, which limits their applicability and flexibility. In this work, we introduce a novel framework that addresses these challenges by jointly modeling camera intrinsic and extrinsic parameters using a generic ray camera model. Unlike previous approaches, AlignDiff shifts focus from semantic to geometric features, enabling more accurate modeling of local distortions. We propose AlignDiff, a diffusion model conditioned on geometric priors, enabling the simultaneous estimation of camera distortions and scene geometry. To enhance distortion prediction, we incorporate edge-aware attention, focusing the model on geometric features around image edges, rather than semantic content. Furthermore, to enhance generalizability to real-world captures, we incorporate a large database of ray-traced lenses containing over three thousand samples. This database characterizes the distortion inherent in a diverse variety of lens forms. Our experiments demonstrate that the proposed method significantly reduces the angular error of estimated ray bundles by ~8.2 degrees and overall calibration accuracy, outperforming existing approaches on challenging, real-world datasets.

arxiv情報

著者 Liuyue Xie,Jiancong Guo,Ozan Cakmakci,Andre Araujo,Laszlo A. Jeni,Zhiheng Jia
発行日 2025-03-27 14:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | AlignDiff: Learning Physically-Grounded Camera Alignment via Diffusion はコメントを受け付けていません

Critical Iterative Denoising: A Discrete Generative Model Applied to Graphs

要約

離散拡散モデルとフローマッチングモデルには、グラフを含む離散構造の生成モデリングが大幅に進んでいます。
ただし、これらのモデルのノーシングプロセスの時間依存性は、後方プロセス中のエラーの蓄積と伝播につながります。
特にマスク拡散で発音されるこの問題は、シーケンスモデリングの既知の制限であり、示すように、グラフの個別の拡散モデルにも影響します。
この問題に対処するために、繰り返し除去と呼ばれる新しいフレームワークを提案します。これは、離散拡散を簡素化し、条件付きの独立性を時間を越えて仮定することで問題を回避することを提案します。
さらに、生成中にデータ分布の下での可能性に基づいて要素を選択的に保持または破損する批評家を組み込むことにより、モデルを強化します。
私たちの経験的評価は、提案された方法がグラフ生成タスクの既存の離散拡散ベースラインを大幅に上回ることを示しています。

要約(オリジナル)

Discrete Diffusion and Flow Matching models have significantly advanced generative modeling for discrete structures, including graphs. However, the time dependencies in the noising process of these models lead to error accumulation and propagation during the backward process. This issue, particularly pronounced in mask diffusion, is a known limitation in sequence modeling and, as we demonstrate, also impacts discrete diffusion models for graphs. To address this problem, we propose a novel framework called Iterative Denoising, which simplifies discrete diffusion and circumvents the issue by assuming conditional independence across time. Additionally, we enhance our model by incorporating a Critic, which during generation selectively retains or corrupts elements in an instance based on their likelihood under the data distribution. Our empirical evaluations demonstrate that the proposed method significantly outperforms existing discrete diffusion baselines in graph generation tasks.

arxiv情報

著者 Yoann Boget,Alexandros Kalousis
発行日 2025-03-27 15:08:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Critical Iterative Denoising: A Discrete Generative Model Applied to Graphs はコメントを受け付けていません