Gaussian Mixture Flow Matching Models

要約

Diffusion models approximate the denoising distribution as a Gaussian and predict its mean, whereas flow matching models reparameterize the Gaussian mean as flow velocity.
However, they underperform in few-step sampling due to discretization error and tend to produce over-saturated colors under classifier-free guidance (CFG).
To address these limitations, we propose a novel Gaussian mixture flow matching (GMFlow) model: instead of predicting the mean, GMFlow predicts dynamic Gaussian mixture (GM) parameters to capture a multi-modal flow velocity distribution, which can be learned with a KL divergence loss.
We demonstrate that GMFlow generalizes previous diffusion and flow matching models where a single Gaussian is learned with an $L_2$ denoising loss.
推論のために、正確な数段階のサンプリングのために分析除去分布と速度フィールドを活用するGM-SDE/ODEソルバーを導き出します。
Furthermore, we introduce a novel probabilistic guidance scheme that mitigates the over-saturation issues of CFG and improves image generation quality.
Extensive experiments demonstrate that GMFlow consistently outperforms flow matching baselines in generation quality, achieving a Precision of 0.942 with only 6 sampling steps on ImageNet 256$\times$256.

要約(オリジナル)

Diffusion models approximate the denoising distribution as a Gaussian and predict its mean, whereas flow matching models reparameterize the Gaussian mean as flow velocity. However, they underperform in few-step sampling due to discretization error and tend to produce over-saturated colors under classifier-free guidance (CFG). To address these limitations, we propose a novel Gaussian mixture flow matching (GMFlow) model: instead of predicting the mean, GMFlow predicts dynamic Gaussian mixture (GM) parameters to capture a multi-modal flow velocity distribution, which can be learned with a KL divergence loss. We demonstrate that GMFlow generalizes previous diffusion and flow matching models where a single Gaussian is learned with an $L_2$ denoising loss. For inference, we derive GM-SDE/ODE solvers that leverage analytic denoising distributions and velocity fields for precise few-step sampling. Furthermore, we introduce a novel probabilistic guidance scheme that mitigates the over-saturation issues of CFG and improves image generation quality. Extensive experiments demonstrate that GMFlow consistently outperforms flow matching baselines in generation quality, achieving a Precision of 0.942 with only 6 sampling steps on ImageNet 256$\times$256.

arxiv情報

著者 Hansheng Chen,Kai Zhang,Hao Tan,Zexiang Xu,Fujun Luan,Leonidas Guibas,Gordon Wetzstein,Sai Bi
発行日 2025-04-07 17:59:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Gaussian Mixture Flow Matching Models はコメントを受け付けていません

URECA: Unique Region Caption Anything

要約

Region-level captioning aims to generate natural language descriptions for specific image regions while highlighting their distinguishing features.
ただし、既存の方法は、多粒度全体で独自のキャプションを作成するのに苦労しており、実際の適用性を制限しています。
To address the need for detailed region-level understanding, we introduce URECA dataset, a large-scale dataset tailored for multi-granularity region captioning.
Unlike prior datasets that focus primarily on salient objects, URECA dataset ensures a unique and consistent mapping between regions and captions by incorporating a diverse set of objects, parts, and background elements.
これの中心は、段階的なデータキュレーションパイプラインで、各ステージは地域の選択とキャプションの生成を徐々に改良します。
By leveraging Multimodal Large Language Models (MLLMs) at each stage, our pipeline produces distinctive and contextually grounded captions with improved accuracy and semantic diversity.
このデータセットに基づいて、多粒度領域を効果的にエンコードするように設計された新しいキャプションモデルであるURECAを提示します。
URECA maintains essential spatial properties such as position and shape through simple yet impactful modifications to existing MLLMs, enabling fine-grained and semantically rich region descriptions.
私たちのアプローチでは、ダイナミックマスクモデリングと高解像度マスクエンコーダーを導入して、キャプションの一意性を高めます。
Experiments show that URECA achieves state-of-the-art performance on URECA dataset and generalizes well to existing region-level captioning benchmarks.

要約(オリジナル)

Region-level captioning aims to generate natural language descriptions for specific image regions while highlighting their distinguishing features. However, existing methods struggle to produce unique captions across multi-granularity, limiting their real-world applicability. To address the need for detailed region-level understanding, we introduce URECA dataset, a large-scale dataset tailored for multi-granularity region captioning. Unlike prior datasets that focus primarily on salient objects, URECA dataset ensures a unique and consistent mapping between regions and captions by incorporating a diverse set of objects, parts, and background elements. Central to this is a stage-wise data curation pipeline, where each stage incrementally refines region selection and caption generation. By leveraging Multimodal Large Language Models (MLLMs) at each stage, our pipeline produces distinctive and contextually grounded captions with improved accuracy and semantic diversity. Building upon this dataset, we present URECA, a novel captioning model designed to effectively encode multi-granularity regions. URECA maintains essential spatial properties such as position and shape through simple yet impactful modifications to existing MLLMs, enabling fine-grained and semantically rich region descriptions. Our approach introduces dynamic mask modeling and a high-resolution mask encoder to enhance caption uniqueness. Experiments show that URECA achieves state-of-the-art performance on URECA dataset and generalizes well to existing region-level captioning benchmarks.

arxiv情報

著者 Sangbeom Lim,Junwan Kim,Heeji Yoon,Jaewoo Jung,Seungryong Kim
発行日 2025-04-07 17:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | URECA: Unique Region Caption Anything はコメントを受け付けていません

CREA: A Collaborative Multi-Agent Framework for Creative Content Generation with Diffusion Models

要約

AIイメージの創造性は依然として基本的な課題であり、視覚的に説得力のあるコンテンツの生成だけでなく、画像に斬新で表現力豊かで芸術的に豊かな変換を追加する能力も必要とします。
直接的なプロンプトベースの変更に依存する従来の編集タスクとは異なり、創造的な画像編集には、独創性、一貫性、芸術的意図のバランスをとる自律的で反復的なアプローチが必要です。
これに対処するために、人間の創造プロセスを模倣する新しいマルチエージェントコラボレーションフレームワークであるCREAを紹介します。
当社のフレームワークは、画像を概念化、生成、批評、および強化するために動的に協力する専門のAIエージェントのチームを活用しています。
広範な定性的および定量的評価を通じて、CREAは、多様性、セマンティックアライメント、および創造的変換における最先端の方法を大幅に上回ることを実証します。
創造性をダイナミックでエージェントのプロセスとして構成することにより、CreaはAIとARTの交差点を再定義し、自律的なAI主導の芸術的探索、生成デザイン、および人間の共創の道を開きます。
私たちの知る限り、これは創造的な編集のタスクを紹介する最初の作品です。

要約(オリジナル)

Creativity in AI imagery remains a fundamental challenge, requiring not only the generation of visually compelling content but also the capacity to add novel, expressive, and artistically rich transformations to images. Unlike conventional editing tasks that rely on direct prompt-based modifications, creative image editing demands an autonomous, iterative approach that balances originality, coherence, and artistic intent. To address this, we introduce CREA, a novel multi-agent collaborative framework that mimics the human creative process. Our framework leverages a team of specialized AI agents who dynamically collaborate to conceptualize, generate, critique, and enhance images. Through extensive qualitative and quantitative evaluations, we demonstrate that CREA significantly outperforms state-of-the-art methods in diversity, semantic alignment, and creative transformation. By structuring creativity as a dynamic, agentic process, CREA redefines the intersection of AI and art, paving the way for autonomous AI-driven artistic exploration, generative design, and human-AI co-creation. To the best of our knowledge, this is the first work to introduce the task of creative editing.

arxiv情報

著者 Kavana Venkatesh,Connor Dunlop,Pinar Yanardag
発行日 2025-04-07 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CREA: A Collaborative Multi-Agent Framework for Creative Content Generation with Diffusion Models はコメントを受け付けていません

Explain with Visual Keypoints Like a Real Mentor! A Benchmark for Multimodal Solution Explanation

要約

大規模な言語モデル(LLMS)における数学的推論能力の急速な進歩により、AIシステムは、学生の問題解決プロセスの理解をサポートするために、教育環境でますます採用されています。
ただし、重要なコンポーネントは、現在のLLM生成された説明:視覚的な説明では、既知のままです。
現実世界の指導的コンテキストでは、人間の家庭教師は、概念的な明確さを強化するために、図、マーク、ハイライトなどの視覚補助具を日常的に採用しています。
このギャップを埋めるために、視覚ソリューションの説明の新しいタスクを紹介します。これには、理解に不可欠な視覚要素(補助線、注釈、または幾何学的構造など)を組み込んだ説明を生成する必要があります。
このタスクでモデルのパフォーマンスを評価するために、視覚キーポイントとそれらの要素を参照する対応する説明テキストに注釈が付けられた997の数学の問題で構成されるマルチモーダルベンチマークであるMathExplainを提案します。
私たちの経験的結果は、一部のクローズドソースモデルは視覚ソリューションと爆発の有望な機能を実証しているが、特に関連する視覚コンポーネントを特定し、コヒーレントなキーポイントベースの説明を生成する際に、現在のオープンソースの汎用モデルが一貫して機能することを示しています。
視覚的ソリューションとexplainingとMathExexplainデータセットは、教育におけるマルチモーダルLLMに関するさらなる研究を触媒し、展開を効果的で説明指向のAIチューターとして促進することを期待しています。
コードとデータは公開されます。

要約(オリジナル)

With the rapid advancement of mathematical reasoning capabilities in Large Language Models (LLMs), AI systems are increasingly being adopted in educational settings to support students’ comprehension of problem-solving processes. However, a critical component remains underexplored in current LLM-generated explanations: visual explanation. In real-world instructional contexts, human tutors routinely employ visual aids – such as diagrams, markings, and highlights – to enhance conceptual clarity. To bridge this gap, we introduce a novel task of visual solution explanation, which requires generating explanations that incorporate newly introduced visual elements essential for understanding (e.g., auxiliary lines, annotations, or geometric constructions). To evaluate model performance on this task, we propose MathExplain, a multimodal benchmark consisting of 997 math problems annotated with visual keypoints and corresponding explanatory text that references those elements. Our empirical results show that while some closed-source models demonstrate promising capabilities on visual solution-explaining, current open-source general-purpose models perform inconsistently, particularly in identifying relevant visual components and producing coherent keypoint-based explanations. We expect that visual solution-explaining and the MathExplain dataset will catalyze further research on multimodal LLMs in education and advance their deployment as effective, explanation-oriented AI tutors. Code and data will be released publicly.

arxiv情報

著者 Jaewoo Park,Jungyang Park,Dongju Jang,Jiwan Chung,Byungwoo Yoo,Jaewoo Shin,Seonjoon Park,Taehyeong Kim,Youngjae Yu
発行日 2025-04-07 14:23:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Explain with Visual Keypoints Like a Real Mentor! A Benchmark for Multimodal Solution Explanation はコメントを受け付けていません

MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models

要約

既存のMLLMベンチマークは、次のために統一されたMLLM(U-MLLM)を評価する際に大きな課題に直面しています。1)従来のタスクの標準化されたベンチマークの欠如、一貫性のない比較につながる。
2)混合モダリティ生成のためのベンチマークの欠如。これは、マルチモーダル推論機能を評価できません。
U-MLLMSを体系的に評価するように設計された包括的な評価フレームワークを提示します。
私たちのベンチマークには、標準化された従来のタスク評価が含まれます。
12のデータセットからサンプリングし、30のサブタスクを備えた10のタスクをカバーし、研究全体で一貫した公正な比較を確保します。
2。統一されたタスク評価。
画像編集、画像生成を備えた常識QA、幾何学的推論など、マルチモーダル推論をテストする5つの新しいタスクを紹介します。
3。包括的なモデルベンチマーク。
Janus-Pro、EMU3、Vila-U、Gemini2-Flashなどの12の主要なU-MLLMを、専門的な理解(Claude-3.5-Sonnetなど)および生成モデル(Dall-E-3など)とともに評価します。
私たちの調査結果は、既存のU-MLLMのかなりのパフォーマンスギャップを明らかにし、混合モダリティタスクを効果的に処理できるより堅牢なモデルの必要性を強調しています。
コードと評価データは、https://mme-unify.github.io/にあります。

要約(オリジナル)

Existing MLLM benchmarks face significant challenges in evaluating Unified MLLMs (U-MLLMs) due to: 1) lack of standardized benchmarks for traditional tasks, leading to inconsistent comparisons; 2) absence of benchmarks for mixed-modality generation, which fails to assess multimodal reasoning capabilities. We present a comprehensive evaluation framework designed to systematically assess U-MLLMs. Our benchmark includes: Standardized Traditional Task Evaluation. We sample from 12 datasets, covering 10 tasks with 30 subtasks, ensuring consistent and fair comparisons across studies.’ 2. Unified Task Assessment. We introduce five novel tasks testing multimodal reasoning, including image editing, commonsense QA with image generation, and geometric reasoning. 3. Comprehensive Model Benchmarking. We evaluate 12 leading U-MLLMs, such as Janus-Pro, EMU3, VILA-U, and Gemini2-flash, alongside specialized understanding (e.g., Claude-3.5-Sonnet) and generation models (e.g., DALL-E-3). Our findings reveal substantial performance gaps in existing U-MLLMs, highlighting the need for more robust models capable of handling mixed-modality tasks effectively. The code and evaluation data can be found in https://mme-unify.github.io/.

arxiv情報

著者 Wulin Xie,Yi-Fan Zhang,Chaoyou Fu,Yang Shi,Bingyan Nie,Hongkai Chen,Zhang Zhang,Liang Wang,Tieniu Tan
発行日 2025-04-07 16:12:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models はコメントを受け付けていません

PaperBench: Evaluating AI’s Ability to Replicate AI Research

要約

AIエージェントが最先端のAI研究を再現する能力を評価するベンチマークであるPaperBenchを紹介します。
エージェントは、紙の貢献の理解、コードベースの開発、実験の実行に成功するなど、20のICML 2024スポットライトと口頭紙をゼロから複製する必要があります。
客観的な評価のために、各複製タスクを明確なグレーディング基準でより小さなサブタスクに階層的に分解するルーブリックを開発します。
合計で、Paperbenchには8,316個の個別に段階的なタスクが含まれています。
ルーブリックは、精度とリアリズムのために、各ICMLペーパーの著者と共同開発されています。
スケーラブルな評価を有効にするために、LLMベースの裁判官も開発して、ルーブリックに対する複製の試みを自動的に評価し、裁判官のための個別のベンチマークを作成することにより、裁判官のパフォーマンスを評価します。
ペーパーベンチでいくつかのフロンティアモデルを評価し、オープンソースの足場を備えた最高のパフォーマンスのテストエージェントであるクロード3.5ソネット(新しい)が平均複製スコアが21.0%を達成することを発見しました。
最後に、Top ML PhDSを採用してPaperbenchのサブセットを試み、モデルがまだ人間のベースラインを上回っていないことを発見しました。
AIエージェントのAIエンジニアリング能力を理解する将来の研究を促進するために、コード(https://github.com/openai/preparedness)をオープンソーシングします。

要約(オリジナル)

We introduce PaperBench, a benchmark evaluating the ability of AI agents to replicate state-of-the-art AI research. Agents must replicate 20 ICML 2024 Spotlight and Oral papers from scratch, including understanding paper contributions, developing a codebase, and successfully executing experiments. For objective evaluation, we develop rubrics that hierarchically decompose each replication task into smaller sub-tasks with clear grading criteria. In total, PaperBench contains 8,316 individually gradable tasks. Rubrics are co-developed with the author(s) of each ICML paper for accuracy and realism. To enable scalable evaluation, we also develop an LLM-based judge to automatically grade replication attempts against rubrics, and assess our judge’s performance by creating a separate benchmark for judges. We evaluate several frontier models on PaperBench, finding that the best-performing tested agent, Claude 3.5 Sonnet (New) with open-source scaffolding, achieves an average replication score of 21.0%. Finally, we recruit top ML PhDs to attempt a subset of PaperBench, finding that models do not yet outperform the human baseline. We open-source our code (https://github.com/openai/preparedness) to facilitate future research in understanding the AI engineering capabilities of AI agents.

arxiv情報

著者 Giulio Starace,Oliver Jaffe,Dane Sherburn,James Aung,Jun Shern Chan,Leon Maksin,Rachel Dias,Evan Mays,Benjamin Kinsella,Wyatt Thompson,Johannes Heidecke,Amelia Glaese,Tejal Patwardhan
発行日 2025-04-07 12:15:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | PaperBench: Evaluating AI’s Ability to Replicate AI Research はコメントを受け付けていません

ZFusion: An Effective Fuser of Camera and 4D Radar for 3D Object Perception in Autonomous Driving

要約

信頼できる3Dオブジェクトの知覚は、自律運転に不可欠です。
すべての気象条件での検知能力により、4Dレーダーは最近多くの注目を集めています。
ただし、LIDARと比較して、4Dレーダーは非常にスパースなポイントクラウドを提供します。
この論文では、4Dレーダーと視覚モダリティを融合するzFusionと呼ばれる3Dオブジェクト検出方法を提案します。
ZFusionのコアとして、提案されているFP-DDCA(特徴ピラミッドダブル変形可能な交差注意)フューザーは、(まばらな)レーダー情報と(密な)ビジョン情報を効果的に補完します。
具体的には、FP-DDCAフューザーは、機能ピラミッド構造を使用して、変圧器ブロックをパックして、異なるスケールでマルチモーダル機能をインタラクティブに融合し、知覚精度を向上させます。
さらに、4Dレーダーの物理的特性のために、深度コンテキストスプリットビュー変換モジュールを利用します。
4Dレーダーのリダーよりもはるかに低いコストがあることを考慮すると、ZFusionはLIDARベースの方法に代わる魅力的な代替品です。
VOD(View-of-Delft)データセットなどの典型的なトラフィックシナリオでは、実験では、合理的な推論速度で、ZFusionが関心のある領域で最先端のマップ(平均平均精度)を達成し、Lidarに近いパフォーマンスを実証するベースラインメソッドと比較して、領域全体で競争力のあるマップを達成したことが示されています。

要約(オリジナル)

Reliable 3D object perception is essential in autonomous driving. Owing to its sensing capabilities in all weather conditions, 4D radar has recently received much attention. However, compared to LiDAR, 4D radar provides much sparser point cloud. In this paper, we propose a 3D object detection method, termed ZFusion, which fuses 4D radar and vision modality. As the core of ZFusion, our proposed FP-DDCA (Feature Pyramid-Double Deformable Cross Attention) fuser complements the (sparse) radar information and (dense) vision information, effectively. Specifically, with a feature-pyramid structure, the FP-DDCA fuser packs Transformer blocks to interactively fuse multi-modal features at different scales, thus enhancing perception accuracy. In addition, we utilize the Depth-Context-Split view transformation module due to the physical properties of 4D radar. Considering that 4D radar has a much lower cost than LiDAR, ZFusion is an attractive alternative to LiDAR-based methods. In typical traffic scenarios like the VoD (View-of-Delft) dataset, experiments show that with reasonable inference speed, ZFusion achieved the state-of-the-art mAP (mean average precision) in the region of interest, while having competitive mAP in the entire area compared to the baseline methods, which demonstrates performance close to LiDAR and greatly outperforms those camera-only methods.

arxiv情報

著者 Sheng Yang,Tong Zhan,Shichen Qiao,Jicheng Gong,Qing Yang,Jian Wang,Yanfeng Lu
発行日 2025-04-07 12:35:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ZFusion: An Effective Fuser of Camera and 4D Radar for 3D Object Perception in Autonomous Driving はコメントを受け付けていません

Hybrid Real- and Complex-valued Neural Network Architecture

要約

\ emphing {hybrid} Real-およびcomplex-valued \ emph {Neural Network}(HNN)アーキテクチャを提案します。これは、実質値の処理の計算効率と複雑な値データを効果的に処理する機能を組み合わせるように設計されています。
複雑な畳み込みを実行する方法を示すことにより、本質的に複雑な価値の問題に実質価値のあるニューラルネットワーク(RVNN)を使用することの制限を説明しますが、その実質値の制約に由来する顕著な非効率性を備えています。
HNNを作成するには、ドメイン間の情報がドメイン変換関数を介して交換される、実世界と複雑なパスの両方を含むビルディングブロックを使用することを提案します。
また、より高い一般化とパラメーター化効率を備えた、新しい複合値の活性化機能も導入します。
HNN固有のアーキテクチャ検索手法については、より大きなソリューション空間をナビゲートするために説明されています。
Audiomnist Datasetを使用した実験は、HNNがエントロピーの喪失を減らし、すべての考慮されたケースでRVNNに比べてパラメーターを消費することを示しています。
このような結果は、多くの信号処理ドメインでHNNのニューラルネットワークおよびアプリケーションで部分的に複雑な処理を使用する可能性を強調しています。

要約(オリジナル)

We propose a \emph{hybrid} real- and complex-valued \emph{neural network} (HNN) architecture, designed to combine the computational efficiency of real-valued processing with the ability to effectively handle complex-valued data. We illustrate the limitations of using real-valued neural networks (RVNNs) for inherently complex-valued problems by showing how it learnt to perform complex-valued convolution, but with notable inefficiencies stemming from its real-valued constraints. To create the HNN, we propose to use building blocks containing both real- and complex-valued paths, where information between domains is exchanged through domain conversion functions. We also introduce novel complex-valued activation functions, with higher generalisation and parameterisation efficiency. HNN-specific architecture search techniques are described to navigate the larger solution space. Experiments with the AudioMNIST dataset demonstrate that the HNN reduces cross-entropy loss and consumes less parameters compared to an RVNN for all considered cases. Such results highlight the potential for the use of partially complex-valued processing in neural networks and applications for HNNs in many signal processing domains.

arxiv情報

著者 Alex Young,Luan Vinícius Fiorio,Bo Yang,Boris Karanov,Wim van Houtum,Ronald M. Aarts
発行日 2025-04-04 14:52:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Hybrid Real- and Complex-valued Neural Network Architecture はコメントを受け付けていません

Optimal Embedding Guided Negative Sample Generation for Knowledge Graph Link Prediction

要約

ナレッジグラフ埋め込み(KGE)モデルは、知識グラフの構造情報を新しいリンクの予測にエンコードします。
これらのモデルの効果的なトレーニングには、正確な正確なサンプルと負のサンプルを区別する必要があります。
以前の研究では、負のサンプルの品質を改善することでモデルの精度が大幅に向上することが示されていますが、高品質の陰性サンプルを特定することは依然として困難な問題です。
このペーパーでは、負のサンプルが最適なKg埋め込みにつながる条件を理論的に調査し、効果的な負のサンプル分布のための十分な条件を特定します。
この理論的基盤に基づいて、\ textBf {e} mbedding \ textbf {mu} tation(\ textsc {emu})を提案します。これは、トレーニングの範囲を焦点を合わせた従来の方法とは対照的に、この状態を満たすネガティブなサンプルを{negate {nectifing}に焦点を当てたネガティブサンプルに焦点を当てた\ emphaplesを生成する}ネガティブサンプルを生成します。
重要なことに、\ textsc {emu}のシンプルさにより、既存のKGEモデルとネガティブサンプリング方法とのシームレスな統合が保証されます。
その有効性を評価するために、複数のデータセットで包括的な実験を実施しました。
結果は、さまざまなKGEモデルと否定的なサンプリング方法にわたるリンク予測パフォーマンスの大幅な改善を一貫して示しています。
特に、\ textSc {emu}は、寸法が5倍大きいモデルによって達成されたものに匹敵するパフォーマンスの改善を可能にします。
メソッドと実験の実装は、https://github.com/nec-research/emu-kgで入手できます。

要約(オリジナル)

Knowledge graph embedding (KGE) models encode the structural information of knowledge graphs to predicting new links. Effective training of these models requires distinguishing between positive and negative samples with high precision. Although prior research has shown that improving the quality of negative samples can significantly enhance model accuracy, identifying high-quality negative samples remains a challenging problem. This paper theoretically investigates the condition under which negative samples lead to optimal KG embedding and identifies a sufficient condition for an effective negative sample distribution. Based on this theoretical foundation, we propose \textbf{E}mbedding \textbf{MU}tation (\textsc{EMU}), a novel framework that \emph{generates} negative samples satisfying this condition, in contrast to conventional methods that focus on \emph{identifying} challenging negative samples within the training data. Importantly, the simplicity of \textsc{EMU} ensures seamless integration with existing KGE models and negative sampling methods. To evaluate its efficacy, we conducted comprehensive experiments across multiple datasets. The results consistently demonstrate significant improvements in link prediction performance across various KGE models and negative sampling methods. Notably, \textsc{EMU} enables performance improvements comparable to those achieved by models with embedding dimension five times larger. An implementation of the method and experiments are available at https://github.com/nec-research/EMU-KG.

arxiv情報

著者 Makoto Takamoto,Daniel Oñoro-Rubio,Wiem Ben Rim,Takashi Maruyama,Bhushan Kotnis
発行日 2025-04-04 10:10:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG | Optimal Embedding Guided Negative Sample Generation for Knowledge Graph Link Prediction はコメントを受け付けていません

HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration

要約

シングルイメージの人間の再構築は、デジタルヒューマンモデリングアプリケーションに不可欠ですが、非常に挑戦的なタスクのままです。
現在のアプローチは、その後の3D再構成とアニメーションのためにマルチビュー画像を合成するために生成モデルに依存しています。
ただし、単一の人間のイメージから複数のビューを直接生成することは、幾何学的な矛盾に苦しんでおり、再構築されたモデルの断片化またはぼやけた手足などの問題をもたらします。
これらの制限に取り組むために、マルチビューのヒューマン生成と再構築を統合パイプラインに統合する新しいフレームワークである\ textBf {humandreamer-x}を紹介します。
このフレームワークでは、3Dガウスのスプラッティングは、初期ジオメトリと外観の優先度を提供するための明示的な3D表現として機能します。
この基盤の上に構築された\ TextBF {HumanFixer}は、3DGSレンダリングを復元するように訓練されています。
さらに、マルチビューのヒューマン生成における注意メカニズムに関連する固有の課題を掘り下げ、マルチビュー全体で幾何学的詳細のアイデンティティの一貫性を効果的に強化する注意変調戦略を提案します。
実験結果は、私たちのアプローチが生成と再構築のPSNR品質メトリックをそれぞれ16.45%と12.65%改善し、最大25.62 dBのPSNRを達成し、さまざまな人間の再構築バックボーンモデルへの野生データと適用性に関する一般化能力も示していることを示しています。

要約(オリジナル)

Single-image human reconstruction is vital for digital human modeling applications but remains an extremely challenging task. Current approaches rely on generative models to synthesize multi-view images for subsequent 3D reconstruction and animation. However, directly generating multiple views from a single human image suffers from geometric inconsistencies, resulting in issues like fragmented or blurred limbs in the reconstructed models. To tackle these limitations, we introduce \textbf{HumanDreamer-X}, a novel framework that integrates multi-view human generation and reconstruction into a unified pipeline, which significantly enhances the geometric consistency and visual fidelity of the reconstructed 3D models. In this framework, 3D Gaussian Splatting serves as an explicit 3D representation to provide initial geometry and appearance priority. Building upon this foundation, \textbf{HumanFixer} is trained to restore 3DGS renderings, which guarantee photorealistic results. Furthermore, we delve into the inherent challenges associated with attention mechanisms in multi-view human generation, and propose an attention modulation strategy that effectively enhances geometric details identity consistency across multi-view. Experimental results demonstrate that our approach markedly improves generation and reconstruction PSNR quality metrics by 16.45% and 12.65%, respectively, achieving a PSNR of up to 25.62 dB, while also showing generalization capabilities on in-the-wild data and applicability to various human reconstruction backbone models.

arxiv情報

著者 Boyuan Wang,Runqi Ouyang,Xiaofeng Wang,Zheng Zhu,Guosheng Zhao,Chaojun Ni,Guan Huang,Lihong Liu,Xingang Wang
発行日 2025-04-04 15:35:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration はコメントを受け付けていません