Exploring Advanced Techniques for Visual Question Answering: A Comprehensive Comparison

要約

視覚的な質問応答(VQA)は、コンピュータービジョンと自然言語処理の交差点における極めて重要なタスクとして浮上しており、自然言語の質問に応じて視覚コンテンツを理解し、推論する必要があります。
VQAデータセットの分析は、マルチモーダル推論の複雑さを処理できる堅牢なモデルを開発するために不可欠です。
これらのデータセットを調べるためにいくつかのアプローチが開発されており、それぞれが疑問の多様性、回答分布、視覚的テキスト相関に関する明確な視点を提供します。
大幅に進歩したにもかかわらず、既存のVQAモデルは、データセットバイアス、制限されたモデルの複雑さ、常識的な推論ギャップ、厳格な評価方法、および実世界のシナリオへの一般化に関連する課題に直面しています。
このペーパーでは、ABC-CNN、KICNLE、MASKED VISIONおよびLANGUAGE MODENING、BLIP-2、およびOFAの5つの高度なVQAモデルの包括的な比較研究を紹介します。

要約(オリジナル)

Visual Question Answering (VQA) has emerged as a pivotal task in the intersection of computer vision and natural language processing, requiring models to understand and reason about visual content in response to natural language questions. Analyzing VQA datasets is essential for developing robust models that can handle the complexities of multimodal reasoning. Several approaches have been developed to examine these datasets, each offering distinct perspectives on question diversity, answer distribution, and visual-textual correlations. Despite significant progress, existing VQA models face challenges related to dataset bias, limited model complexity, commonsense reasoning gaps, rigid evaluation methods, and generalization to real world scenarios. This paper presents a comprehensive comparative study of five advanced VQA models: ABC-CNN, KICNLE, Masked Vision and Language Modeling, BLIP-2, and OFA, each employing distinct methodologies to address these challenges.

arxiv情報

著者 Aiswarya Baby,Tintu Thankom Koshy
発行日 2025-02-20 18:45:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.ET, cs.LG | Exploring Advanced Techniques for Visual Question Answering: A Comprehensive Comparison はコメントを受け付けていません

Improving the Diffusability of Autoencoders

要約

潜在的な拡散モデルは、高品質の画像とビデオを生成するための主要なアプローチとして浮上しており、圧縮された潜在表現を利用して拡散プロセスの計算負担を減らしています。
最近の進歩は、主に拡散骨格のスケーリングと自動エンコーダー再構成品質の向上に焦点を当てていますが、これらのコンポーネント間の相互作用は比較的少ない注意を払っています。
この作業では、最新の自動エンコーダーのスペクトル分析を実行し、潜在的な空間で極端な高周波成分を特定します。これらは、特に大きなボトルネックチャネルサイズの自動エンコーダーで顕著です。
この高周波コンポーネントは、拡散合成プロセスの粗から繊細な性質を妨げ、生成の質を妨げると仮定します。
問題を緩和するために、スケールの等容量:デコーダーのスケール等量を強制することにより、周波数全体で潜在的な空間とRGBスペースを整列させる単純な正則化戦略を提案します。
最小限のコード変更が必要であり、最大20Kの自動エンコーダー微調整ステップのみが必要ですが、発電の品質を大幅に向上させ、Imagenet-1K 256×256およびFVDの画像生成で19%減少し、Kinetics-700 17x256x256のビデオ生成で少なくとも44%削減します。

要約(オリジナル)

Latent diffusion models have emerged as the leading approach for generating high-quality images and videos, utilizing compressed latent representations to reduce the computational burden of the diffusion process. While recent advancements have primarily focused on scaling diffusion backbones and improving autoencoder reconstruction quality, the interaction between these components has received comparatively less attention. In this work, we perform a spectral analysis of modern autoencoders and identify inordinate high-frequency components in their latent spaces, which are especially pronounced in the autoencoders with a large bottleneck channel size. We hypothesize that this high-frequency component interferes with the coarse-to-fine nature of the diffusion synthesis process and hinders the generation quality. To mitigate the issue, we propose scale equivariance: a simple regularization strategy that aligns latent and RGB spaces across frequencies by enforcing scale equivariance in the decoder. It requires minimal code changes and only up to 20K autoencoder fine-tuning steps, yet significantly improves generation quality, reducing FID by 19% for image generation on ImageNet-1K 256×256 and FVD by at least 44% for video generation on Kinetics-700 17x256x256.

arxiv情報

著者 Ivan Skorokhodov,Sharath Girish,Benran Hu,Willi Menapace,Yanyu Li,Rameen Abdal,Sergey Tulyakov,Aliaksandr Siarohin
発行日 2025-02-20 18:45:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Improving the Diffusability of Autoencoders はコメントを受け付けていません

LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models

要約

既存の大きなビジョン言語モデル(LVLMS)は、最大128Kの視覚的およびテキストトークンまでのコンテキスト長で入力を処理できますが、1,000語を超えるコヒーレント出力を生成するのに苦労しています。
主な制限は、監視された微調整(SFT)中に長い出力例がないことであることがわかります。
この問題に取り組むために、22,158の例で構成されるSFTデータセットであるLongWriter-V-22Kを紹介します。
さらに、入力画像に対する忠実度を維持する長い出力を実現するために、SFTモデルに直接優先最適化(DPO)を採用しています。
長い出力のために人間のフィードバックを収集するコストが高いことを考えると(例:3,000語)、iterdpoを提案します。これは、長い出力をセグメントに分割し、元の出力で優先ペアを形成するために反復補正を使用します。
さらに、VLMSの長い世代の機能を評価するための6つのタスクを備えたベンチマークであるMmlongbench-writeを開発します。
LongWriter-V-22KとIterdpoで訓練された7Bパラメーターモデルは、このベンチマークで印象的なパフォーマンスを実現し、GPT-4Oのようなより大きな独自モデルを上回ります。
コードとデータ:https://github.com/thu-keg/longwriter-v

要約(オリジナル)

Existing Large Vision-Language Models (LVLMs) can process inputs with context lengths up to 128k visual and text tokens, yet they struggle to generate coherent outputs beyond 1,000 words. We find that the primary limitation is the absence of long output examples during supervised fine-tuning (SFT). To tackle this issue, we introduce LongWriter-V-22k, a SFT dataset comprising 22,158 examples, each with multiple input images, an instruction, and corresponding outputs ranging from 0 to 10,000 words. Moreover, to achieve long outputs that maintain high-fidelity to the input images, we employ Direct Preference Optimization (DPO) to the SFT model. Given the high cost of collecting human feedback for lengthy outputs (e.g., 3,000 words), we propose IterDPO, which breaks long outputs into segments and uses iterative corrections to form preference pairs with the original outputs. Additionally, we develop MMLongBench-Write, a benchmark featuring six tasks to evaluate the long-generation capabilities of VLMs. Our 7B parameter model, trained with LongWriter-V-22k and IterDPO, achieves impressive performance on this benchmark, outperforming larger proprietary models like GPT-4o. Code and data: https://github.com/THU-KEG/LongWriter-V

arxiv情報

著者 Shangqing Tu,Yucheng Wang,Daniel Zhang-Li,Yushi Bai,Jifan Yu,Yuhao Wu,Lei Hou,Huiqin Liu,Zhiyuan Liu,Bin Xu,Juanzi Li
発行日 2025-02-20 18:47:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models はコメントを受け付けていません

Dynamic Concepts Personalization from Single Videos

要約

生成的なテキストから画像へのパーソナライズモデルをパーソナライズすると、驚くべき進歩が見られますが、このパーソナライズをテキストからビデオへのモデルに拡張することは、独自の課題を提示します。
静的な概念とは異なり、テキストからビデオへのパーソナライズモデルは、動的な概念をキャプチャする可能性があります。つまり、外観だけでなく、動きによって定義されるエンティティもキャプチャします。
このペーパーでは、動的概念を備えた拡散トランス(DITS)ベースの生成ビデオモデルをパーソナライズするための新しいフレームワークであるセットアンドシーケンスを紹介します。
私たちのアプローチは、空間的特徴と時間的特徴を明示的に分離しないアーキテクチャ内に時空間重量空間を課します。
これは2つの重要な段階で達成されます。
まず、ビデオから順序付けられていないフレームのセットを使用して、低ランク適応(LORA)レイヤーを微調整して、外観を表すアイデンティティのLORAベースで、時間的干渉がないことを学びます。
第2段階では、アイデンティティロラが冷凍されているため、モーション残差で係数を増やし、動画シーケンス全体で微調整して、モーションダイナミクスをキャプチャします。
私たちのセットとシーケンスフレームワークは、動的概念をビデオモデルの出力ドメインに効果的に埋め込む空間的重量空間をもたらし、動的概念をパーソナライズするための新しいベンチマークを設定しながら、前例のない編集可能性と構成性を可能にします。

要約(オリジナル)

Personalizing generative text-to-image models has seen remarkable progress, but extending this personalization to text-to-video models presents unique challenges. Unlike static concepts, personalizing text-to-video models has the potential to capture dynamic concepts, i.e., entities defined not only by their appearance but also by their motion. In this paper, we introduce Set-and-Sequence, a novel framework for personalizing Diffusion Transformers (DiTs)-based generative video models with dynamic concepts. Our approach imposes a spatio-temporal weight space within an architecture that does not explicitly separate spatial and temporal features. This is achieved in two key stages. First, we fine-tune Low-Rank Adaptation (LoRA) layers using an unordered set of frames from the video to learn an identity LoRA basis that represents the appearance, free from temporal interference. In the second stage, with the identity LoRAs frozen, we augment their coefficients with Motion Residuals and fine-tune them on the full video sequence, capturing motion dynamics. Our Set-and-Sequence framework results in a spatio-temporal weight space that effectively embeds dynamic concepts into the video model’s output domain, enabling unprecedented editability and compositionality while setting a new benchmark for personalizing dynamic concepts.

arxiv情報

著者 Rameen Abdal,Or Patashnik,Ivan Skorokhodov,Willi Menapace,Aliaksandr Siarohin,Sergey Tulyakov,Daniel Cohen-Or,Kfir Aberman
発行日 2025-02-20 18:53:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG | Dynamic Concepts Personalization from Single Videos はコメントを受け付けていません

Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation

要約

チャートやドキュメントなどの豊富なテキストを持つ画像に関する推論は、ビジョン言語モデル(VLM)の重要なアプリケーションです。
ただし、VLMは、多様なテキストが豊富なビジョン言語データが不足しているため、しばしばこれらのドメインで苦労しています。
この課題に対処するために、CoSynを提示します。これは、テキストのみの大手言語モデル(LLM)のコーディング機能を活用して、合成テキストが豊富なマルチモーダルデータを自動的に作成するフレームワークです。
ターゲットドメイン(「栄養事実ラベル」など)を記述する入力テキストが与えられた場合、COSYNはLLMに合成画像をレンダリングするためのコード(Python、HTML、ラテックスなど)を生成するように促します。
基礎となるコードが合成画像のテキスト表現として、CoSynはテキストのみのLLMに依存して、高品質の命令調整データを生成できます。
Cosynを使用して、400kの画像と2.7mの列の視力命令調整データを含むデータセットを構築しました。
7つのベンチマークでの包括的な実験は、合成データでトレーニングされたモデルが、Llama 3.2を含む競合するオープンソースモデル間で最先端のパフォーマンスを達成し、GPT-4VやGemini 1.5フラッシュなどの専有モデルを超えることを示しています。
さらに、COSYNは合成ポインティングデータを生成し、VLMが入力画像内で情報を接地できるようにし、実際の環境で作用できるマルチモーダルエージェントを開発する可能性を示しています。

要約(オリジナル)

Reasoning about images with rich text, such as charts and documents, is a critical application of vision-language models (VLMs). However, VLMs often struggle in these domains due to the scarcity of diverse text-rich vision-language data. To address this challenge, we present CoSyn, a framework that leverages the coding capabilities of text-only large language models (LLMs) to automatically create synthetic text-rich multimodal data. Given input text describing a target domain (e.g., ‘nutrition fact labels’), CoSyn prompts an LLM to generate code (Python, HTML, LaTeX, etc.) for rendering synthetic images. With the underlying code as textual representations of the synthetic images, CoSyn can generate high-quality instruction-tuning data, again relying on a text-only LLM. Using CoSyn, we constructed a dataset comprising 400K images and 2.7M rows of vision-language instruction-tuning data. Comprehensive experiments on seven benchmarks demonstrate that models trained on our synthetic data achieve state-of-the-art performance among competitive open-source models, including Llama 3.2, and surpass proprietary models such as GPT-4V and Gemini 1.5 Flash. Furthermore, CoSyn can produce synthetic pointing data, enabling VLMs to ground information within input images, showcasing its potential for developing multimodal agents capable of acting in real-world environments.

arxiv情報

著者 Yue Yang,Ajay Patel,Matt Deitke,Tanmay Gupta,Luca Weihs,Andrew Head,Mark Yatskar,Chris Callison-Burch,Ranjay Krishna,Aniruddha Kembhavi,Christopher Clark
発行日 2025-02-20 18:55:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation はコメントを受け付けていません

VidStyleODE: Disentangled Video Editing via StyleGAN and NeuralODEs

要約

$ \ textbf {vidstyleode} $を提案します。
生成敵のネットワーク(GAN)によって学んだ潜在空間の効果的なトラバーサルは、画像編集における最近のブレークスルーの基礎となっています。
ただし、ビデオドメインへのこのような進歩の適用性は、GANSの潜在的な空間でビデオを表現および制御することの難しさによって妨げられています。
特に、ビデオはコンテンツ(つまり、外観)と、解き放たれて制御するために特別なメカニズムを必要とする複雑なモーションコンポーネントで構成されています。
これを達成するために、Vidstyleodeは、事前に訓練されたStylegan $ \ Mathcal {w} _+$スペースでビデオコンテンツをエンコードし、潜在的なODEコンポーネントから利益を得て、入力ビデオの時空ダイナミクスを要約します。
その後、私たちの小説の連続ビデオ生成プロセスは、2つを組み合わせて、さまざまなフレームレートで高品質で時間的に一貫したビデオを生成します。
提案された方法では、テキストガイド付きの外観操作、モーション操作、画像アニメーション、ビデオ補間と外挿などのさまざまなアプリケーションが実際のビデオでさまざまなアプリケーションを可能にすることを示しています。
プロジェクトWebサイト:https://cyberiada.github.io/vidstyleode

要約(オリジナル)

We propose $\textbf{VidStyleODE}$, a spatiotemporally continuous disentangled $\textbf{Vid}$eo representation based upon $\textbf{Style}$GAN and Neural-$\textbf{ODE}$s. Effective traversal of the latent space learned by Generative Adversarial Networks (GANs) has been the basis for recent breakthroughs in image editing. However, the applicability of such advancements to the video domain has been hindered by the difficulty of representing and controlling videos in the latent space of GANs. In particular, videos are composed of content (i.e., appearance) and complex motion components that require a special mechanism to disentangle and control. To achieve this, VidStyleODE encodes the video content in a pre-trained StyleGAN $\mathcal{W}_+$ space and benefits from a latent ODE component to summarize the spatiotemporal dynamics of the input video. Our novel continuous video generation process then combines the two to generate high-quality and temporally consistent videos with varying frame rates. We show that our proposed method enables a variety of applications on real videos: text-guided appearance manipulation, motion manipulation, image animation, and video interpolation and extrapolation. Project website: https://cyberiada.github.io/VidStyleODE

arxiv情報

著者 Moayed Haji Ali,Andrew Bond,Tolga Birdal,Duygu Ceylan,Levent Karacan,Erkut Erdem,Aykut Erdem
発行日 2025-02-20 18:56:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VidStyleODE: Disentangled Video Editing via StyleGAN and NeuralODEs はコメントを受け付けていません

Benchmarking Multimodal RAG through a Chart-based Document Question-Answering Generation Framework

要約

マルチモーダル検索の高等世代(MRAG)は、外部の知識を統合することにより、推論機能を強化します。
ただし、既存のベンチマークは、主に単純な画像テキストインタラクションに焦点を当てており、実際のアプリケーションで一般的なチャートなどの複雑な視覚形式を見落としています。
この作業では、この制限に対処するために、新しいタスクであるチャートベースのMRAGを紹介します。
高品質の評価サンプルを半自動的に生成するために、構造化されたキーポイント抽出、クロスモーダル検証、およびキーポイントベースの世代を通じて評価データを生成するフレームワークであるチャートベースのドキュメント質問質問生成(電荷)を提案します。
充電と専門家の検証を組み合わせることにより、チャートベースのMRAG評価の包括的なベンチマークであるチャートMRAGベンチを構築します。
私たちの評価は、現在のアプローチにおける3つの重要な制限を明らかにしています:(1)チャートベースのシナリオでの統一マルチモーダル埋め込み検索方法の闘争(2)地面の回復、最先端のMLLMは58.19%の正確性と73.87を達成します
%カバレッジスコア、および(3)MLLMSは、チャートベースのMRAG推論中に一貫したテキストオーバーモダリティバイアスを示しています。
充電とチャートMRAGベンチは、https://github.com/nomothings/chary.gitでリリースされます。

要約(オリジナル)

Multimodal Retrieval-Augmented Generation (MRAG) enhances reasoning capabilities by integrating external knowledge. However, existing benchmarks primarily focus on simple image-text interactions, overlooking complex visual formats like charts that are prevalent in real-world applications. In this work, we introduce a novel task, Chart-based MRAG, to address this limitation. To semi-automatically generate high-quality evaluation samples, we propose CHARt-based document question-answering GEneration (CHARGE), a framework that produces evaluation data through structured keypoint extraction, crossmodal verification, and keypoint-based generation. By combining CHARGE with expert validation, we construct Chart-MRAG Bench, a comprehensive benchmark for chart-based MRAG evaluation, featuring 4,738 question-answering pairs across 8 domains from real-world documents. Our evaluation reveals three critical limitations in current approaches: (1) unified multimodal embedding retrieval methods struggles in chart-based scenarios, (2) even with ground-truth retrieval, state-of-the-art MLLMs achieve only 58.19% Correctness and 73.87% Coverage scores, and (3) MLLMs demonstrate consistent text-over-visual modality bias during Chart-based MRAG reasoning. The CHARGE and Chart-MRAG Bench are released at https://github.com/Nomothings/CHARGE.git.

arxiv情報

著者 Yuming Yang,Jiang Zhong,Li Jin,Jingwang Huang,Jingpeng Gao,Qing Liu,Yang Bai,Jingyuan Zhang,Rui Jiang,Kaiwen Wei
発行日 2025-02-20 18:59:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Benchmarking Multimodal RAG through a Chart-based Document Question-Answering Generation Framework はコメントを受け付けていません

Time Travel: A Comprehensive Benchmark to Evaluate LMMs on Historical and Cultural Artifacts

要約

歴史的および文化的アーティファクトを理解するには、人間の専門知識と高度な計算技術が必要ですが、このプロセスは複雑で時間型のままです。
大規模なマルチモーダルモデルは有望なサポートを提供しますが、評価と改善には標準化されたベンチマークが必要です。
これに対処するために、10の主要な歴史的地域で266の異なる文化にまたがる10,250の専門家で検証されたサンプルのベンチマークであるTimeTravelを紹介します。
原稿、作品、碑文、考古学的発見のAI駆動型分析用に設計されたTimeTravelは、分類、解釈、および履歴理解におけるAIモデルの能力を評価するための構造化されたデータセットと堅牢な評価フレームワークを提供します。
AIを歴史的研究と統合することにより、TimeTravelは、歴史家、考古学者、研究者、文化観光客向けのAI駆動のツールを促進し、貴重な洞察を抽出しながら、テクノロジーが歴史的発見と文化遺産の保存に有意義に貢献することを保証します。
TimeTravelで現代のAIモデルを評価し、その強みを強調し、改善のための領域を特定します。
私たちの目標は、AIを文化遺産を維持するための信頼できるパートナーとして確立し、技術の進歩が歴史的発見に有意義に貢献するようにすることです。
私たちのコードは、\ url {https://github.com/mbzuai-oryx/timetravel}で入手できます。

要約(オリジナル)

Understanding historical and cultural artifacts demands human expertise and advanced computational techniques, yet the process remains complex and time-intensive. While large multimodal models offer promising support, their evaluation and improvement require a standardized benchmark. To address this, we introduce TimeTravel, a benchmark of 10,250 expert-verified samples spanning 266 distinct cultures across 10 major historical regions. Designed for AI-driven analysis of manuscripts, artworks, inscriptions, and archaeological discoveries, TimeTravel provides a structured dataset and robust evaluation framework to assess AI models’ capabilities in classification, interpretation, and historical comprehension. By integrating AI with historical research, TimeTravel fosters AI-powered tools for historians, archaeologists, researchers, and cultural tourists to extract valuable insights while ensuring technology contributes meaningfully to historical discovery and cultural heritage preservation. We evaluate contemporary AI models on TimeTravel, highlighting their strengths and identifying areas for improvement. Our goal is to establish AI as a reliable partner in preserving cultural heritage, ensuring that technological advancements contribute meaningfully to historical discovery. Our code is available at: \url{https://github.com/mbzuai-oryx/TimeTravel}.

arxiv情報

著者 Sara Ghaboura,Ketan More,Ritesh Thawkar,Wafa Alghallabi,Omkar Thawakar,Fahad Shahbaz Khan,Hisham Cholakkal,Salman Khan,Rao Muhammad Anwer
発行日 2025-02-20 18:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Time Travel: A Comprehensive Benchmark to Evaluate LMMs on Historical and Cultural Artifacts はコメントを受け付けていません

Muscle Activation Estimation by Optimizing the Musculoskeletal Model for Personalized Strength and Conditioning Training

要約

筋骨格モデルは、筋肉の状態を分析するために、リハビリテーションとレジスタンストレーニングの領域で極めて重要です。
ただし、筋骨格パラメーターの個々の変動性と、いくつかの内部生体力学的変数の計り知れないことは、正確な個別化されたモデリングに大きな障害をもたらします。
さらに、複数の筋肉が単一の関節を駆動する筋骨格系の固有の冗長性により、筋肉の活性化推定は困難な場合があります。
この研究は、筋力とコンディショニングのトレーニングのための全身筋骨格モデルを開発し、筋電図ベースの最適化方法で関連する筋肉パラメーターを調整します。
個別化された筋骨格モデルを利用することにより、その後、筋肉の活性化を推定して、エクササイズの性能を分析できます。
ベンチプレスとデッドリフトは、このアプローチの有効性を確認するために、実験的検証のために選択されています。

要約(オリジナル)

Musculoskeletal models are pivotal in the domains of rehabilitation and resistance training to analyze muscle conditions. However, individual variability in musculoskeletal parameters and the immeasurability of some internal biomechanical variables pose significant obstacles to accurate personalized modelling. Furthermore, muscle activation estimation can be challenging due to the inherent redundancy of the musculoskeletal system, where multiple muscles drive a single joint. This study develops a whole-body musculoskeletal model for strength and conditioning training and calibrates relevant muscle parameters with an electromyography-based optimization method. By utilizing the personalized musculoskeletal model, muscle activation can be subsequently estimated to analyze the performance of exercises. Bench press and deadlift are chosen for experimental verification to affirm the efficacy of this approach.

arxiv情報

著者 Xi Wu,Chenzui Li,Kehan Zou,Ning Xi,Fei Chen
発行日 2025-02-20 12:33:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, physics.med-ph | Muscle Activation Estimation by Optimizing the Musculoskeletal Model for Personalized Strength and Conditioning Training はコメントを受け付けていません

Neural Green’s Operators for Parametric Partial Differential Equations

要約

この作業では、線形部分微分方程式(PDE)のパラメトリックファミリーのソリューション演算子を学習する新しいニューラルオペレーターネットワークアーキテクチャであるNeural Greenの演算子(NGO)を紹介します。
NGOの構造は、このようなソリューション演算子のグリーンの定式化から直接導出されています。
Deep Operator Networks(DeepOnets)およびVariationAlly Mimetic Operator Networks(Varmions)と同様に、NGOは、サブネットワークから返される係数から返される基底関数の観点からPDEのソリューションの拡大を構成します。
別のサブネットワーク。
ただし、Greenの定式化に従って、NGOは、DeeponetsやVarmionsの場合のように、サンプリングされた値ではなく、入力関数の加重平均を受け入れます。
標準的な線形パラメトリックPDEへのNGOの適用は、トレーニング分布内にあるデータをテストする際にディープネット、バーミオン、フーリエ神経演算子と競合し続けているが、トレーニング分布外で生成されたより細かいデータをテストするときに堅牢に一般化することを示しています。

さらに、NGOによって返されるグリーンの関数の明示的な表現により、PDEの数値ソルバー用の効果的な前処理者の構築が可能になることを示します。

要約(オリジナル)

This work introduces neural Green’s operators (NGOs), a novel neural operator network architecture that learns the solution operator for a parametric family of linear partial differential equations (PDEs). Our construction of NGOs is derived directly from the Green’s formulation of such a solution operator. Similar to deep operator networks (DeepONets) and variationally mimetic operator networks (VarMiONs), NGOs constitutes an expansion of the solution to the PDE in terms of basis functions, that is returned from a sub-network, contracted with coefficients, that are returned from another sub-network. However, in accordance with the Green’s formulation, NGOs accept weighted averages of the input functions, rather than sampled values thereof, as is the case in DeepONets and VarMiONs. Application of NGOs to canonical linear parametric PDEs shows that, while they remain competitive with DeepONets, VarMiONs and Fourier neural operators when testing on data that lie within the training distribution, they robustly generalize when testing on finer-scale data generated outside of the training distribution. Furthermore, we show that the explicit representation of the Green’s function that is returned by NGOs enables the construction of effective preconditioners for numerical solvers for PDEs.

arxiv情報

著者 Hugo Melchers,Joost Prins,Michael Abdelmalik
発行日 2025-02-20 09:28:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.LG, cs.NA, G.1.8, math.NA | Neural Green’s Operators for Parametric Partial Differential Equations はコメントを受け付けていません