FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models

要約

ジェネレーティブAIの急速な発展は、コンテンツ作成を容易にするだけでなく、画像操作を容易にし、検出を困難にするという諸刃の剣でもある。現在の画像偽造検出・位置特定(IFDL)手法は一般的に有効であるが、2つの課題に直面する傾向がある:\例えば、Photoshop、DeepFake、AIGC-Editingなど)。これらの問題に対処するため、我々は説明可能なIFDLタスクを提案し、画像の真正性を評価し、改ざん領域マスクを生成し、ピクセルレベルと画像レベルの改ざんの手がかりに基づく判断基準を提供できるマルチモーダルフレームワークであるFakeShieldを設計する。さらに、GPT-4oを活用して既存のIFDLデータセットを拡張し、FakeShieldの改ざん解析能力を訓練するためのマルチモーダル改ざん記述データセット(MMTD-Set)を作成する。一方、我々は、様々なタイプの改ざん検出解釈に対処し、詳細なテキスト記述によって誘導される偽造ローカライゼーションを実現するために、ドメインタグ誘導型説明可能偽造検出モジュール(DTE-FDM)とマルチモーダル偽造ローカライゼーションモジュール(MFLM)を組み込んだ。広範な実験により、FakeShieldが様々な改ざん技術を効果的に検出し、ローカライズすることが実証されており、従来のIFDL手法と比較して説明可能で優れたソリューションを提供しています。

要約(オリジナル)

The rapid development of generative AI is a double-edged sword, which not only facilitates content creation but also makes image manipulation easier and more difficult to detect. Although current image forgery detection and localization (IFDL) methods are generally effective, they tend to face two challenges: \textbf{1)} black-box nature with unknown detection principle, \textbf{2)} limited generalization across diverse tampering methods (e.g., Photoshop, DeepFake, AIGC-Editing). To address these issues, we propose the explainable IFDL task and design FakeShield, a multi-modal framework capable of evaluating image authenticity, generating tampered region masks, and providing a judgment basis based on pixel-level and image-level tampering clues. Additionally, we leverage GPT-4o to enhance existing IFDL datasets, creating the Multi-Modal Tamper Description dataSet (MMTD-Set) for training FakeShield’s tampering analysis capabilities. Meanwhile, we incorporate a Domain Tag-guided Explainable Forgery Detection Module (DTE-FDM) and a Multi-modal Forgery Localization Module (MFLM) to address various types of tamper detection interpretation and achieve forgery localization guided by detailed textual descriptions. Extensive experiments demonstrate that FakeShield effectively detects and localizes various tampering techniques, offering an explainable and superior solution compared to previous IFDL methods.

arxiv情報

著者 Zhipei Xu,Xuanyu Zhang,Runyi Li,Zecheng Tang,Qing Huang,Jian Zhang
発行日 2024-10-03 17:59:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | コメントする

Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos

要約

最近、最新の大規模マルチモーダルモデル(LMM)は、短編ビデオの理解に関連する重要な課題のほとんどに対処しているとの見方が広まっている。その結果、学界も産業界も、長尺ビデオの理解という、より複雑な課題に徐々に関心を移しつつある。しかし、本当にそうなのだろうか?我々の研究によると、LMMは短い動画を扱う場合でも、多くの基本的な推論能力を欠いている。Vinogroundを紹介する。Vinogroundは時間的な反実仮想LMM評価ベンチマークであり、1000組の短い自然なビデオキャプションを含む。既存のLMMでは、異なるアクションやオブジェクトの変換の時間的な違いを区別することが困難であることを示す。例えば、最良のモデルGPT-4oは、テキストとビデオのスコアで〜50%しか得られず、人間のベースラインである〜90%と比較すると大きな隔たりがある。すべてのオープンソースのマルチモーダルモデルとCLIPベースのモデルは、はるかに悪いパフォーマンスを示し、ほとんどランダムな偶然のパフォーマンスを生成します。この研究を通して、短い動画における時間的推論は、まだ完全に解決されていない問題であるという事実に光を当てる。データセットと評価コードはhttps://vinoground.github.io。

要約(オリジナル)

There has been growing sentiment recently that modern large multimodal models (LMMs) have addressed most of the key challenges related to short video comprehension. As a result, both academia and industry are gradually shifting their attention towards the more complex challenges posed by understanding long-form videos. However, is this really the case? Our studies indicate that LMMs still lack many fundamental reasoning capabilities even when dealing with short videos. We introduce Vinoground, a temporal counterfactual LMM evaluation benchmark encompassing 1000 short and natural video-caption pairs. We demonstrate that existing LMMs severely struggle to distinguish temporal differences between different actions and object transformations. For example, the best model GPT-4o only obtains ~50% on our text and video scores, showing a large gap compared to the human baseline of ~90%. All open-source multimodal models and CLIP-based models perform much worse, producing mostly random chance performance. Through this work, we shed light onto the fact that temporal reasoning in short videos is a problem yet to be fully solved. The dataset and evaluation code are available at https://vinoground.github.io.

arxiv情報

著者 Jianrui Zhang,Mu Cai,Yong Jae Lee
発行日 2024-10-03 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントする

$\mathcal{D(R,O)}$ Grasp: A Unified Representation of Robot and Object Interaction for Cross-Embodiment Dexterous Grasping

要約

器用な把持は、ロボットハンドと物体との間の正確な相互作用を必要とする、ロボット操作の基本的でありながら困難なスキルである。本論文では、把持ポーズをとるロボットハンドと物体との相互作用をモデル化する新しいフレームワーク$mathcal{D(R,O)}$ Graspを紹介する。我々のモデルは、ロボットハンドの記述と物体点群を入力とし、運動学的に有効で安定した把持を効率的に予測し、多様なロボットの形態と物体形状に強い適応性を示す。シミュレーション環境と実環境の両方で行われた広範な実験により、複数のロボットハンドにおいて、成功率、把持の多様性、推論速度が大幅に改善され、我々のアプローチの有効性が検証された。我々の手法は、3つの異なる器用なロボットハンドでテストした結果、シミュレーションでは平均87.53%の成功率を1秒未満で達成した。また、LeapHandを用いた実際の実験においても、本手法は平均89%の成功率を示す。Graspは、複雑で多様な環境で器用に把持するためのロバストなソリューションを提供する。コード、付録、ビデオはプロジェクトのウェブサイトhttps://nus-lins-lab.github.io/drograspweb/。

要約(オリジナル)

Dexterous grasping is a fundamental yet challenging skill in robotic manipulation, requiring precise interaction between robotic hands and objects. In this paper, we present $\mathcal{D(R,O)}$ Grasp, a novel framework that models the interaction between the robotic hand in its grasping pose and the object, enabling broad generalization across various robot hands and object geometries. Our model takes the robot hand’s description and object point cloud as inputs and efficiently predicts kinematically valid and stable grasps, demonstrating strong adaptability to diverse robot embodiments and object geometries. Extensive experiments conducted in both simulated and real-world environments validate the effectiveness of our approach, with significant improvements in success rate, grasp diversity, and inference speed across multiple robotic hands. Our method achieves an average success rate of 87.53% in simulation in less than one second, tested across three different dexterous robotic hands. In real-world experiments using the LeapHand, the method also demonstrates an average success rate of 89%. $\mathcal{D(R,O)}$ Grasp provides a robust solution for dexterous grasping in complex and varied environments. The code, appendix, and videos are available on our project website at https://nus-lins-lab.github.io/drograspweb/.

arxiv情報

著者 Zhenyu Wei,Zhixuan Xu,Jingxiang Guo,Yiwen Hou,Chongkai Gao,Zhehao Cai,Jiayu Luo,Lin Shao
発行日 2024-10-03 16:05:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | コメントする

Quantifying Generalization Complexity for Large Language Models

要約

大規模言語モデル(LLM)は、複雑なクエリを理解し、高度なタスクを実行する上で卓越した能力を示しているが、その汎化能力はしばしば記憶と深く関わっており、より正確な評価が必要である。この課題を解決するために、LLMの汎化能力を定量的に測定する動的評価フレームワークScyllaを紹介する。Scyllaは、5つの複雑度に渡る20のタスクを通して、分布内(ID)と分布外(OOD)の両方のデータに対するモデルのパフォーマンスを評価することで、汎化を記憶から分離する。広範な実験を通して、タスクの複雑さと、IDデータとOODデータ間のパフォーマンスギャップとの間に非単調な関係があることを明らかにした。具体的には、この現象は、LLMの汎化能力の上限を示す、非汎化挙動への依存がピークに達する臨界閾値(臨界複雑度と呼ばれる)を明らかにする。モデルサイズが大きくなるにつれて、臨界複雑度はタスクの複雑さのレベルが高くなる方向にシフトし、より大きなモデルは、記憶に過度に依存する前に、より複雑な推論タスクを処理できることが示唆される。Scyllaと臨界複雑度の概念を活用し、LLaMAやQwenファミリーのようなオープンソースモデルと、ClaudeやGPTのようなクローズソースモデルの両方を含む28のLLMをベンチマークし、よりロバストな評価を提供し、LLMの汎化能力をより明確に理解する。

要約(オリジナル)

While large language models (LLMs) have shown exceptional capabilities in understanding complex queries and performing sophisticated tasks, their generalization abilities are often deeply entangled with memorization, necessitating more precise evaluation. To address this challenge, we introduce Scylla, a dynamic evaluation framework that quantitatively measures the generalization abilities of LLMs. Scylla disentangles generalization from memorization via assessing model performance on both in-distribution (ID) and out-of-distribution (OOD) data through 20 tasks across 5 levels of complexity. Through extensive experiments, we uncover a non-monotonic relationship between task complexity and the performance gap between ID and OOD data, which we term the generalization valley. Specifically, this phenomenon reveals a critical threshold – referred to as critical complexity – where reliance on non-generalizable behavior peaks, indicating the upper bound of LLMs’ generalization capabilities. As model size increases, the critical complexity shifts toward higher levels of task complexity, suggesting that larger models can handle more complex reasoning tasks before over-relying on memorization. Leveraging Scylla and the concept of critical complexity, we benchmark 28LLMs including both open-sourced models such as LLaMA and Qwen families, and close-sourced models like Claude and GPT, providing a more robust evaluation and establishing a clearer understanding of LLMs’ generalization capabilities.

arxiv情報

著者 Zhenting Qi,Hongyin Luo,Xuliang Huang,Zhuokai Zhao,Yibo Jiang,Xiangjun Fan,Himabindu Lakkaraju,James Glass
発行日 2024-10-03 15:30:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする

Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks

要約

テキストリッチ画像は、テキストが全体的な理解を導く中心的な視覚要素として機能するものであり、プレゼンテーションのスライド、スキャンした文書、ウェブページのスナップショットなど、実世界のアプリケーションに広く普及している。個々の画像の内容を理解するだけでなく、複数の視覚入力の相互関係や論理的な流れを推論する必要があるため、複数のテキストが豊富な画像を含むタスクは特に困難である。このようなシナリオの重要性にもかかわらず、現在のマルチモーダル大規模言語モデル(MLLM)は、(1)テキストリッチな複数画像シナリオのための高品質な命令チューニングデータセットの不足、(2)画像の解像度と視覚的特徴列の長さのバランスの難しさという2つの重要な課題のために、このようなタスクを処理するのに苦労している。これらの課題を解決するために、我々はLeopardを提案する。Leopardは、複数のテキストが豊富な画像を含む視覚言語タスクを処理するために特別に設計されたMLLMである。まず、テキストリッチな複数画像のシナリオに合わせた、約100万件の高品質なマルチモーダル命令チューニングデータを収集した。次に、入力画像のアスペクト比と解像度に基づき、視覚シーケンスの長さの割り当てを動的に最適化する適応型高解像度マルチ画像エンコーディングモジュールを開発した。広範なベンチマークでの実験により、テキストリッチな多画像評価における我々のモデルの優れた能力と、一般的なドメイン評価における競争力が実証された。

要約(オリジナル)

Text-rich images, where text serves as the central visual element guiding the overall understanding, are prevalent in real-world applications, such as presentation slides, scanned documents, and webpage snapshots. Tasks involving multiple text-rich images are especially challenging, as they require not only understanding the content of individual images but reasoning about inter-relationships and logical flows across multiple visual inputs. Despite the importance of these scenarios, current multimodal large language models (MLLMs) struggle to handle such tasks due to two key challenges: (1) the scarcity of high-quality instruction tuning datasets for text-rich multi-image scenarios, and (2) the difficulty in balancing image resolution with visual feature sequence length. To address these challenges, we propose Leopard, a MLLM designed specifically for handling vision-language tasks involving multiple text-rich images. First, we curated about one million high-quality multimodal instruction-tuning data, tailored to text-rich, multi-image scenarios. Second, we developed an adaptive high-resolution multi-image encoding module to dynamically optimize the allocation of visual sequence length based on the original aspect ratios and resolutions of the input images. Experiments across a wide range of benchmarks demonstrate our model’s superior capabilities in text-rich, multi-image evaluations and competitive performance in general domain evaluations.

arxiv情報

著者 Mengzhao Jia,Wenhao Yu,Kaixin Ma,Tianqing Fang,Zhihan Zhang,Siru Ouyang,Hongming Zhang,Meng Jiang,Dong Yu
発行日 2024-10-03 15:57:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV | コメントする

Fake It Until You Break It: On the Adversarial Robustness of AI-generated Image Detectors

要約

ジェネレーティブAI(GenAI)は創造的で生産的なタスクに無数の可能性を提供する一方で、人工的に生成されたメディアは詐欺、操作、詐欺、誤報キャンペーンなどに悪用される可能性がある。悪意を持って生成されたメディアに関連するリスクを軽減するために、AIが生成したコンテンツを識別するためのフォレンジック分類器が採用されている。しかし、現在のフォレンジック分類器は、攻撃者の存在や、ソーシャルメディアの劣化のような現実世界のアーティファクトが画像に影響を与える場合など、実際に関連するシナリオでは評価されないことが多い。本稿では、様々な攻撃シナリオの下で、最先端のAI生成画像(AIGI)検出器を評価する。攻撃者がターゲットモデルにアクセスできず、ソーシャルメディアプラットフォームで標準的な、敵対的な例が作成された後に後処理が行われる場合でも、フォレンジック分類器が現実的な設定で効果的に攻撃される可能性があることを実証する。このような攻撃は、検出器に頼ることのリスクがその利点を上回るほど、検出精度を著しく低下させる可能性がある。最後に、現在最高性能の検出器であるCLIPベースの検出器を、これらの攻撃に対して頑健にするための簡単な防御メカニズムを提案する。

要約(オリジナル)

While generative AI (GenAI) offers countless possibilities for creative and productive tasks, artificially generated media can be misused for fraud, manipulation, scams, misinformation campaigns, and more. To mitigate the risks associated with maliciously generated media, forensic classifiers are employed to identify AI-generated content. However, current forensic classifiers are often not evaluated in practically relevant scenarios, such as the presence of an attacker or when real-world artifacts like social media degradations affect images. In this paper, we evaluate state-of-the-art AI-generated image (AIGI) detectors under different attack scenarios. We demonstrate that forensic classifiers can be effectively attacked in realistic settings, even when the attacker does not have access to the target model and post-processing occurs after the adversarial examples are created, which is standard on social media platforms. These attacks can significantly reduce detection accuracy to the extent that the risks of relying on detectors outweigh their benefits. Finally, we propose a simple defense mechanism to make CLIP-based detectors, which are currently the best-performing detectors, robust against these attacks.

arxiv情報

著者 Sina Mavali,Jonas Ricker,David Pape,Yash Sharma,Asja Fischer,Lea Schönherr
発行日 2024-10-03 10:11:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | コメントする

Releasing the Parameter Latency of Neural Representation for High-Efficiency Video Compression

要約

何十年もの間、映像圧縮技術は著名な研究分野であった。従来のハイブリッド動画圧縮フレームワークやエンドツーエンドフレームワークでは、離散変換やディープラーニング技術に基づく様々なフレーム内・フレーム間参照・予測戦略が模索され続けている。しかし、新たな暗黙的ニューラル表現(INR)技術は、動画全体を基本単位としてモデル化し、フレーム内およびフレーム間の相関関係を自動的に捕捉し、有望な性能を得る。INRは、コンパクトなニューラルネットワークを使用して、ネットワークパラメータに動画情報を格納し、元の動画の空間的・時間的冗長性を効果的に排除する。しかし、本論文では、我々の探索と検証により、現在のINRビデオ圧縮手法が、情報保存の潜在能力を十分に引き出せていないことが明らかになった。パラメータ再利用によるネットワークパラメータ保存強化の可能性を調査する。ネットワークを深くすることで、圧縮性能をさらに向上させる実現可能なINRパラメータ再利用方式を設計した。広範な実験結果から、我々の手法がINRビデオ圧縮のレート歪み性能を大幅に向上させることが示された。

要約(オリジナル)

For decades, video compression technology has been a prominent research area. Traditional hybrid video compression framework and end-to-end frameworks continue to explore various intra- and inter-frame reference and prediction strategies based on discrete transforms and deep learning techniques. However, the emerging implicit neural representation (INR) technique models entire videos as basic units, automatically capturing intra-frame and inter-frame correlations and obtaining promising performance. INR uses a compact neural network to store video information in network parameters, effectively eliminating spatial and temporal redundancy in the original video. However, in this paper, our exploration and verification reveal that current INR video compression methods do not fully exploit their potential to preserve information. We investigate the potential of enhancing network parameter storage through parameter reuse. By deepening the network, we designed a feasible INR parameter reuse scheme to further improve compression performance. Extensive experimental results show that our method significantly enhances the rate-distortion performance of INR video compression.

arxiv情報

著者 Gai Zhang,Xinfeng Zhang,Lv Tang,Yue Li,Kai Zhang,Li Zhang
発行日 2024-10-03 12:43:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.MM, eess.IV | コメントする

MOREL: Enhancing Adversarial Robustness through Multi-Objective Representation Learning

要約

広範な研究により、ディープニューラルネットワーク(DNN)は、わずかな敵対的な摂動に弱いことが示されています。特定の攻撃手法から生成された敵対的な例で訓練データを増強することに加え、現在の防御戦略のほとんどは、ロバスト性を向上させるために元のモデル・アーキテクチャ・コンポーネントを修正するか、敵対的な攻撃に対処するためにテスト時間のデータ純化を実行する必要がある。本研究では、訓練中に強力な特徴表現を学習することで、元のモデルの頑健性を大幅に向上できることを実証する。我々はMORELという多目的特徴表現学習アプローチを提案し、分類モデルが摂動にもかかわらず、同じクラス内の入力に対して類似した特徴を生成するよう促す。我々の学習手法は、コサイン類似度損失と多正対照損失が、モデルエンコーダからの自然特徴量と敵対特徴量を整列させ、厳密なクラスタリングを保証するために使用される埋め込み空間を含む。同時に、分類器は正確な予測を達成するように動機づけられる。広範な実験を通して、我々は、我々のアプローチが、ホワイトボックスとブラックボックスの敵対的攻撃に対するDNNの頑健性を大幅に強化し、同様にアーキテクチャの変更やテスト時のデータ精製を必要としない他の方法よりも優れていることを実証する。我々のコードはhttps://github.com/salomonhotegni/MOREL

要約(オリジナル)

Extensive research has shown that deep neural networks (DNNs) are vulnerable to slight adversarial perturbations$-$small changes to the input data that appear insignificant but cause the model to produce drastically different outputs. In addition to augmenting training data with adversarial examples generated from a specific attack method, most of the current defense strategies necessitate modifying the original model architecture components to improve robustness or performing test-time data purification to handle adversarial attacks. In this work, we demonstrate that strong feature representation learning during training can significantly enhance the original model’s robustness. We propose MOREL, a multi-objective feature representation learning approach, encouraging classification models to produce similar features for inputs within the same class, despite perturbations. Our training method involves an embedding space where cosine similarity loss and multi-positive contrastive loss are used to align natural and adversarial features from the model encoder and ensure tight clustering. Concurrently, the classifier is motivated to achieve accurate predictions. Through extensive experiments, we demonstrate that our approach significantly enhances the robustness of DNNs against white-box and black-box adversarial attacks, outperforming other methods that similarly require no architectural changes or test-time data purification. Our code is available at https://github.com/salomonhotegni/MOREL

arxiv情報

著者 Sedjro Salomon Hotegni,Sebastian Peitz
発行日 2024-10-03 09:28:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | コメントする

TopER: Topological Embeddings in Graph Representation Learning

要約

グラフ埋め込みはグラフ表現学習において重要な役割を果たし、機械学習モデルによるグラフ構造データの探索と解釈を可能にする。しかし、既存の手法は不透明で高次元の埋め込みに依存することが多く、解釈可能性や実用的な可視化が制限されている。 本研究では、トポロジカルデータ解析に基づく、新しい低次元埋め込みアプローチであるTopological Evolution Rate (TopER)を紹介する。TopERは、グラフ部分構造の進化率を計算することにより、主要なトポロジカルアプローチであるパーシステントホモロジーを単純化し、グラフデータの直感的で解釈可能な可視化をもたらす。このアプローチはグラフデータセットの探索を向上させるだけでなく、グラフのクラスタリングや分類タスクにおいても競争力のある性能を発揮する。我々のTopERベースのモデルは、分類、クラスタリング、可視化などのタスクにおいて、分子、生物学、社会ネットワークのデータセットで最先端の結果を達成、あるいはそれを上回る。

要約(オリジナル)

Graph embeddings play a critical role in graph representation learning, allowing machine learning models to explore and interpret graph-structured data. However, existing methods often rely on opaque, high-dimensional embeddings, limiting interpretability and practical visualization. In this work, we introduce Topological Evolution Rate (TopER), a novel, low-dimensional embedding approach grounded in topological data analysis. TopER simplifies a key topological approach, Persistent Homology, by calculating the evolution rate of graph substructures, resulting in intuitive and interpretable visualizations of graph data. This approach not only enhances the exploration of graph datasets but also delivers competitive performance in graph clustering and classification tasks. Our TopER-based models achieve or surpass state-of-the-art results across molecular, biological, and social network datasets in tasks such as classification, clustering, and visualization.

arxiv情報

著者 Astrit Tola,Funmilola Mary Taiwo,Cuneyt Gurcan Akcora,Baris Coskunuzer
発行日 2024-10-03 01:58:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.AT | コメントする

Uncertainty Quantification with Bayesian Higher Order ReLU KANs

要約

我々は、コルモゴロフ・アーノルド・ネットワークの領域における最初の不確実性定量化法を紹介する。特に、ベイズ法の計算要求から計算効率を向上させるために、(高次)ReLUKANに焦点を当てる。我々が提案する方法は、本質的に一般的であり、エピステミックな不確実性とアレータリックな不確実性の両方にアクセスすることができる。また、他の様々な基底関数への一般化も可能である。我々は、単純な一次元関数や(確率)偏微分方程式の領域への適用を含む、一連のクロージャテストを通して我々の方法を検証する。後者については、確率項を含むことによって生じる関数従属性を正しく識別できることを実証する。この研究をサポートするコードは https://github.com/wmdataphys/Bayesian-HR-KAN にある。

要約(オリジナル)

We introduce the first method of uncertainty quantification in the domain of Kolmogorov-Arnold Networks, specifically focusing on (Higher Order) ReLUKANs to enhance computational efficiency given the computational demands of Bayesian methods. The method we propose is general in nature, providing access to both epistemic and aleatoric uncertainties. It is also capable of generalization to other various basis functions. We validate our method through a series of closure tests, including simple one-dimensional functions and application to the domain of (Stochastic) Partial Differential Equations. Referring to the latter, we demonstrate the method’s ability to correctly identify functional dependencies introduced through the inclusion of a stochastic term. The code supporting this work can be found at https://github.com/wmdataphys/Bayesian-HR-KAN

arxiv情報

著者 James Giroux,Cristiano Fanelli
発行日 2024-10-03 02:21:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, physics.data-an | コメントする