Robust Multimodal Learning via Cross-Modal Proxy Tokens

要約

マルチモーダルモデルは、推論中に1つ以上のモダリティが欠落している場合、多くの場合、パフォーマンスが大幅に低下します。
この課題に対処するために、すべてのモダリティが利用可能になったときに強力なパフォーマンスを維持しながら、モダリティの欠落に対する堅牢性を高めるシンプルで効果的なアプローチを提案します。
私たちの方法では、明示的なモダリティ生成または補助ネットワークを必要とせずに利用可能なモダリティのトークンのみに参加することにより、欠落しているモダリティのクラストークンに近似するクロスモーダルプロキシトークン(CMPTS)を紹介します。
これらの近似値を最小限の計算オーバーヘッドで効率的に学習するために、冷凍単峰性エンコーダーに低ランクアダプターを使用し、タスク固有の損失でアライメント損失を共同で最適化します。
5つのマルチモーダルデータセットでの広範な実験は、私たちの方法が、完全なモダリティ設定で競争の激しい結果を達成しながら、さまざまな欠落レートで最先端のベースラインよりも優れていることを示しています。
全体として、私たちの方法は、堅牢なマルチモーダル学習のための柔軟で効率的なソリューションを提供します。
コードモデルと前処理されたモデルはGitHubでリリースされます。

要約(オリジナル)

Multimodal models often experience a significant performance drop when one or more modalities are missing during inference. To address this challenge, we propose a simple yet effective approach that enhances robustness to missing modalities while maintaining strong performance when all modalities are available. Our method introduces cross-modal proxy tokens (CMPTs), which approximate the class token of a missing modality by attending only to the tokens of the available modality without requiring explicit modality generation or auxiliary networks. To efficiently learn these approximations with minimal computational overhead, we employ low-rank adapters in frozen unimodal encoders and jointly optimize an alignment loss with a task-specific loss. Extensive experiments on five multimodal datasets show that our method outperforms state-of-the-art baselines across various missing rates while achieving competitive results in complete-modality settings. Overall, our method offers a flexible and efficient solution for robust multimodal learning. The code and pretrained models will be released on GitHub.

arxiv情報

著者 Md Kaykobad Reza,Ameya Patil,Mashhour Solh,M. Salman Asif
発行日 2025-06-02 16:21:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Robust Multimodal Learning via Cross-Modal Proxy Tokens はコメントを受け付けていません

Benchmarking 3D Human Pose Estimation Models under Occlusions

要約

人間のポーズ推定(HPE)には、視覚データから人体のキーポイントを検出およびローカライズすることが含まれます。
3D HPEでは、画像に体の一部が見えないオクルージョンは、正確なポーズ再構成に大きな課題をもたらします。
この論文では、現実的な閉塞条件下での3D HPEモデルの堅牢性に関するベンチマークを紹介します。これは、実際のシナリオで一般的に観察される閉塞キーポイントの組み合わせを含みます。
グラウンドトゥルース2D/3D注釈とオクルージョンラベルを備えた合成データセットであるBlendMimimimImImIm3Dデータセットを使用して、畳み込み、変圧器ベース、グラフベース、および拡散ベースのアーキテクチャにまたがる9つの最先端の2D対3D HPEモデルを評価します。
すべてのモデルはもともとHuman3.6mで訓練され、一般化を評価するために再訓練することなくここでテストされました。
実際の検出器の動作に基づいて2Dキーポイントにノイズを追加することにより、閉塞をシミュレートするプロトコルを導入し、グローバルおよびジョイントごとの感度分析の両方を実施します。
私たちの発見は、すべてのモデルが閉塞下で顕著な性能劣化を示すことを明らかにしており、拡散ベースのモデルは確率的な性質にもかかわらずパフォーマンスが低下しています。
さらに、ジョイントごとの閉塞解析では、モデル間で遠位関節(手首、足など)の一貫した脆弱性を識別します。
全体として、この作業は、閉塞の取り扱いにおける現在の3D HPEモデルの重要な制限を強調し、実際の堅牢性を改善するための洞察を提供します。

要約(オリジナル)

Human Pose Estimation (HPE) involves detecting and localizing keypoints on the human body from visual data. In 3D HPE, occlusions, where parts of the body are not visible in the image, pose a significant challenge for accurate pose reconstruction. This paper presents a benchmark on the robustness of 3D HPE models under realistic occlusion conditions, involving combinations of occluded keypoints commonly observed in real-world scenarios. We evaluate nine state-of-the-art 2D-to-3D HPE models, spanning convolutional, transformer-based, graph-based, and diffusion-based architectures, using the BlendMimic3D dataset, a synthetic dataset with ground-truth 2D/3D annotations and occlusion labels. All models were originally trained on Human3.6M and tested here without retraining to assess their generalization. We introduce a protocol that simulates occlusion by adding noise into 2D keypoints based on real detector behavior, and conduct both global and per-joint sensitivity analyses. Our findings reveal that all models exhibit notable performance degradation under occlusion, with diffusion-based models underperforming despite their stochastic nature. Additionally, a per-joint occlusion analysis identifies consistent vulnerability in distal joints (e.g., wrists, feet) across models. Overall, this work highlights critical limitations of current 3D HPE models in handling occlusions, and provides insights for improving real-world robustness.

arxiv情報

著者 Filipa Lino,Carlos Santiago,Manuel Marques
発行日 2025-06-02 16:24:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Benchmarking 3D Human Pose Estimation Models under Occlusions はコメントを受け付けていません

A Survey of 3D Reconstruction with Event Cameras

要約

イベントカメラは、3D再建のための強力な視覚センサーとして急速に浮上しており、ピクセルあたりの輝度の変化を非同期的にキャプチャすることができます。
従来のフレームベースのカメラと比較して、イベントカメラはまばらでありながら一時的に密度の高いデータストリームを生成し、高速モーション、低照明、極端なダイナミックレンジシナリオなどの困難な条件下でも堅牢で正確な3D再構成を可能にします。
これらの機能は、自律運転、ロボット工学、空中ナビゲーション、没入型の仮想現実など、さまざまな分野での変革的アプリケーションに大きな約束を提供します。
この調査では、イベントベースの3D再建専用の最初の包括的なレビューを紹介します。
既存のアプローチは、ステレオ、モノクラー、およびマルチモーダルシステムへの入力モダリティに基づいて体系的に分類され、幾何学ベースの技術、深い学習アプローチ、神経放射輝度フィールド(NERF)や3Dガウシアンスプライティング(3DGS)などの神経レンダリング技術を含む再構築方法に従ってさらに分類されます。
各カテゴリ内で、メソッドは時系列に組織されており、重要な概念と進歩の進化を強調しています。
さらに、イベントベースの再構築タスクに特に適した公開されているデータセットの詳細な要約を提供します。
最後に、データセットの可用性、標準化された評価、効果的な表現、動的なシーンの再構築における重要なオープンな課題について説明し、将来の研究のための洞察に満ちた方向性を概説します。
この調査の目的は、重要な参照として機能することを目的としており、イベント駆動型の3D再構築における最先端の最先端を前進させるための明確でやる気のあるロードマップを提供します。

要約(オリジナル)

Event cameras are rapidly emerging as powerful vision sensors for 3D reconstruction, uniquely capable of asynchronously capturing per-pixel brightness changes. Compared to traditional frame-based cameras, event cameras produce sparse yet temporally dense data streams, enabling robust and accurate 3D reconstruction even under challenging conditions such as high-speed motion, low illumination, and extreme dynamic range scenarios. These capabilities offer substantial promise for transformative applications across various fields, including autonomous driving, robotics, aerial navigation, and immersive virtual reality. In this survey, we present the first comprehensive review exclusively dedicated to event-based 3D reconstruction. Existing approaches are systematically categorised based on input modality into stereo, monocular, and multimodal systems, and further classified according to reconstruction methodologies, including geometry-based techniques, deep learning approaches, and neural rendering techniques such as Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3DGS). Within each category, methods are chronologically organised to highlight the evolution of key concepts and advancements. Furthermore, we provide a detailed summary of publicly available datasets specifically suited to event-based reconstruction tasks. Finally, we discuss significant open challenges in dataset availability, standardised evaluation, effective representation, and dynamic scene reconstruction, outlining insightful directions for future research. This survey aims to serve as an essential reference and provides a clear and motivating roadmap toward advancing the state of the art in event-driven 3D reconstruction.

arxiv情報

著者 Chuanzhi Xu,Haoxian Zhou,Langyi Chen,Haodong Chen,Ying Zhou,Vera Chung,Qiang Qu,Weidong Cai
発行日 2025-06-02 16:47:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | A Survey of 3D Reconstruction with Event Cameras はコメントを受け付けていません

Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs?

要約

ビジョン言語モデル(VLM)は、視覚的な質問応答と画像キャプションで印象的です。
しかし、彼らは、テキスト形式で提示された同じタスクのLLMと比較しても、マルチステップの視覚的推論でパフォーマンスを低下させています。
このような問題の体系的な研究に向けて、Table Readout、グリッドナビゲーション、視覚的類推の3つのタスクで構成されるアルゴリズムの視覚的推論を実行するVLMの能力を評価するための合成フレームワークを紹介します。
それぞれに2つのレベルの難易度があり、シンプルでハードがあり、フロンティアVLMにとってもシンプルなバージョンでさえ困難です。
対応するハードタスク、つまりシンプルな(S2H)一般化のパフォーマンスを改善するタスクの単純なバージョンでトレーニングのための戦略を提案します。
この制御されたセットアップは、各タスクにも同等のテキストのみのバージョンがあるため、モダリティの不均衡とトレーニング戦略の影響を定量化することができます。
1)テキストから推論を転送することにより、画像上のS2H一般化を促進する上で明示的な画像からテキストへの変換が重要であることを示します。
2)コンバージョンは、テスト時に内部化できます。
また、この現象の機械的研究の結果を報告します。
より良いS2H一般化を促進するトレーニング戦略を特定できる勾配アライメントの尺度を特定します。
アブレーションは、考え方のチェーンの重要性を強調しています。

要約(オリジナル)

Vision Language Models (VLMs) are impressive at visual question answering and image captioning. But they underperform on multi-step visual reasoning — even compared to LLMs on the same tasks presented in text form — giving rise to perceptions of modality imbalance or brittleness. Towards a systematic study of such issues, we introduce a synthetic framework for assessing the ability of VLMs to perform algorithmic visual reasoning, comprising three tasks: Table Readout, Grid Navigation, and Visual Analogy. Each has two levels of difficulty, SIMPLE and HARD, and even the SIMPLE versions are difficult for frontier VLMs. We propose strategies for training on the SIMPLE version of tasks that improve performance on the corresponding HARD task, i.e., simple-to-hard (S2H) generalization. This controlled setup, where each task also has an equivalent text-only version, allows a quantification of the modality imbalance and how it is impacted by training strategy. We show that 1) explicit image-to-text conversion is important in promoting S2H generalization on images, by transferring reasoning from text; 2) conversion can be internalized at test time. We also report results of mechanistic study of this phenomenon. We identify measures of gradient alignment that can identify training strategies that promote better S2H generalization. Ablations highlight the importance of chain-of-thought.

arxiv情報

著者 Simon Park,Abhishek Panigrahi,Yun Cheng,Dingli Yu,Anirudh Goyal,Sanjeev Arora
発行日 2025-06-02 16:48:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs? はコメントを受け付けていません

MaxSup: Overcoming Representation Collapse in Label Smoothing

要約

ラベルスムージング(LS)は、ニューラルネットワークの予測への自信過剰を減らし、一般化を改善するために広く採用されています。
これらの利点にもかかわらず、最近の研究では、LSに関する2つの重要な問題が明らかになりました。
第一に、LSは誤分類されたサンプルに自信過剰を誘導します。
第二に、この現象の正確な原因はとらえどころのないままでしたが、クラス内の多様性を希釈して、特徴表現を過度にタイトなクラスターに圧縮します。
この論文では、LSによる損失を分析的に分解し、2つの重要な用語を公開します。(i)予測が正しい場合にのみ、自信過剰を減衰させる正規化用語、および(ii)誤分類の下で生じるエラー増幅用語。
この後者の用語により、ネットワークは、過度の確実性、悪化する表現の崩壊による誤った予測を強化することを強いられます。
これらの欠点に対処するために、マックス抑制(MaxSup)を提案します。これは、グラウンドトゥルースロジットではなくTOP-1ロジットをペナルティすることにより、正解と誤った予測の両方に均一な正則化を適用します。
広範な機能空間分析を通じて、MaxSupがクラス内変動を回復し、クラス間境界を削減することを示します。
大規模な画像分類と複数のダウンストリームタスクに関する実験では、MaxsupがLSのより堅牢な代替品であることを確認し、より豊かな機能表現を維持しながら、自信過剰を一貫して減らします。
コードは、https://github.com/zhouyuxuanyx/maximum-suppression-正規化で入手できます

要約(オリジナル)

Label Smoothing (LS) is widely adopted to reduce overconfidence in neural network predictions and improve generalization. Despite these benefits, recent studies reveal two critical issues with LS. First, LS induces overconfidence in misclassified samples. Second, it compacts feature representations into overly tight clusters, diluting intra-class diversity, although the precise cause of this phenomenon remained elusive. In this paper, we analytically decompose the LS-induced loss, exposing two key terms: (i) a regularization term that dampens overconfidence only when the prediction is correct, and (ii) an error-amplification term that arises under misclassifications. This latter term compels the network to reinforce incorrect predictions with undue certainty, exacerbating representation collapse. To address these shortcomings, we propose Max Suppression (MaxSup), which applies uniform regularization to both correct and incorrect predictions by penalizing the top-1 logit rather than the ground-truth logit. Through extensive feature-space analyses, we show that MaxSup restores intra-class variation and sharpens inter-class boundaries. Experiments on large-scale image classification and multiple downstream tasks confirm that MaxSup is a more robust alternative to LS, consistently reducing overconfidence while preserving richer feature representations. Code is available at: https://github.com/ZhouYuxuanYX/Maximum-Suppression-Regularization

arxiv情報

著者 Yuxuan Zhou,Heng Li,Zhi-Qi Cheng,Xudong Yan,Yifei Dong,Mario Fritz,Margret Keuper
発行日 2025-06-02 17:13:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | MaxSup: Overcoming Representation Collapse in Label Smoothing はコメントを受け付けていません

Unveiling the Lack of LVLM Robustness to Fundamental Visual Variations: Why and Path Forward

要約

大規模なビジョン言語モデル(LVLMS)は、さまざまなビジョン言語タスクに優れています。
しかし、視点と環境の変化のために必然的に示す自然なシーンでオブジェクトが示す位置、スケール、方向、およびコンテキストの視覚的変動に対するそれらの堅牢性。
このギャップを埋めるために、自動化された評価データセット生成と徹底的な堅牢性評価のための原理化されたメトリックを含むLVLMSの視覚的変動の堅牢性を評価するための包括的なベンチマークフレームワークであるv $^2 $ r-benchを導入します。
21 LVLMSでの広範な評価を通じて、視覚的バリエーションに対する驚くべき脆弱性を明らかにします。そこでは、オブジェクト認識などの単純なタスクで複雑なビジョン言語タスクに優れている高度なモデルでさえもパフォーマンスが低いことを明らかにします。
興味深いことに、これらのモデルは、効果的な受容フィールドの理論と矛盾する明確な視覚位置バイアスを示し、人間のような視力閾値を実証します。
これらの脆弱性のソースを特定するために、コンポーネントレベルの分析のための体系的なフレームワークを提示し、整列した視覚的特徴のための新しい視覚化アプローチを特徴としています。
結果は、これらの脆弱性がパイプラインアーキテクチャにおけるエラーの蓄積と不十分なマルチモーダルアライメントに起因することを示しています。
合成データを伴う補完的な実験はさらに、これらの制限が基本的に建築的欠陥であり、将来のLVLMデザインにおける建築革新の必要性を採点していることを示しています。

要約(オリジナル)

Large Vision Language Models (LVLMs) excel in various vision-language tasks. Yet, their robustness to visual variations in position, scale, orientation, and context that objects in natural scenes inevitably exhibit due to changes in viewpoint and environment remains largely underexplored. To bridge this gap, we introduce V$^2$R-Bench, a comprehensive benchmark framework for evaluating Visual Variation Robustness of LVLMs, which encompasses automated evaluation dataset generation and principled metrics for thorough robustness assessment. Through extensive evaluation on 21 LVLMs, we reveal a surprising vulnerability to visual variations, in which even advanced models that excel at complex vision-language tasks significantly underperform on simple tasks such as object recognition. Interestingly, these models exhibit a distinct visual position bias that contradicts theories of effective receptive fields, and demonstrate a human-like visual acuity threshold. To identify the source of these vulnerabilities, we present a systematic framework for component-level analysis, featuring a novel visualization approach for aligned visual features. Results show that these vulnerabilities stem from error accumulation in the pipeline architecture and inadequate multimodal alignment. Complementary experiments with synthetic data further demonstrate that these limitations are fundamentally architectural deficiencies, scoring the need for architectural innovations in future LVLM designs.

arxiv情報

著者 Zhiyuan Fan,Yumeng Wang,Sandeep Polisetty,Yi R. Fung
発行日 2025-06-02 17:24:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Unveiling the Lack of LVLM Robustness to Fundamental Visual Variations: Why and Path Forward はコメントを受け付けていません

VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL

要約

拡散モデルは、さまざまなドメインにわたって強力な生成ツールとして浮上していますが、特定の望ましい特性を示すために事前に訓練されたモデルを調整することは依然として困難です。
Rehnection Learning(RL)は有望なソリューションを提供しますが、現在の方法は、安定した効率的な微調整を実現し、非差性の報酬をサポートするのに同時に苦労しています。
さらに、スパースの報酬への依存は、中間ステップ中に不十分な監督を提供し、多くの場合、最適ではない生成の品質をもたらします。
これらの制限に対処するために、拡散プロセス全体で密度と微分可能な信号が必要です。
したがって、私たちは価値ベースの強化拡散(VARD)を提案します。最初に中間状態からの報酬の免除を予測する値関数を学習し、その後KL正規化でこの値関数を使用して、生成プロセス全体で密な監督を提供します。
私たちの方法は、逆流を介して効果的で安定したトレーニングを可能にしながら、事前に守られたモデルへの近接性を維持します。
実験結果は、私たちのアプローチがより良い軌道ガイダンスを促進し、トレーニングの効率を改善し、RLの適用性を複雑で分化できない報酬機能に最適化された拡散モデルに拡張することを示しています。

要約(オリジナル)

Diffusion models have emerged as powerful generative tools across various domains, yet tailoring pre-trained models to exhibit specific desirable properties remains challenging. While reinforcement learning (RL) offers a promising solution,current methods struggle to simultaneously achieve stable, efficient fine-tuning and support non-differentiable rewards. Furthermore, their reliance on sparse rewards provides inadequate supervision during intermediate steps, often resulting in suboptimal generation quality. To address these limitations, dense and differentiable signals are required throughout the diffusion process. Hence, we propose VAlue-based Reinforced Diffusion (VARD): a novel approach that first learns a value function predicting expection of rewards from intermediate states, and subsequently uses this value function with KL regularization to provide dense supervision throughout the generation process. Our method maintains proximity to the pretrained model while enabling effective and stable training via backpropagation. Experimental results demonstrate that our approach facilitates better trajectory guidance, improves training efficiency and extends the applicability of RL to diffusion models optimized for complex, non-differentiable reward functions.

arxiv情報

著者 Fengyuan Dai,Zifeng Zhuang,Yufei Huang,Siteng Huang,Bangyan Liao,Donglin Wang,Fajie Yuan
発行日 2025-06-02 17:53:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL はコメントを受け付けていません

MDMP: Multi-modal Diffusion for supervised Motion Predictions with uncertainty

要約

このペーパーでは、骨格データとアクションのテキスト記述を統合および同期するモーション予測のためのマルチモーダル拡散モデル(MDMP)を紹介し、定量化可能な不確実性で洗練された長期運動予測を生成します。
モーション予測またはモーション生成の既存の方法は、以前の動きまたはテキストプロンプトのいずれかにのみ依存しており、特に長時間にわたって精度または制御を伴う制限に直面しています。
私たちのアプローチのマルチモーダルの性質は、人間の動きの文脈的理解を高め、グラフベースのトランスフレームワークは空間運動ダイナミクスと時間的運動のダイナミクスの両方を効果的にキャプチャします。
その結果、私たちのモデルは、長期的な動きを正確に予測する際に、既存の生成技術よりも一貫して優れています。
さらに、さまざまな予測モードをキャプチャする拡散モデルの能力を活用することにより、不確実性を推定し、各ボディ関節のさまざまな信頼レベルで存在ゾーンを組み込むことにより、人間とロボットの相互作用の空間的認識を大幅に改善します。

要約(オリジナル)

This paper introduces a Multi-modal Diffusion model for Motion Prediction (MDMP) that integrates and synchronizes skeletal data and textual descriptions of actions to generate refined long-term motion predictions with quantifiable uncertainty. Existing methods for motion forecasting or motion generation rely solely on either prior motions or text prompts, facing limitations with precision or control, particularly over extended durations. The multi-modal nature of our approach enhances the contextual understanding of human motion, while our graph-based transformer framework effectively capture both spatial and temporal motion dynamics. As a result, our model consistently outperforms existing generative techniques in accurately predicting long-term motions. Additionally, by leveraging diffusion models’ ability to capture different modes of prediction, we estimate uncertainty, significantly improving spatial awareness in human-robot interactions by incorporating zones of presence with varying confidence levels for each body joint.

arxiv情報

著者 Leo Bringer,Joey Wilson,Kira Barton,Maani Ghaffari
発行日 2025-06-01 21:34:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MDMP: Multi-modal Diffusion for supervised Motion Predictions with uncertainty はコメントを受け付けていません

Accurate Differential Operators for Hybrid Neural Fields

要約

ニューラルフィールドは、形状の表現から神経レンダリングまで、および部分的な微分方程式(PDE)を解くために、さまざまな分野で広く使用されています。
インスタントNGPのようなハイブリッドニューラルフィールド表現の出現により、小さなMLPSと明示的な表現を活用すると、これらのモデルは迅速にトレーニングし、大きなシーンに適合させることができます。
しかし、レンダリングやシミュレーションなどの多くのアプリケーションでは、ハイブリッドニューラルフィールドは顕著で不合理なアーティファクトを引き起こす可能性があります。
これは、これらのダウンストリームアプリケーションに必要な正確な空間デリバティブを生成しないためです。
この作業では、これらの課題を回避する2つの方法を提案します。
私たちの最初のアプローチは、局所的な多項式フィッティングを使用して、事前に訓練されたハイブリッド神経分野からより正確な誘導体を取得する事後演算子です。
さらに、初期信号を保存しながら正確な導関数を直接生成するためにハイブリッド神経界を改良する自己監視された微調整アプローチも提案します。
レンダリング、衝突シミュレーション、およびPDEの解決への方法のアプリケーションを示します。
私たちのアプローチを使用すると、より正確な導関数が得られ、アーティファクトが減少し、下流のアプリケーションでより正確なシミュレーションにつながることがわかります。

要約(オリジナル)

Neural fields have become widely used in various fields, from shape representation to neural rendering, and for solving partial differential equations (PDEs). With the advent of hybrid neural field representations like Instant NGP that leverage small MLPs and explicit representations, these models train quickly and can fit large scenes. Yet in many applications like rendering and simulation, hybrid neural fields can cause noticeable and unreasonable artifacts. This is because they do not yield accurate spatial derivatives needed for these downstream applications. In this work, we propose two ways to circumvent these challenges. Our first approach is a post hoc operator that uses local polynomial fitting to obtain more accurate derivatives from pre-trained hybrid neural fields. Additionally, we also propose a self-supervised fine-tuning approach that refines the hybrid neural field to yield accurate derivatives directly while preserving the initial signal. We show applications of our method to rendering, collision simulation, and solving PDEs. We observe that using our approach yields more accurate derivatives, reducing artifacts and leading to more accurate simulations in downstream applications.

arxiv情報

著者 Aditya Chetan,Guandao Yang,Zichen Wang,Steve Marschner,Bharath Hariharan
発行日 2025-06-01 22:32:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | Accurate Differential Operators for Hybrid Neural Fields はコメントを受け付けていません

Fact-Checking of AI-Generated Reports

要約

生成人工知能(AI)の進歩により、放射線画像の予備読み取りのために現実的に見える自動レポートを作成することができます。
これにより、臨床ワークフローを促進し、精度を向上させ、全体的なコストを削減できます。
しかし、そのようなモデルがしばしば幻覚を起こし、生成されたレポートで誤った発見につながることもよく知られています。
この論文では、関連する画像を使用して、AIに生成されたレポートの事実確認の新しい方法を提案します。
具体的には、開発された審査官は、実際のまたは潜在的に偽の調査結果を説明する画像と文の関連性を学習することにより、レポートで実際の文章と偽の文を区別します。
このような審査官を訓練するために、最初に、画像に関連付けられた元のグラウンドトゥルース放射線レポートの調査結果を摂動することにより、偽のレポートの新しいデータセットを作成しました。
これらのレポートから描かれた実際の偽の文のテキストエンコーディングは、画像エンコーディングとペアになり、実際の/偽のラベルへのマッピングを学習します。
このような審査官の有用性は、偽の文を検出して削除することにより、自動的に生成されたレポートを検証するために実証されています。
将来の生成AIアプローチは、結果のツールを使用して、臨床ワークフローを促進する際にAIのより責任ある使用につながるレポートを検証することができます。

要約(オリジナル)

With advances in generative artificial intelligence (AI), it is now possible to produce realistic-looking automated reports for preliminary reads of radiology images. This can expedite clinical workflows, improve accuracy and reduce overall costs. However, it is also well-known that such models often hallucinate, leading to false findings in the generated reports. In this paper, we propose a new method of fact-checking of AI-generated reports using their associated images. Specifically, the developed examiner differentiates real and fake sentences in reports by learning the association between an image and sentences describing real or potentially fake findings. To train such an examiner, we first created a new dataset of fake reports by perturbing the findings in the original ground truth radiology reports associated with images. Text encodings of real and fake sentences drawn from these reports are then paired with image encodings to learn the mapping to real/fake labels. The utility of such an examiner is demonstrated for verifying automatically generated reports by detecting and removing fake sentences. Future generative AI approaches can use the resulting tool to validate their reports leading to a more responsible use of AI in expediting clinical workflows.

arxiv情報

著者 Razi Mahmood,Diego Machado Reyes,Ge Wang,Mannudeep Kalra,Pingkun Yan
発行日 2025-06-02 00:45:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG, eess.IV | Fact-Checking of AI-Generated Reports はコメントを受け付けていません