Demonstrating CavePI: Autonomous Exploration of Underwater Caves by Semantic Guidance

要約

自律的なロボットが水中管理、水文地質学、考古学、および海洋ロボット工学にとって、水中洞窟を安全かつ効率的にナビゲート、探索、およびマッピングできるようにすることが非常に重要です。
この作業では、セマンティックガイド付きの自律的な水中洞窟探査のための視覚サーボフレームワークのシステム設計とアルゴリズム統合を示します。
このフレームワークをCavepiという名前の新しいAUV(自律的な水中車両)に展開するために、ハードウェアとエッジアイの設計上の考慮事項を提示します。
ガイド付きナビゲーションは、計算的に軽いが堅牢な深い視覚認識モジュールによって駆動され、環境の豊富な意味的理解を提供します。
その後、堅牢な制御メカニズムにより、Cavepiはセマンティックガイドを追跡し、複雑な洞窟構造内でナビゲートできます。
自然の水中洞窟および春の水域でのフィールド実験を通じてシステムを評価し、シミュレーション環境でのROS(ロボットオペレーティングシステム)ベースのデジタルツインをさらに検証します。
私たちの結果は、これらの統合された設計の選択が、機能不足、GPS除去、および視界の低い条件下での信頼できるナビゲーションをどのように促進するかを強調しています。

要約(オリジナル)

Enabling autonomous robots to safely and efficiently navigate, explore, and map underwater caves is of significant importance to water resource management, hydrogeology, archaeology, and marine robotics. In this work, we demonstrate the system design and algorithmic integration of a visual servoing framework for semantically guided autonomous underwater cave exploration. We present the hardware and edge-AI design considerations to deploy this framework on a novel AUV (Autonomous Underwater Vehicle) named CavePI. The guided navigation is driven by a computationally light yet robust deep visual perception module, delivering a rich semantic understanding of the environment. Subsequently, a robust control mechanism enables CavePI to track the semantic guides and navigate within complex cave structures. We evaluate the system through field experiments in natural underwater caves and spring-water sites and further validate its ROS (Robot Operating System)-based digital twin in a simulation environment. Our results highlight how these integrated design choices facilitate reliable navigation under feature-deprived, GPS-denied, and low-visibility conditions.

arxiv情報

著者 Alankrit Gupta,Adnan Abdullah,Xianyao Li,Vaishnav Ramesh,Ioannis Rekleitis,Md Jahidul Islam
発行日 2025-04-24 17:16:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Gripper Keypose and Object Pointflow as Interfaces for Bimanual Robotic Manipulation

要約

二近操作は挑戦的でありながら重要なロボット能力であり、正確な空間的ローカリゼーションと汎用性の高い動きの軌跡を要求し、既存のアプローチに大きな課題をもたらします。
既存のアプローチは2つのカテゴリに分類されます。キーフレームベースの戦略は、キーフレームでグリッパーポーズを予測し、モーションプランナーを介してそれらを実行することと、各タイムステップで順次アクションを推定する継続的な制御方法です。
キーフレームベースの方法には、フレーム間の監督がなく、一貫して実行するのに苦労したり、湾曲した動きを実行したりしますが、連続的な方法は空間的知覚が弱いことに苦しんでいます。
これらの問題に対処するために、このペーパーでは、ターゲットグリッパーのポーズとオブジェクトポイントフローの予測を連続アクション推定と統合するエンドツーエンドフレームワークPPI(キーポースとポイントフローインターフェイス)を紹介します。
これらのインターフェイスにより、モデルはターゲット操作エリアに効果的に注意を払うことができ、全体的なフレームワークは多様で衝突のない軌跡をガイドします。
インターフェイスの予測と連続アクションの推定を組み合わせることにより、PPIは多様な二重操作タスクで優れたパフォーマンスを実証し、空間ローカリゼーションの強化と運動制限の処理における満足のいく柔軟性を提供します。
広範な評価では、PPIはシミュレートされた実験と現実世界の両方の実験の両方で以前の方法を大幅に上回り、RLBench2シミュレーションベンチマークでA +16.1%の改善で最先端のパフォーマンスを達成し、4つの挑戦的な現実世界のタスクにわたって平均 +27.5%増加します。
特に、PPIは、実世界のシナリオで強力な安定性、高精度、顕著な一般化機能を示します。
プロジェクトページ:https://yuyinyang3y.github.io/ppi/

要約(オリジナル)

Bimanual manipulation is a challenging yet crucial robotic capability, demanding precise spatial localization and versatile motion trajectories, which pose significant challenges to existing approaches. Existing approaches fall into two categories: keyframe-based strategies, which predict gripper poses in keyframes and execute them via motion planners, and continuous control methods, which estimate actions sequentially at each timestep. The keyframe-based method lacks inter-frame supervision, struggling to perform consistently or execute curved motions, while the continuous method suffers from weaker spatial perception. To address these issues, this paper introduces an end-to-end framework PPI (keyPose and Pointflow Interface), which integrates the prediction of target gripper poses and object pointflow with the continuous actions estimation. These interfaces enable the model to effectively attend to the target manipulation area, while the overall framework guides diverse and collision-free trajectories. By combining interface predictions with continuous actions estimation, PPI demonstrates superior performance in diverse bimanual manipulation tasks, providing enhanced spatial localization and satisfying flexibility in handling movement restrictions. In extensive evaluations, PPI significantly outperforms prior methods in both simulated and real-world experiments, achieving state-of-the-art performance with a +16.1% improvement on the RLBench2 simulation benchmark and an average of +27.5% gain across four challenging real-world tasks. Notably, PPI exhibits strong stability, high precision, and remarkable generalization capabilities in real-world scenarios. Project page: https://yuyinyang3y.github.io/PPI/

arxiv情報

著者 Yuyin Yang,Zetao Cai,Yang Tian,Jia Zeng,Jiangmiao Pang
発行日 2025-04-24 17:58:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

L3: DIMM-PIM Integrated Architecture and Coordination for Scalable Long-Context LLM Inference

要約

大規模な言語モデル(LLMS)は、長いテキストシーケンスを処理する必要がありますが、GPUメモリの制限により、メモリ容量と帯域幅の間の困難なトレードオフが強制されます。
HBMベースの加速は高い帯域幅を提供しますが、その容量は抑制されたままです。
ホスト側のDIMMにデータをオフロードすると、容量が向上しますが、費用のかかるデータは頭上を交換します。
重要なメモリボトルネックは、マルチヘッド注意(MHA)のみのデコードフェーズにあることを特定します。これは、KVキャッシュと高い帯域幅を注意計算に保存するための実質的な能力を必要とすることを特定します。
私たちの重要な洞察は、この操作が最新のDIMMベースのメモリ(PIM)アーキテクチャと独自に整合していることを明らかにしています。これは、容量と帯域幅の両方のスケーラビリティを提供します。
この観察と洞察に基づいて、DIMM-PIMとGPUデバイスを統合するハードウェアソフトウェアの共同設計システムであるL3を提案します。
L3は3つのイノベーションを導入します。最初に、ハードウェアの再設計データレイアウトの不一致とDIMM-PIMの計算要素の不一致を再設計し、LLM推論の利用を強化します。
第二に、通信の最適化により、データ転送が計算とともに頭上に隠れることができます。
第三に、適応型スケジューラはGPU-DIMM-PIM操作を調整して、デバイス間の並列性を最大化します。
現実世界のトレースを使用した評価は、L3が最先端のHBM-PIMソリューションよりも最大6.1 $ \ Times $速度を達成し、バッチサイズを大幅に改善することを示しています。

要約(オリジナル)

Large Language Models (LLMs) increasingly require processing long text sequences, but GPU memory limitations force difficult trade-offs between memory capacity and bandwidth. While HBM-based acceleration offers high bandwidth, its capacity remains constrained. Offloading data to host-side DIMMs improves capacity but introduces costly data swapping overhead. We identify that the critical memory bottleneck lies in the decoding phase of multi-head attention (MHA) exclusively, which demands substantial capacity for storing KV caches and high bandwidth for attention computation. Our key insight reveals this operation uniquely aligns with modern DIMM-based processing-in-memory (PIM) architectures, which offers scalability of both capacity and bandwidth. Based on this observation and insight, we propose L3, a hardware-software co-designed system integrating DIMM-PIM and GPU devices. L3 introduces three innovations: First, hardware redesigns resolve data layout mismatches and computational element mismatches in DIMM-PIM, enhancing LLM inference utilization. Second, communication optimization enables hiding the data transfer overhead with the computation. Third, an adaptive scheduler coordinates GPU-DIMM-PIM operations to maximize parallelism between devices. Evaluations using real-world traces show L3 achieves up to 6.1$\times$ speedup over state-of-the-art HBM-PIM solutions while significantly improving batch sizes.

arxiv情報

著者 Qingyuan Liu,Liyan Chen,Yanning Yang,Haocheng Wang,Dong Du,Zhigang Mao,Naifeng Jing,Yubin Xia,Haibo Chen
発行日 2025-04-24 14:14:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.LG | コメントする

Sharpness-Aware Parameter Selection for Machine Unlearning

要約

多くの場合、クレジットカード番号やパスワードなどの機密性の高い個人情報は、機械学習モデルのトレーニングに誤って組み込まれ、その後削除する必要があることがよくあります。
訓練されたモデルからそのような情報を削除することは、トレーニングプロセスを部分的に逆転させる必要がある複雑なタスクです。
この問題に対処するために、文献で提案されているさまざまな機械の学習技術がありました。
提案された方法のほとんどは、訓練されたモデルから個々のデータサンプルの削除を中心に展開しています。
もう1つの探索されていない方向は、データサンプルのグループの機能/ラベルを戻す必要がある場合です。
これらのタスクの既存のメソッドは、モデルパラメーターのセット全体またはモデルの最後のレイヤーのみを更新することにより、未学習タスクを実行しますが、未学習のターゲット機能に最大の貢献度を持つモデルパラメーターのサブセットがあることを示します。
より正確には、ヘシアンマトリックス(学習モデルパラメーターで計算)で最大の対応する斜め値を持つモデルパラメーターは、未学習タスクに最も貢献しています。
これらのパラメーターを選択し、学習段階でそれらを更新することにより、学習の最大の進歩を遂げることができます。
提案された戦略を、シャープネスを認識した最小化と堅牢な解除に接続することにより、提案された戦略の理論的正当化を提供します。
計算コストが低いために、非学習の有効性を改善する上で、提案された戦略の有効性を経験的に示します。

要約(オリジナル)

It often happens that some sensitive personal information, such as credit card numbers or passwords, are mistakenly incorporated in the training of machine learning models and need to be removed afterwards. The removal of such information from a trained model is a complex task that needs to partially reverse the training process. There have been various machine unlearning techniques proposed in the literature to address this problem. Most of the proposed methods revolve around removing individual data samples from a trained model. Another less explored direction is when features/labels of a group of data samples need to be reverted. While the existing methods for these tasks do the unlearning task by updating the whole set of model parameters or only the last layer of the model, we show that there are a subset of model parameters that have the largest contribution in the unlearning target features. More precisely, the model parameters with the largest corresponding diagonal value in the Hessian matrix (computed at the learned model parameter) have the most contribution in the unlearning task. By selecting these parameters and updating them during the unlearning stage, we can have the most progress in unlearning. We provide theoretical justifications for the proposed strategy by connecting it to sharpness-aware minimization and robust unlearning. We empirically show the effectiveness of the proposed strategy in improving the efficacy of unlearning with a low computational cost.

arxiv情報

著者 Saber Malekmohammadi,Hong kyu Lee,Li Xiong
発行日 2025-04-24 14:14:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

A Machine Learning Approach for Denoising and Upsampling HRTFs

要約

現実的な仮想没入型オーディオの需要は成長し続け、ヘッド関連の転送関数(HRTF)が重要な役割を果たしています。
HRTFは、独自の解剖学的特徴を反映し、空間的知覚を高めることを反映して、音が耳に届く方法を捉えています。
パーソナライズされたHRTFはローカリゼーションの精度を改善することが示されていますが、それらの測定には時間がかかり続け、ノイズフリー環境が必要です。
機械学習は、必要な測定ポイントを減らすことが示されていますが、したがって、測定時間を制御する環境が依然として必要です。
このホワイトペーパーでは、まばらでノイズの多いHRTF測定値をアップサンプリングできる新しい手法を提示することにより、この制約に対処する方法を提案します。
提案されたアプローチは、3つの測定ポイントからのアップサンプリングのための除去用のHRTF除去U-NETと自動エンコード生成敵ネットワーク(AE-GAN)を組み合わせています。
提案された方法は、5.41 dBの対数スペクトル歪み(LSD)誤差と0.0070のコサイン類似性損失を達成し、HRTFアップサンプリングにおける方法の有効性を示しています。

要約(オリジナル)

The demand for realistic virtual immersive audio continues to grow, with Head-Related Transfer Functions (HRTFs) playing a key role. HRTFs capture how sound reaches our ears, reflecting unique anatomical features and enhancing spatial perception. It has been shown that personalized HRTFs improve localization accuracy, but their measurement remains time-consuming and requires a noise-free environment. Although machine learning has been shown to reduce the required measurement points and, thus, the measurement time, a controlled environment is still necessary. This paper proposes a method to address this constraint by presenting a novel technique that can upsample sparse, noisy HRTF measurements. The proposed approach combines an HRTF Denoisy U-Net for denoising and an Autoencoding Generative Adversarial Network (AE-GAN) for upsampling from three measurement points. The proposed method achieves a log-spectral distortion (LSD) error of 5.41 dB and a cosine similarity loss of 0.0070, demonstrating the method’s effectiveness in HRTF upsampling.

arxiv情報

著者 Xuyi Hu,Jian Li,Lorenzo Picinali,Aidan O. T. Hogg
発行日 2025-04-24 14:17:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD | コメントする

Interpretable non-linear dimensionality reduction using gaussian weighted linear transformation

要約

次元削減技術は、高次元データを分析および視覚化するための基本です。
T-SNEやPCAなどの確立された方法で、表現力と解釈可能性の間にトレードオフを提示します。
このペーパーでは、線形法の解釈可能性と非線形変換の表現力を組み合わせることにより、このギャップを橋渡しする新しいアプローチを紹介します。
提案されたアルゴリズムは、それぞれがガウス関数によって重み付けされた線形変換の組み合わせにより、高次元と低次元の空間の間の非線形マッピングを構築します。
このアーキテクチャは、各変換を個別に分析できるため、複雑な非線形変換が線形方法の解釈可能性の利点を維持しながら、複雑な非線形変換を可能にします。
結果のモデルは、強力な次元削減と変換された空間への透明な洞察の両方を提供します。
抑制された寸法を識別する方法や、空間の拡張と契約の方法を含む、学習された変換を解釈するための手法が提示されます。
これらのツールにより、開業医は、アルゴリズムが次元削減中に幾何学的関係をどのように保持および修正するかを理解することができます。
このアルゴリズムの実用性を確保するために、ユーザーフレンドリーなソフトウェアパッケージの作成が強調され、学界と業界の両方での採用が促進されます。

要約(オリジナル)

Dimensionality reduction techniques are fundamental for analyzing and visualizing high-dimensional data. With established methods like t-SNE and PCA presenting a trade-off between representational power and interpretability. This paper introduces a novel approach that bridges this gap by combining the interpretability of linear methods with the expressiveness of non-linear transformations. The proposed algorithm constructs a non-linear mapping between high-dimensional and low-dimensional spaces through a combination of linear transformations, each weighted by Gaussian functions. This architecture enables complex non-linear transformations while preserving the interpretability advantages of linear methods, as each transformation can be analyzed independently. The resulting model provides both powerful dimensionality reduction and transparent insights into the transformed space. Techniques for interpreting the learned transformations are presented, including methods for identifying suppressed dimensions and how space is expanded and contracted. These tools enable practitioners to understand how the algorithm preserves and modifies geometric relationships during dimensionality reduction. To ensure the practical utility of this algorithm, the creation of user-friendly software packages is emphasized, facilitating its adoption in both academia and industry.

arxiv情報

著者 Erik Bergh
発行日 2025-04-24 14:26:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

A causal viewpoint on prediction model performance under changes in case-mix: discrimination and calibration respond differently for prognosis and diagnosis predictions

要約

予測モデルは、臨床的決定を通知し、診断、予後、および治療計画の支援に応じて、信頼できる予測パフォーマンスを必要とします。
これらのモデルの予測パフォーマンスは、通常、差別とキャリブレーションを通じて評価されます。
データに影響を与えるモデルのパフォーマンスの分布の変化と、モデルの現在のアプリケーションとそのパフォーマンスが最後に評価された時期と場所との間に重要な変更がある場合があります。
ヘルスケアでは、典型的な変化はケースミックスのシフトです。
たとえば、心血管リスク管理の場合、一般開業医は、三次病院の専門家とは異なる患者の混合物を見ています。
この作業では、予測タスクの因果的方向に基づいて、識別とキャリブレーションに対するケースミックスシフトの影響を区別する新しいフレームワークを紹介します。
予測が因果的方向にある場合(多くの場合、予後予測の場合)、格差はケースミックスシフト下ではキャリブレーションは安定したままですが、差別はそうではありません。
逆に、反因果方向(診断予測があることが多い)で予測する場合、識別は安定したままですが、キャリブレーションはそうではありません。
心血管疾患予測モデルを使用したシミュレーション研究と経験的検証は、このフレームワークの意味を示しています。
因果的なケースミックスフレームワークは、予測タスクの因果構造を理解することの重要性を強調し、さまざまな臨床設定にわたって予測モデルの開発、評価、展開に関する洞察を提供します。

要約(オリジナル)

Prediction models need reliable predictive performance as they inform clinical decisions, aiding in diagnosis, prognosis, and treatment planning. The predictive performance of these models is typically assessed through discrimination and calibration. Changes in the distribution of the data impact model performance and there may be important changes between a model’s current application and when and where its performance was last evaluated. In health-care, a typical change is a shift in case-mix. For example, for cardiovascular risk management, a general practitioner sees a different mix of patients than a specialist in a tertiary hospital. This work introduces a novel framework that differentiates the effects of case-mix shifts on discrimination and calibration based on the causal direction of the prediction task. When prediction is in the causal direction (often the case for prognosis predictions), calibration remains stable under case-mix shifts, while discrimination does not. Conversely, when predicting in the anti-causal direction (often with diagnosis predictions), discrimination remains stable, but calibration does not. A simulation study and empirical validation using cardiovascular disease prediction models demonstrate the implications of this framework. The causal case-mix framework provides insights for developing, evaluating and deploying prediction models across different clinical settings, emphasizing the importance of understanding the causal structure of the prediction task.

arxiv情報

著者 Wouter A. C. van Amsterdam
発行日 2025-04-24 14:28:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME | コメントする

TarDiff: Target-Oriented Diffusion Guidance for Synthetic Electronic Health Record Time Series Generation

要約

合成電子ヘルスレコード(EHR)タイムシリーズの生成は、より多くのトレーニングデータを提供することでデータ不足に対処するのに役立つため、臨床機械学習モデルを進めるために重要です。
ただし、ほとんどの既存のアプローチは、主に統計分布と実際のデータの時間的依存性の複製に焦点を当てています。
観察されたデータのみに対する忠実度は、一般的なパターンが支配的であり、まれであるが重要な条件の表現を制限する可能性があるため、モデルのパフォーマンスの向上を保証するものではないと主張します。
これは、特定の臨床モデルのパフォーマンスを改善してターゲットの結果を満たすために、合成サンプルを生成する必要性を強調しています。
これに対処するために、タスク固有の影響ガイダンスを合成データ生成プロセスに統合する新しいターゲット指向の拡散フレームワークであるTardiffを提案します。
トレーニングデータ分布を模倣する従来のアプローチとは異なり、UTADIFFは、影響機能を通じて下流モデルのパフォーマンスを改善するための予想される貢献を定量化することにより、合成サンプルを最適化します。
具体的には、合成サンプルによって誘導されるタスク固有の損失の減少を測定し、この影響勾配を逆拡散プロセスに埋め込み、それにより、生成をユーティリティ最適化データに向けて導きます。
公開されている6つのEHRデータセットで評価されたTardiffは、最先端のパフォーマンスを実現し、AUPRCで最大20.4%、Aurocで18.4%を上回ります。
私たちの結果は、ATARDIFFが一時的な忠実度を保持するだけでなく、下流のモデルのパフォーマンスを強化し、ヘルスケア分析におけるデータ不足とクラスの不均衡に対する堅牢なソリューションを提供することを示しています。

要約(オリジナル)

Synthetic Electronic Health Record (EHR) time-series generation is crucial for advancing clinical machine learning models, as it helps address data scarcity by providing more training data. However, most existing approaches focus primarily on replicating statistical distributions and temporal dependencies of real-world data. We argue that fidelity to observed data alone does not guarantee better model performance, as common patterns may dominate, limiting the representation of rare but important conditions. This highlights the need for generate synthetic samples to improve performance of specific clinical models to fulfill their target outcomes. To address this, we propose TarDiff, a novel target-oriented diffusion framework that integrates task-specific influence guidance into the synthetic data generation process. Unlike conventional approaches that mimic training data distributions, TarDiff optimizes synthetic samples by quantifying their expected contribution to improving downstream model performance through influence functions. Specifically, we measure the reduction in task-specific loss induced by synthetic samples and embed this influence gradient into the reverse diffusion process, thereby steering the generation towards utility-optimized data. Evaluated on six publicly available EHR datasets, TarDiff achieves state-of-the-art performance, outperforming existing methods by up to 20.4% in AUPRC and 18.4% in AUROC. Our results demonstrate that TarDiff not only preserves temporal fidelity but also enhances downstream model performance, offering a robust solution to data scarcity and class imbalance in healthcare analytics.

arxiv情報

著者 Bowen Deng,Chang Xu,Hao Li,Yuhao Huang,Min Hou,Jiang Bian
発行日 2025-04-24 14:36:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

Likelihood-Free Variational Autoencoders

要約

バリエーション自動エンコーダー(VAE)は通常、定義された尤度、最も一般的には等方性ガウスである確率的デコーダーに依存して、潜在変数を条件とするデータをモデル化します。
最適化に便利ですが、この選択により、特に画像などの高次元データの場合、ぼやけの再構築とデータの忠実度が低下することがよくあります。
この作業では、決定論的デコーダーを備えた新しい尤度のない生成フレームワークであり、再構成損失を構築するためにエネルギースコア(適切なスコアリングルール)を使用する\ textit {envae}を提案します。
これにより、明示的なパラメトリック密度関数を必要とせずに、尤度のない推論が可能になります。
エネルギースコアの計算非効率性に対処するために、デコーダーの局所的な滑らかさと潜在変数の後部分布のシャープネスに基づいて、高速バリアント\ textit {fenvae}を導入します。
これにより、既存のVAEパイプラインにシームレスに統合する効率的なシングルサンプルトレーニング目標が得られ、最小限のオーバーヘッドになります。
標準ベンチマークの経験的結果は、\ textit {envae}が尤度ベースのベースラインと比較して優れた再構築と生成の品質を達成することを示しています。
私たちのフレームワークは、生成モデリングにおける柔軟性およびノンパラメトリック分布学習のための一般的でスケーラブルで統計的に原則的な代替品を提供します。

要約(オリジナル)

Variational Autoencoders (VAEs) typically rely on a probabilistic decoder with a predefined likelihood, most commonly an isotropic Gaussian, to model the data conditional on latent variables. While convenient for optimization, this choice often leads to likelihood misspecification, resulting in blurry reconstructions and poor data fidelity, especially for high-dimensional data such as images. In this work, we propose \textit{EnVAE}, a novel likelihood-free generative framework that has a deterministic decoder and employs the energy score — a proper scoring rule — to build the reconstruction loss. This enables likelihood-free inference without requiring explicit parametric density functions. To address the computational inefficiency of the energy score, we introduce a fast variant, \textit{FEnVAE}, based on the local smoothness of the decoder and the sharpness of the posterior distribution of latent variables. This yields an efficient single-sample training objective that integrates seamlessly into existing VAE pipelines with minimal overhead. Empirical results on standard benchmarks demonstrate that \textit{EnVAE} achieves superior reconstruction and generation quality compared to likelihood-based baselines. Our framework offers a general, scalable, and statistically principled alternative for flexible and nonparametric distribution learning in generative modeling.

arxiv情報

著者 Chen Xu,Qiang Wang,Lijun Sun
発行日 2025-04-24 14:44:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | コメントする

Sparse Gaussian Neural Processes

要約

確率的メタ学習における最近の大幅な進歩にもかかわらず、実務家は、解釈可能性の比較のために深い学習モデルの使用を避けることが一般的です。
代わりに、多くの開業医は、解釈可能な事前にガウスプロセスなどの非メタモデルを使用し、遭遇する各タスクに対してゼロからモデルをゼロからトレーニングするという退屈な手順を実施します。
これは、限られた数のデータポイントを備えたタスクで正当化できますが、正確なガウスプロセス推論の立方計算コストは​​、各タスクに多くの観測がある場合にこれを法外にします。
これを改善するために、メタラーンのガウスプロセス推論をメタラーンするモデルのファミリーを紹介します。
これにより、まばらなガウスプロセスを備えた新しいタスクでの迅速な予測が可能になるだけでなく、モデルが神経プロセスファミリのメンバーとして明確な解釈を持っているため、初めて神経プロセスでのプライアーを手動で誘発することもできます。
観測されたタスクの数が少ない、または専門家のドメインの知識が利用できるメタ学習体制では、これは重要な利点を提供します。

要約(オリジナル)

Despite significant recent advances in probabilistic meta-learning, it is common for practitioners to avoid using deep learning models due to a comparative lack of interpretability. Instead, many practitioners simply use non-meta-models such as Gaussian processes with interpretable priors, and conduct the tedious procedure of training their model from scratch for each task they encounter. While this is justifiable for tasks with a limited number of data points, the cubic computational cost of exact Gaussian process inference renders this prohibitive when each task has many observations. To remedy this, we introduce a family of models that meta-learn sparse Gaussian process inference. Not only does this enable rapid prediction on new tasks with sparse Gaussian processes, but since our models have clear interpretations as members of the neural process family, it also allows manual elicitation of priors in a neural process for the first time. In meta-learning regimes for which the number of observed tasks is small or for which expert domain knowledge is available, this offers a crucial advantage.

arxiv情報

著者 Tommy Rochussen,Vincent Fortuin
発行日 2025-04-24 15:21:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | コメントする