Disparate Model Performance and Stability in Machine Learning Clinical Support for Diabetes and Heart Diseases

要約

機械学習(ML)アルゴリズムは、生物医学情報学における臨床的意思決定を支援するために不可欠である。しかし、その予測性能は人口統計学的なグループによって異なることがあり、多くの場合、歴史的に疎外されてきた集団がトレーニングデータセットに十分に反映されていないことが原因である。本研究では、慢性疾患データセットとそこから導かれるMLモデルにおいて、性・年齢に関連した不公平が広く存在することを明らかにする。そこで、系統的な恣意性と、精度やデータの複雑さといった伝統的な指標を組み合わせた、新しい分析フレームワークを導入した。25,000人以上の慢性疾患患者のデータを分析した結果、性差は軽度で、男性の方が予測精度が高いことが明らかになった。特筆すべきは、高齢の患者は7つのデータセットで予測精度に一貫性がなく、データの複雑さとモデル性能の低さに関連していたことである。このことは、トレーニングデータの代表性だけでは公平な結果を保証するものではなく、臨床現場でモデルを展開する前にモデルの恣意性に対処しなければならないことを強調している。

要約(オリジナル)

Machine Learning (ML) algorithms are vital for supporting clinical decision-making in biomedical informatics. However, their predictive performance can vary across demographic groups, often due to the underrepresentation of historically marginalized populations in training datasets. The investigation reveals widespread sex- and age-related inequities in chronic disease datasets and their derived ML models. Thus, a novel analytical framework is introduced, combining systematic arbitrariness with traditional metrics like accuracy and data complexity. The analysis of data from over 25,000 individuals with chronic diseases revealed mild sex-related disparities, favoring predictive accuracy for males, and significant age-related differences, with better accuracy for younger patients. Notably, older patients showed inconsistent predictive accuracy across seven datasets, linked to higher data complexity and lower model performance. This highlights that representativeness in training data alone does not guarantee equitable outcomes, and model arbitrariness must be addressed before deploying models in clinical settings.

arxiv情報

著者 Ioannis Bilionis,Ricardo C. Berrios,Luis Fernandez-Luque,Carlos Castillo
発行日 2025-03-03 16:05:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | Disparate Model Performance and Stability in Machine Learning Clinical Support for Diabetes and Heart Diseases はコメントを受け付けていません

Error Bounds for Physics-Informed Neural Networks in Fokker-Planck PDEs

要約

確率微分方程式は確率過程の発展を記述するのに一般的に用いられる。このような過程の状態不確定性は確率密度関数(PDF)で表現するのが最適であり、その進化はフォッカー・プランク偏微分方程式(FP-PDE)によって支配される。しかし、一般にFP-PDEを閉形式で解くことは困難である。本研究では、物理情報ニューラルネットワーク(PINN)を学習することで、解のPDFを近似できることを示す。我々の主な貢献はPINNの近似誤差の解析であり、PINNを用いて厳密な誤差境界を構築する理論的枠組みを開発した。さらに、標準的な学習方法で効率的に構築できる実用的な誤差境界を導出する。この誤差境界の枠組みは、他の線形PDEsの近似解にも一般化できることを議論する。非線形系、高次元系、カオス系に関する実証結果は、我々の誤差境界の正しさを検証するとともに、PINNのスケーラビリティと、モンテカルロ法に比べて正確なPDF解を得るための計算速度の大幅な向上を実証する。

要約(オリジナル)

Stochastic differential equations are commonly used to describe the evolution of stochastic processes. The state uncertainty of such processes is best represented by the probability density function (PDF), whose evolution is governed by the Fokker-Planck partial differential equation (FP-PDE). However, it is generally infeasible to solve the FP-PDE in closed form. In this work, we show that physics-informed neural networks (PINNs) can be trained to approximate the solution PDF. Our main contribution is the analysis of PINN approximation error: we develop a theoretical framework to construct tight error bounds using PINNs. In addition, we derive a practical error bound that can be efficiently constructed with standard training methods. We discuss that this error-bound framework generalizes to approximate solutions of other linear PDEs. Empirical results on nonlinear, high-dimensional, and chaotic systems validate the correctness of our error bounds while demonstrating the scalability of PINNs and their significant computational speedup in obtaining accurate PDF solutions compared to the Monte Carlo approach.

arxiv情報

著者 Chun-Wei Kong,Luca Laurenti,Jay McMahon,Morteza Lahijanian
発行日 2025-03-03 16:16:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.NA, math.NA, physics.comp-ph | Error Bounds for Physics-Informed Neural Networks in Fokker-Planck PDEs はコメントを受け付けていません

InductionBench: LLMs Fail in the Simplest Complexity Class

要約

大規模言語モデル(LLM)は推論において顕著な改善を見せており、多くの既存のベンチマークはo1やo3のようなモデルによって完全または部分的に対処されている。しかし、これらのベンチマークの大半は演繹的推論を重視しており、数学的公理やプログラミング構文などのルールが明確に定義された数学的タスクやコーディングタスクが含まれる。これとは対照的に、観察されたデータから基本的なルールを推測する帰納的推論は、まだあまり研究されていない。このような帰納的プロセスは、研究者が経験的観察から一般原理を抽出することを可能にするため、科学的発見の核心に位置する。LLMがこの能力を持っているかどうかを評価するために、LLMの帰納的推論能力を評価するために設計された新しいベンチマークであるInductionBenchを紹介する。我々の実験結果は、利用可能な最も高度なモデルでさえ、関数の不規則階層内の最も単純な複雑性クラスを使いこなすのに苦労していることを明らかにし、現在のLLMの帰納的推論能力の顕著な不足を浮き彫りにしている。コーダとデータはhttps://github.com/Wenyueh/inductive_reasoning_benchmark。

要約(オリジナル)

Large language models (LLMs) have shown remarkable improvements in reasoning and many existing benchmarks have been addressed by models such as o1 and o3 either fully or partially. However, a majority of these benchmarks emphasize deductive reasoning, including mathematical and coding tasks in which rules such as mathematical axioms or programming syntax are clearly defined, based on which LLMs can plan and apply these rules to arrive at a solution. In contrast, inductive reasoning, where one infers the underlying rules from observed data, remains less explored. Such inductive processes lie at the heart of scientific discovery, as they enable researchers to extract general principles from empirical observations. To assess whether LLMs possess this capacity, we introduce InductionBench, a new benchmark designed to evaluate the inductive reasoning ability of LLMs. Our experimental findings reveal that even the most advanced models available struggle to master the simplest complexity classes within the subregular hierarchy of functions, highlighting a notable deficiency in current LLMs’ inductive reasoning capabilities. Coda and data are available https://github.com/Wenyueh/inductive_reasoning_benchmark.

arxiv情報

著者 Wenyue Hua,Tyler Wong,Sun Fei,Liangming Pan,Adam Jardine,William Yang Wang
発行日 2025-03-03 16:38:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.FL, cs.LG | InductionBench: LLMs Fail in the Simplest Complexity Class はコメントを受け付けていません

On Memory Construction and Retrieval for Personalized Conversational Agents

要約

本論文では、次の2つの重要な発見を提示する。(1)記憶単位の粒度が重要である。ターンレベル、セッションレベル、要約ベースの方法は、それぞれ記憶検索精度と検索された内容の意味的品質の両方で限界を示す。(2)LLMLingua-2のようなプロンプト圧縮法は、異なる粒度で記憶検索精度を向上させるノイズ除去メカニズムとして効果的に機能する。これらの知見に基づき、我々はSeComを提案する。SeComは、長期的な会話を局所的にまとまったセグメントに分割する会話分割モデルを導入することで、セグメントレベルでメモリバンクを構築する手法である。実験の結果、SeComは長期会話ベンチマークであるLOCOMOとLong-MT-Bench+において、ベースラインに対して有意な性能優位性を示した。さらに、提案する会話分割手法は、DialSeg711、TIAGE、SuperDialSegなどの対話分割データセットにおいて優れた性能を示す。

要約(オリジナル)

To deliver coherent and personalized experiences in long-term conversations, existing approaches typically perform retrieval augmented response generation by constructing memory banks from conversation history at either the turn-level, session-level, or through summarization techniques.In this paper, we present two key findings: (1) The granularity of memory unit matters: turn-level, session-level, and summarization-based methods each exhibit limitations in both memory retrieval accuracy and the semantic quality of the retrieved content. (2) Prompt compression methods, such as LLMLingua-2, can effectively serve as a denoising mechanism, enhancing memory retrieval accuracy across different granularities. Building on these insights, we propose SeCom, a method that constructs the memory bank at segment level by introducing a conversation segmentation model that partitions long-term conversations into topically coherent segments, while applying compression based denoising on memory units to enhance memory retrieval. Experimental results show that SeCom exhibits a significant performance advantage over baselines on long-term conversation benchmarks LOCOMO and Long-MT-Bench+. Additionally, the proposed conversation segmentation method demonstrates superior performance on dialogue segmentation datasets such as DialSeg711, TIAGE, and SuperDialSeg.

arxiv情報

著者 Zhuoshi Pan,Qianhui Wu,Huiqiang Jiang,Xufang Luo,Hao Cheng,Dongsheng Li,Yuqing Yang,Chin-Yew Lin,H. Vicky Zhao,Lili Qiu,Jianfeng Gao
発行日 2025-03-03 16:49:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | On Memory Construction and Retrieval for Personalized Conversational Agents はコメントを受け付けていません

SensorQA: A Question Answering Benchmark for Daily-Life Monitoring

要約

センサーデータの急速な増加に伴い、これらのデータを人間が理解しやすい方法で効果的に解釈し、インターフェースすることが極めて重要になってきている。既存の研究は主に分類モデルの学習に焦点を当てているが、エンドユーザーがセンサーデータから有用な洞察を積極的に抽出する方法について研究したものは少ない。このギャップを解決するために、我々は、日常生活モニタリングのための長期時系列センサーデータのための最初の人間が作成した質問応答(QA)データセットであるSensorQAを紹介する。SensorQAは、人間の作業員によって作成され、センサデータから得られた正確な答えと対になった、本物の人間の興味を反映する5.6Kの多様で実用的なクエリを含む。我々はさらに、このデータセット上で最先端のAIモデルのベンチマークを確立し、典型的なエッジデバイス上での性能を評価する。その結果、現在のモデルと最適なQA性能および効率との間にギャップがあることが明らかになり、新たな貢献の必要性が浮き彫りになった。データセットとコードはhttps://github.com/benjamin-reichman/SensorQA。

要約(オリジナル)

With the rapid growth in sensor data, effectively interpreting and interfacing with these data in a human-understandable way has become crucial. While existing research primarily focuses on learning classification models, fewer studies have explored how end users can actively extract useful insights from sensor data, often hindered by the lack of a proper dataset. To address this gap, we introduce SensorQA, the first human-created question-answering (QA) dataset for long-term time-series sensor data for daily life monitoring. SensorQA is created by human workers and includes 5.6K diverse and practical queries that reflect genuine human interests, paired with accurate answers derived from sensor data. We further establish benchmarks for state-of-the-art AI models on this dataset and evaluate their performance on typical edge devices. Our results reveal a gap between current models and optimal QA performance and efficiency, highlighting the need for new contributions. The dataset and code are available at: https://github.com/benjamin-reichman/SensorQA.

arxiv情報

著者 Benjamin Reichman,Xiaofan Yu,Lanxiang Hu,Jack Truxal,Atishay Jain,Rushil Chandrupatla,Tajana Šimunić Rosing,Larry Heck
発行日 2025-03-03 17:03:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | SensorQA: A Question Answering Benchmark for Daily-Life Monitoring はコメントを受け付けていません

Forecasting Frontier Language Model Agent Capabilities

要約

言語モデル(LM)が自律的なエージェントとして運用されるようになるにつれ、その能力を正確に予測することが、社会への備えとして極めて重要になる。我々は、LMエージェントのダウンストリーム能力を予測する6つの予測手法を評価する。計算量やモデルのリリース日などの入力指標から直接ベンチマークスコアを予測する「ワンステップ」アプローチと、クロスベンチマークパフォーマンスの主成分(PC-1)や人間が評価した対戦Eloレーティングなどの中間指標を最初に予測する「ツーステップ」アプローチを用いる。我々は、OpenLLM 2 のリーダーボードから 38 個の LM のデータセットを用いてバックテストを行い、我々の予測手法を評価した。次に、検証された2ステップアプローチ(Release Date$to$Elo$to$Benchmark) を用いて、3つのベンチマークにおけるフロンティアモデルのLMエージェントのパフォーマ ンスを予測する:SWE-Bench Verified(ソフトウェア開発)、Cybench(サイバーセキュリティ評価)、RE-Bench(ML研究工学)である。我々の予測では、2026年初頭までに、能力抽出の低い非特化型LMエージェントはSWE-Bench Verifiedで54%の成功率に達するが、最先端のLMエージェントは87%の成功率に達する。我々のアプローチは、最近の推論-計算スケーリングの進歩を考慮していないため、保守的すぎる可能性がある。

要約(オリジナル)

As Language Models (LMs) increasingly operate as autonomous agents, accurately forecasting their capabilities becomes crucial for societal preparedness. We evaluate six forecasting methods that predict downstream capabilities of LM agents. We use ‘one-step’ approaches that predict benchmark scores from input metrics like compute or model release date directly or ‘two-step’ approaches that first predict an intermediate metric like the principal component of cross-benchmark performance (PC-1) and human-evaluated competitive Elo ratings. We evaluate our forecasting methods by backtesting them on a dataset of 38 LMs from the OpenLLM 2 leaderboard. We then use the validated two-step approach (Release Date$\to$Elo$\to$Benchmark) to predict LM agent performance for frontier models on three benchmarks: SWE-Bench Verified (software development), Cybench (cybersecurity assessment), and RE-Bench (ML research engineering). Our forecast predicts that by the beginning of 2026, non-specialized LM agents with low capability elicitation will reach a success rate of 54% on SWE-Bench Verified, while state-of-the-art LM agents will reach an 87% success rate. Our approach does not account for recent advances in inference-compute scaling and might thus be too conservative.

arxiv情報

著者 Govind Pimpale,Axel Højmark,Jérémy Scheurer,Marius Hobbhahn
発行日 2025-03-03 17:11:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | Forecasting Frontier Language Model Agent Capabilities はコメントを受け付けていません

Fuzzy Speculative Decoding for a Tunable Accuracy-Runtime Tradeoff

要約

投機的デコーディング(SD)は、ターゲットモデルとの厳密な分布的等価性を強制するため、多くの場合、ほぼ等価な分布が同等の結果を達成するため、スピードアップの可能性が制限されます。さらに、分布の等価性を強制することは、ユーザが推論速度のさらなる向上のためにターゲットモデルの分布からの逸脱を交換できないことを意味する。これらの限界に対処するために、我々はファジィ投機的復号化(FSD)を導入する。これは、ターゲットとドラフトモデル分布間の乖離に基づいて純粋に候補トークンを受け入れることにより、SDを一般化した復号化アルゴリズムである。ターゲットモデルからの乖離を制御できるようにすることで、FSDは生成品質と推論速度を柔軟に交換することを可能にする。いくつかのベンチマークにおいて、我々の手法はSDよりも1秒あたり5トークン以上速く、ベンチマークの精度を約2%しか低下させないという、大幅な実行時間の改善を達成することができた。多くの場合、FSDは1秒あたり2トークン以上速くSDベンチマークの精度に匹敵することさえでき、目標モデルの性能を維持するために分布の等価性が必要ないことを実証している。

要約(オリジナル)

Speculative Decoding (SD) enforces strict distributional equivalence to the target model, limiting potential speed ups as distributions of near-equivalence achieve comparable outcomes in many cases. Furthermore, enforcing distributional equivalence means that users are unable to trade deviations from the target model distribution for further inference speed gains. To address these limitations, we introduce Fuzzy Speculative Decoding (FSD) – a decoding algorithm that generalizes SD by accepting candidate tokens purely based on the divergences between the target and draft model distributions. By allowing for controlled divergence from the target model, FSD enables users to flexibly trade generation quality for inference speed. Across several benchmarks, our method is able to achieve significant runtime improvements of over 5 tokens per second faster than SD at only an approximate 2% absolute reduction in benchmark accuracy. In many cases, FSD is even able to match SD benchmark accuracy at over 2 tokens per second faster, demonstrating that distributional equivalence is not necessary to maintain target model performance.

arxiv情報

著者 Maximilian Holsman,Yukun Huang,Bhuwan Dhingra
発行日 2025-03-03 17:40:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI | Fuzzy Speculative Decoding for a Tunable Accuracy-Runtime Tradeoff はコメントを受け付けていません

Matryoshka Quantization

要約

モデルの重みを量子化することは、大規模モデルの通信コストと推論コストを削減するために重要である。しかし、モデルの量子化、特にint4やint2のような低い精度での量子化は、モデルの品質とのトレードオフを必要とします。その結果、実務者は、量子化レベルの異なる複数のモデルを維持するか、品質とレイテンシのトレードオフを最もよく満たす単一のモデルを提供することを余儀なくされることが多い。一方、int8のような整数データ型は、int4やint2のようなビット幅の小さい整数が最上位ビットに入れ子になっている入れ子構造(マトリョーシカ構造)を本質的に持っています。この洞察を活用し、本論文では、前述の課題を軽減する新しいマルチスケール量子化技術であるマトリョーシカ量子化(MatQuant)を提案する。この手法により、単一の量子化モデルを訓練・維持しながら、配備時に要求される精度でモデルを提供することができる。さらに、MatQuantの協調訓練と協調蒸留正則化を活用することで、MatQuantによって抽出されたint2精度モデルは、OmniQuantとQATを基本アルゴリズムとする標準的なint2量子化よりも、それぞれ最大で4%と7%優れた性能を発揮します。最後に、外れ値を表現するために余分なビットを使用することで、2.05ビットの有効精度を持つモデルが、OmniQuantを基本アルゴリズムとした場合に、さらに6%の改善をもたらすことを示す。

要約(オリジナル)

Quantizing model weights is critical for reducing the communication and inference costs of large models. However, quantizing models — especially to low precisions like int4 or int2 — requires a trade-off in model quality; int2, in particular, is known to severely degrade model quality. Consequently, practitioners are often forced to maintain multiple models with different quantization levels or serve a single model that best satisfies the quality-latency trade-off. On the other hand, integer data types, such as int8, inherently possess a nested (Matryoshka) structure where smaller bit-width integers, like int4 or int2, are nested within the most significant bits. Leveraging this insight, in this paper, we propose Matryoshka Quantization (MatQuant), a novel multi-scale quantization technique that alleviates the aforementioned challenge. This technique allows us to train and maintain a single quantized model but serve it with the precision demanded by the deployment. Furthermore, leveraging MatQuant’s co-training and co-distillation regularization, int2 precision models extracted by MatQuant outperform standard int2 quantization by up to to 4% and 7% with OmniQuant and QAT as base algorithms respectively. Finally, we demonstrate that by using an extra bit to represent outliers, a model with an effective precision of 2.05-bit gives an additional 6% improvement with OmniQuant as the base algorithm.

arxiv情報

著者 Pranav Nair,Puranjay Datta,Jeff Dean,Prateek Jain,Aditya Kusupati
発行日 2025-03-03 17:54:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | Matryoshka Quantization はコメントを受け付けていません

ESVO2: Direct Visual-Inertial Odometry with Stereo Event Cameras

要約

イベントベース視覚オドメトリは、視覚的同時定位マッピング(SLAM)技術の一分野であり、ニューロモルフィック(つまりイベントベース)カメラの特別な動作原理を利用することにより、トラッキングとマッピングのサブ問題を(通常は並列に)解くことを目的としている。イベントデータは動きに依存する性質があるため、大規模な視点変更のもとでの明示的なデータ関連付け(すなわち、特徴マッチング)を確立することは困難であり、直接法がより合理的な選択となる。しかしながら、最先端の直接法は、マッピングサブ問題の計算複雑性の高さと、回転における特定の自由度(DoF)におけるカメラポーズ追跡の縮退によって制限されている。本論文では、直接パイプラインの上にイベントベースのステレオ視覚慣性オドメトリシステムを構築することにより、これらの問題に取り組む。具体的には、マッピング操作を高速化するために、イベントの局所的なダイナミクスに従って輪郭点をサンプリングする効率的な戦略を提案する。また、時間ステレオと静的ステレオの結果をマージすることにより、構造の完全性と局所的な滑らかさの点でマッピング性能を向上させる。一般的な6自由度運動のピッチ成分とヨー成分を復元する際のカメラポーズ追跡の縮退を回避するために、事前積分によりIMU計測値を運動プライアとして導入する。この目的のために、IMUバイアスを継続的に更新し、直線速度を予測するためのコンパクトなバックエンドを提案し、カメラポーズ追跡のための正確な運動予測を可能にする。その結果、このシステムは最新の高解像度イベントカメラで良好にスケールし、大規模な屋外環境における全地球測位精度の向上につながる。異なる解像度とシナリオを特徴とする5つの公開データセットを用いた広範な評価により、5つの最新手法に対する提案システムの優れた性能が正当化される。

要約(オリジナル)

Event-based visual odometry is a specific branch of visual Simultaneous Localization and Mapping (SLAM) techniques, which aims at solving tracking and mapping subproblems (typically in parallel), by exploiting the special working principles of neuromorphic (i.e., event-based) cameras. Due to the motion-dependent nature of event data, explicit data association (i.e., feature matching) under large-baseline view-point changes is difficult to establish, making direct methods a more rational choice. However, state-of-the-art direct methods are limited by the high computational complexity of the mapping sub-problem and the degeneracy of camera pose tracking in certain degrees of freedom (DoF) in rotation. In this paper, we tackle these issues by building an event-based stereo visual-inertial odometry system on top of a direct pipeline. Specifically, to speed up the mapping operation, we propose an efficient strategy for sampling contour points according to the local dynamics of events. The mapping performance is also improved in terms of structure completeness and local smoothness by merging the temporal stereo and static stereo results. To circumvent the degeneracy of camera pose tracking in recovering the pitch and yaw components of general 6-DoF motion, we introduce IMU measurements as motion priors via pre-integration. To this end, a compact back-end is proposed for continuously updating the IMU bias and predicting the linear velocity, enabling an accurate motion prediction for camera pose tracking. The resulting system scales well with modern high-resolution event cameras and leads to better global positioning accuracy in large-scale outdoor environments. Extensive evaluations on five publicly available datasets featuring different resolutions and scenarios justify the superior performance of the proposed system against five state-of-the-art methods.

arxiv情報

著者 Junkai Niu,Sheng Zhong,Xiuyuan Lu,Shaojie Shen,Guillermo Gallego,Yi Zhou
発行日 2025-03-03 05:31:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | ESVO2: Direct Visual-Inertial Odometry with Stereo Event Cameras はコメントを受け付けていません

Dynamic Gaussians Mesh: Consistent Mesh Reconstruction from Dynamic Scenes

要約

最新の3Dエンジンとグラフィックスパイプラインは、効率的なレンダリング、ジオメトリ処理、テクスチャ編集、および他の多くの下流操作を可能にする、メモリ効率の高い表現としてメッシュを必要とします。しかし、動的な観測から詳細な構造と時間的な一貫性の点で高品質なメッシュを得ることはまだ非常に困難である。そこで我々は、動的入力から高忠実度で時間整合性のあるメッシュを再構成するフレームワークであるDynamic Gaussians Mesh (DG-Mesh)を紹介する。DG-Meshは、最近の3次元ガウシアンスプラッティングの進歩を利用し、動的な観測データから時間的整合性を持つメッシュシーケンスを構築する。この表現の上に構築されたDG-Meshは、ガウス点から高品質なメッシュを復元し、メッシュ頂点を時間的に追跡することができるため、動的オブジェクトのテクスチャ編集などの応用が可能になる。ガウシアンメッシュのアンカリングを導入し、ガウシアンを均等に分散させることで、変形されたガウシアンに対してメッシュガイドによる高密度化と刈り込みを行い、より良いメッシュ再構築を実現する。正規空間と変形空間の間でサイクル整合変形を適用することにより、アンカーされたガウシアンを正規空間に投影し、全ての時間フレームにわたってガウシアンを最適化することができる。様々なデータセットでの評価において、DG-Meshはベースラインよりも大幅に優れたメッシュ再構成とレンダリングを提供する。プロジェクトページ: https://www.liuisabella.com/DG-Mesh

要約(オリジナル)

Modern 3D engines and graphics pipelines require mesh as a memory-efficient representation, which allows efficient rendering, geometry processing, texture editing, and many other downstream operations. However, it is still highly difficult to obtain high-quality mesh in terms of detailed structure and time consistency from dynamic observations. To this end, we introduce Dynamic Gaussians Mesh (DG-Mesh), a framework to reconstruct a high-fidelity and time-consistent mesh from dynamic input. Our work leverages the recent advancement in 3D Gaussian Splatting to construct the mesh sequence with temporal consistency from dynamic observations. Building on top of this representation, DG-Mesh recovers high-quality meshes from the Gaussian points and can track the mesh vertices over time, which enables applications such as texture editing on dynamic objects. We introduce the Gaussian-Mesh Anchoring, which encourages evenly distributed Gaussians, resulting better mesh reconstruction through mesh-guided densification and pruning on the deformed Gaussians. By applying cycle-consistent deformation between the canonical and the deformed space, we can project the anchored Gaussian back to the canonical space and optimize Gaussians across all time frames. During the evaluation on different datasets, DG-Mesh provides significantly better mesh reconstruction and rendering than baselines. Project page: https://www.liuisabella.com/DG-Mesh

arxiv情報

著者 Isabella Liu,Hao Su,Xiaolong Wang
発行日 2025-03-03 05:31:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Dynamic Gaussians Mesh: Consistent Mesh Reconstruction from Dynamic Scenes はコメントを受け付けていません