NNsight and NDIF: Democratizing Access to Open-Weight Foundation Model Internals

要約

非常に大きなニューラルネットワークによって学んだ表現と計算の科学的研究を可能にするためにタンデムで働く技術であるNnsightとNDIFを紹介します。
Nnsightは、Pytorchを拡張して延期されたリモート実行を導入するオープンソースシステムです。
National Deep Inference Fabric(NDIF)は、NNSIGHTリクエストを実行するスケーラブルな推論サービスであり、ユーザーがGPUリソ​​ースと前提条件のモデルを共有できるようにします。
これらのテクノロジーは、モデルランタイムの実験設計を分離するために開発されたアーキテクチャである介入グラフによって有効になります。
一緒に、このフレームワークは、カスタマイズされたモデルを個別にホストするコストや複雑さを課すことなく、非常に大きな言語モデル(LLM)などの深いニューラルネットワークの内部への透明で効率的なアクセスを提供します。
大規模なAIの内部の研究におけるギャップが高まっていることを明らかにする機械学習文献の定量的調査を実施しています。
巨大なモデルに関するさまざまな研究方法を可能にすることにより、このギャップに対処するためのフレームワークの設計と使用を実証します。
最後に、パフォーマンスを以前のアプローチと比較するためにベンチマークを実施します。
コード、ドキュメント、チュートリアルはhttps://nnsight.net/で入手できます。

要約(オリジナル)

We introduce NNsight and NDIF, technologies that work in tandem to enable scientific study of the representations and computations learned by very large neural networks. NNsight is an open-source system that extends PyTorch to introduce deferred remote execution. The National Deep Inference Fabric (NDIF) is a scalable inference service that executes NNsight requests, allowing users to share GPU resources and pretrained models. These technologies are enabled by the Intervention Graph, an architecture developed to decouple experimental design from model runtime. Together, this framework provides transparent and efficient access to the internals of deep neural networks such as very large language models (LLMs) without imposing the cost or complexity of hosting customized models individually. We conduct a quantitative survey of the machine learning literature that reveals a growing gap in the study of the internals of large-scale AI. We demonstrate the design and use of our framework to address this gap by enabling a range of research methods on huge models. Finally, we conduct benchmarks to compare performance with previous approaches. Code, documentation, and tutorials are available at https://nnsight.net/.

arxiv情報

著者 Jaden Fiotto-Kaufman,Alexander R. Loftus,Eric Todd,Jannik Brinkmann,Koyena Pal,Dmitrii Troitskii,Michael Ripa,Adam Belfki,Can Rager,Caden Juang,Aaron Mueller,Samuel Marks,Arnab Sen Sharma,Francesca Lucchetti,Nikhil Prakash,Carla Brodley,Arjun Guha,Jonathan Bell,Byron C. Wallace,David Bau
発行日 2025-04-01 16:04:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | NNsight and NDIF: Democratizing Access to Open-Weight Foundation Model Internals はコメントを受け付けていません

LLM-Human Pipeline for Cultural Context Grounding of Conversations

要約

会話はしばしば、文化全体で異なる社会的規範を理解していることに従います。
たとえば、「名前で親を扱う」は西洋では一般的ですが、ほとんどのアジア文化ではまれです。
そのような規範の順守または違反は、しばしば会話のテナーを決定します。
人間は、文化的認識を非常に巧妙に必要とする社会的状況をナビゲートすることができます。
ただし、NLPモデルにとっては難しい作業です。
この論文では、会話のために「文化的文脈スキーマ」を導入することにより、この問題に取り組みます。
(1)感情、対話行為などの会話情報、および(2)LLMSを使用した中国文化からの〜23kの会話のための〜110kの社会的規範と違反の説明を生成します。
文化的に認識している人間の判断に対して評価される自動化された検証戦略を使用して、それらを改良します。
これらの説明を、インタラクティブなヒューマンループフレームワークを使用して、「ノルム概念」と呼ぶ意味のある構造に整理します。
象徴的な注釈を使用して、会話の規範の概念と説明を接地します。
最後に、感情、感情、対話法検出などの下流タスクに取得したデータセットを使用します。
経験的パフォーマンスが大幅に向上することを示します。

要約(オリジナル)

Conversations often adhere to well-understood social norms that vary across cultures. For example, while ‘addressing parents by name’ is commonplace in the West, it is rare in most Asian cultures. Adherence or violation of such norms often dictates the tenor of conversations. Humans are able to navigate social situations requiring cultural awareness quite adeptly. However, it is a hard task for NLP models. In this paper, we tackle this problem by introducing a ‘Cultural Context Schema’ for conversations. It comprises (1) conversational information such as emotions, dialogue acts, etc., and (2) cultural information such as social norms, violations, etc. We generate ~110k social norm and violation descriptions for ~23k conversations from Chinese culture using LLMs. We refine them using automated verification strategies which are evaluated against culturally aware human judgements. We organize these descriptions into meaningful structures we call ‘Norm Concepts’, using an interactive human-in-loop framework. We ground the norm concepts and the descriptions in conversations using symbolic annotation. Finally, we use the obtained dataset for downstream tasks such as emotion, sentiment, and dialogue act detection. We show that it significantly improves the empirical performance.

arxiv情報

著者 Rajkumar Pujari,Dan Goldwasser
発行日 2025-04-01 16:24:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | LLM-Human Pipeline for Cultural Context Grounding of Conversations はコメントを受け付けていません

A Survey on Unlearnable Data

要約

未学習可能なデータ(ULD)は、機械学習モデルが特定のデータから意味のあるパターンを学習することを防ぎ、データのプライバシーとセキュリティを保護するための革新的な防衛技術として浮上しています。
トレーニングデータに摂動を導入することにより、ULDはモデルのパフォーマンスを分解し、不正なモデルが有用な表現を抽出することを困難にします。
ULDの重要性が高まっているにもかかわらず、既存の調査は主に、敵対的な攻撃やマシンの学習を希望するような関連分野に焦点を当てており、独立した研究分野としてULDにほとんど注意を払っていません。
この調査では、ULDの包括的なレビューを提供し、非達成できないデータ生成方法、パブリックベンチマーク、評価メトリック、理論的基礎、実用的なアプリケーションを調べることにより、そのギャップを埋めます。
さまざまなULDアプローチを比較対照し、その強み、制限、およびトレードオフを分析して、成長不能、知覚性、効率性、堅牢性に関連しています。
さらに、モデルの劣化とULD生成の計算の複雑さとの摂動の知覚性のバランスをとるなど、重要な課題について説明します。
最後に、ULDの有効性と適用性を進めるための有望な将来の研究の方向性を強調し、機械学習におけるデータ保護の進化する状況における重要なツールになる可能性を強調しています。

要約(オリジナル)

Unlearnable data (ULD) has emerged as an innovative defense technique to prevent machine learning models from learning meaningful patterns from specific data, thus protecting data privacy and security. By introducing perturbations to the training data, ULD degrades model performance, making it difficult for unauthorized models to extract useful representations. Despite the growing significance of ULD, existing surveys predominantly focus on related fields, such as adversarial attacks and machine unlearning, with little attention given to ULD as an independent area of study. This survey fills that gap by offering a comprehensive review of ULD, examining unlearnable data generation methods, public benchmarks, evaluation metrics, theoretical foundations and practical applications. We compare and contrast different ULD approaches, analyzing their strengths, limitations, and trade-offs related to unlearnability, imperceptibility, efficiency and robustness. Moreover, we discuss key challenges, such as balancing perturbation imperceptibility with model degradation and the computational complexity of ULD generation. Finally, we highlight promising future research directions to advance the effectiveness and applicability of ULD, underscoring its potential to become a crucial tool in the evolving landscape of data protection in machine learning.

arxiv情報

著者 Jiahao Li,Yiqiang Chen,Yunbing Xing,Yang Gu,Xiangyuan Lan
発行日 2025-04-01 16:42:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | A Survey on Unlearnable Data はコメントを受け付けていません

ASP-based Multi-shot Reasoning via DLV2 with Incremental Grounding

要約

DLV2は、アカデミックアプリケーションと産業用アプリケーションの両方で使用されるロジックベースの宣言形式主義である回答セットプログラミング(ASP)をサポートする知識表現と推論のためのAIツールです。
計算上の問題をモデル化するロジックプログラムを考えると、DLV2の実行は、手元の問題の解決策に1対1に対応するいわゆる回答セットを生成します。
DLV2の計算プロセスは、根拠のステップが入力プログラムを新しい同等のグラウンドプログラムに変換する典型的なグラウンドおよび解決アプローチに依存し、その後の解決ステップは命題アルゴリズムを適用して回答セットを検索します。
最近、ストリーム推論やイベント処理などのコンテキストでの新たなアプリケーションは、マルチショット推論の需要を生み出しました。ここでは、急速に変化するデータで繰り返し実行されながらシステムが反応すると予想されます。
この作業では、dlv2の進化から得られた新しい増分推論者を繰り返し推論に紹介します。
計算をゼロから再起動するのではなく、システムは繰り返されるショット全体で生き続けており、内部接地プロセスを段階的に処理します。
各ショットで、システムは、より小さく、より一般的なグラウンドプログラムを構築および維持するための以前の計算を再利用し、そこから小さいが同等の部分が決定され、回答セットの計算に使用されます。
特に、増分プロセスは、ユーザーにとって完全に透明な方法で実行されます。
私たちは、いくつかの実質的に関連するドメインでのシステム、その使用、その適用性、パフォーマンスについて説明します。
論理プログラミング(TPLP)の理論と実践の検討中。

要約(オリジナル)

DLV2 is an AI tool for Knowledge Representation and Reasoning which supports Answer Set Programming (ASP) – a logic-based declarative formalism, successfully used in both academic and industrial applications. Given a logic program modelling a computational problem, an execution of DLV2 produces the so-called answer sets that correspond one-to-one to the solutions to the problem at hand. The computational process of DLV2 relies on the typical Ground & Solve approach where the grounding step transforms the input program into a new, equivalent ground program, and the subsequent solving step applies propositional algorithms to search for the answer sets. Recently, emerging applications in contexts such as stream reasoning and event processing created a demand for multi-shot reasoning: here, the system is expected to be reactive while repeatedly executed over rapidly changing data. In this work, we present a new incremental reasoner obtained from the evolution of DLV2 towards iterated reasoning. Rather than restarting the computation from scratch, the system remains alive across repeated shots, and it incrementally handles the internal grounding process. At each shot, the system reuses previous computations for building and maintaining a large, more general ground program, from which a smaller yet equivalent portion is determined and used for computing answer sets. Notably, the incremental process is performed in a completely transparent fashion for the user. We describe the system, its usage, its applicability and performance in some practically relevant domains. Under consideration in Theory and Practice of Logic Programming (TPLP).

arxiv情報

著者 Francesco Calimeri,Giovambattista Ianni,Francesco Pacenza,Simona Perri,Jessica Zangari
発行日 2025-04-01 16:43:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T30, cs.AI, I.2.1 | ASP-based Multi-shot Reasoning via DLV2 with Incremental Grounding はコメントを受け付けていません

STORYSUMM: Evaluating Faithfulness in Story Summarization

要約

人間の評価は、抽象的な要約に忠実さをチェックするためのゴールドスタンダードとなっています。
ただし、物語のような挑戦的なソースドメインでは、複数のアノテーターが概要が忠実であることに同意することができますが、明白なエラーである詳細が欠落していることがあります。
したがって、ローカライズされた忠実なラベルとエラーの説明を含む短編小説のLLM要約で構成される新しいデータセット、StorySummを紹介します。
このベンチマークは、評価方法のためのもので、特定の方法が困難な矛盾を検出できるかどうかをテストします。
このデータセットを使用して、最初に1つの人間の注釈プロトコルが矛盾を逃す可能性が高いことを示し、要約データセットのグラウンドトゥルースを確立する際に、さまざまな方法を追求することを提唱しています。
最終的に最近の自動メトリックをテストし、これらのいずれもこのタスクで70%を超えるバランスの取れた精度を達成していないことを発見し、忠実な評価における将来の作業の挑戦的なベンチマークであることを示しています。

要約(オリジナル)

Human evaluation has been the gold standard for checking faithfulness in abstractive summarization. However, with a challenging source domain like narrative, multiple annotators can agree a summary is faithful, while missing details that are obvious errors only once pointed out. We therefore introduce a new dataset, STORYSUMM, comprising LLM summaries of short stories with localized faithfulness labels and error explanations. This benchmark is for evaluation methods, testing whether a given method can detect challenging inconsistencies. Using this dataset, we first show that any one human annotation protocol is likely to miss inconsistencies, and we advocate for pursuing a range of methods when establishing ground truth for a summarization dataset. We finally test recent automatic metrics and find that none of them achieve more than 70% balanced accuracy on this task, demonstrating that it is a challenging benchmark for future work in faithfulness evaluation.

arxiv情報

著者 Melanie Subbiah,Faisal Ladhak,Akankshya Mishra,Griffin Adams,Lydia B. Chilton,Kathleen McKeown
発行日 2025-04-01 16:54:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | STORYSUMM: Evaluating Faithfulness in Story Summarization はコメントを受け付けていません

Generalizable Prompt Learning of CLIP: A Brief Overview

要約

クリップなどの既存のビジョン言語モデル(VLM)は、さまざまな下流タスクにわたってよく一般化する印象的な機能を示しています。
これらのモデルは、視覚情報とテキスト情報の相乗効果を活用して、画像やテキストに存在するコンテンツを統一された方法で理解し、推論できるようにします。
この記事では、実験データやいくつかの方法の技術的特性を含む、少数のショットの迅速な学習に基づいたクリップの簡単な概要を説明します。
このレビューの目的は、15のデータセットにわたって分類のための少数のショットトレーニングを通じて、一般化可能なクリップの調査を開始したばかりの研究者に参照を提供し、他の下流タスクの研究者によるこの分野の統合を促進することです。

要約(オリジナル)

Existing vision-language models (VLMs) such as CLIP have showcased an impressive capability to generalize well across various downstream tasks. These models leverage the synergy between visual and textual information, enabling them to understand and reason about the content present in images and text in a unified manner. This article provides a brief overview of CLIP based on few-shot prompt learning, including experimental data and technical characteristics of some methods. The purpose of this review is to provide a reference for researchers who have just started their research in generalizable prompting of CLIP through few-shot training for classification across 15 datasets and also to facilitate the integration of this field by researchers in other downstream tasks.

arxiv情報

著者 Fangming Cui,Yonggang Zhang,Xuan Wang,Xule Wang,Liang Xiao
発行日 2025-04-01 06:41:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Generalizable Prompt Learning of CLIP: A Brief Overview はコメントを受け付けていません

Vision-Language Models for Acute Tuberculosis Diagnosis: A Multimodal Approach Combining Imaging and Clinical Data

要約

背景:この研究では、自動化された急性結核(TB)スクリーニングのためのSiglipおよびGemma-3Bアーキテクチャを活用する視覚言語モデル(VLM)を紹介します。
胸部X線画像と臨床ノートを統合することにより、このモデルは、特にリソースに制限された設定で、診断の精度と効率を高めることを目的としています。
方法:VLMは、胸部X線からの視覚データを臨床コンテキストと組み合わせて、詳細なコンテキスト認識診断レポートを生成します。
このアーキテクチャは、視覚エンコードにSiglipとデコードにGemma-3Bを使用して、急性TB特異的病理と臨床的洞察の効果的な表現を確保しています。
結果:統合、空洞、結節を含む重要な急性結核の病理は、高精度(97%)およびリコール(96%)で検出されました。
このモデルは、TB陽性の症例を区別する際に強い空間局在能力と堅牢性を実証し、急性TB診断のための信頼できるツールになりました。
結論:VLMのマルチモーダル能力は、放射線科医への依存を減らし、急性結核スクリーニングのためのスケーラブルなソリューションを提供します。
将来の作業は、微妙な病理の検出を改善し、データセットバイアスに対処して、多様なグローバルなヘルスケア設定での一般化と適用を強化することに焦点を当てます。

要約(オリジナル)

Background: This study introduces a Vision-Language Model (VLM) leveraging SIGLIP and Gemma-3b architectures for automated acute tuberculosis (TB) screening. By integrating chest X-ray images and clinical notes, the model aims to enhance diagnostic accuracy and efficiency, particularly in resource-limited settings. Methods: The VLM combines visual data from chest X-rays with clinical context to generate detailed, context-aware diagnostic reports. The architecture employs SIGLIP for visual encoding and Gemma-3b for decoding, ensuring effective representation of acute TB-specific pathologies and clinical insights. Results: Key acute TB pathologies, including consolidation, cavities, and nodules, were detected with high precision (97percent) and recall (96percent). The model demonstrated strong spatial localization capabilities and robustness in distinguishing TB-positive cases, making it a reliable tool for acute TB diagnosis. Conclusion: The multimodal capability of the VLM reduces reliance on radiologists, providing a scalable solution for acute TB screening. Future work will focus on improving the detection of subtle pathologies and addressing dataset biases to enhance its generalizability and application in diverse global healthcare settings.

arxiv情報

著者 Ananya Ganapthy,Praveen Shastry,Naveen Kumarasami,Anandakumar D,Keerthana R,Mounigasri M,Varshinipriya M,Kishore Prasath Venkatesh,Bargava Subramanian,Kalyan Sivasailam
発行日 2025-04-01 06:41:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, 68T45, 68U10, 92C50, 92C55, cs.AI, cs.CV, cs.LG, eess.IV | Vision-Language Models for Acute Tuberculosis Diagnosis: A Multimodal Approach Combining Imaging and Clinical Data はコメントを受け付けていません

Video-T1: Test-Time Scaling for Video Generation

要約

トレーニングデータ、モデルサイズ、および計算コストの増加のスケール機能により、ビデオ生成はデジタル作成において印象的な結果を達成し、ユーザーがさまざまなドメインで創造性を表現できるようになりました。
最近、大規模な言語モデル(LLMS)の研究者は、スケーリングをテスト時間に拡大しました。
高価なトレーニングコストを通じてビデオファンデーションモデルをスケーリングする代わりに、ビデオ生成のテスト時間スケーリング(TTS)の力を調査し、質問に答えることを目指しています。ビデオ生成モデルが非些細な量の推論時間計算を使用することが許可されている場合、挑戦的なテキストプロンプトを考えると生成品質を改善できます。
この作業では、ビデオ生成のテスト時間スケーリングを検索問題として再解釈して、ガウスノイズスペースからターゲットビデオ配信までのより良い軌跡をサンプリングします。
具体的には、テスト時間検証剤を使用して検索スペースを構築して、検索プロセスをガイドするフィードバックとヒューリスティックアルゴリズムを提供します。
テキストプロンプトが与えられた場合、推論時にノイズ候補を増やすことにより、最初に直感的な線形検索戦略を探ります。
すべてのフレームを同時に除去するためには、テスト時間の計算コストが大幅に必要であるため、ビデオブランチを適応的に拡張およびプルーン化するビデオ生成(TOF)と呼ばれるビデオ生成のためのより効率的なTTSメソッドをさらに設計します。
テキスト条件付けされたビデオ生成ベンチマークに関する広範な実験は、テスト時間計算の増加が一貫してビデオの品質を大幅に改善することを示しています。
プロジェクトページ:https://liuff19.github.io/video-t1

要約(オリジナル)

With the scale capability of increasing training data, model size, and computational cost, video generation has achieved impressive results in digital creation, enabling users to express creativity across various domains. Recently, researchers in Large Language Models (LLMs) have expanded the scaling to test-time, which can significantly improve LLM performance by using more inference-time computation. Instead of scaling up video foundation models through expensive training costs, we explore the power of Test-Time Scaling (TTS) in video generation, aiming to answer the question: if a video generation model is allowed to use non-trivial amount of inference-time compute, how much can it improve generation quality given a challenging text prompt. In this work, we reinterpret the test-time scaling of video generation as a searching problem to sample better trajectories from Gaussian noise space to the target video distribution. Specifically, we build the search space with test-time verifiers to provide feedback and heuristic algorithms to guide searching process. Given a text prompt, we first explore an intuitive linear search strategy by increasing noise candidates at inference time. As full-step denoising all frames simultaneously requires heavy test-time computation costs, we further design a more efficient TTS method for video generation called Tree-of-Frames (ToF) that adaptively expands and prunes video branches in an autoregressive manner. Extensive experiments on text-conditioned video generation benchmarks demonstrate that increasing test-time compute consistently leads to significant improvements in the quality of videos. Project page: https://liuff19.github.io/Video-T1

arxiv情報

著者 Fangfu Liu,Hanyang Wang,Yimo Cai,Kaiyan Zhang,Xiaohang Zhan,Yueqi Duan
発行日 2025-04-01 06:52:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Video-T1: Test-Time Scaling for Video Generation はコメントを受け付けていません

Content-decoupled Contrastive Learning-based Implicit Degradation Modeling for Blind Image Super-Resolution

要約

暗黙的な分解モデリングベースのブラインドスーパー解像度(SR)は、複雑な分解シナリオへの優れた一般化と幅広いアプリケーション範囲により、コミュニティでより多くの注目を集めています。
より識別的な劣化表現を抽出し、それらを特定の画像機能に完全に適応させる方法が、このタスクの鍵です。
この論文では、典型的なブラインドSRパイプラインに続いて、新しいコンテンツを分類したコントラスト学習ベースのブラインドイメージスーパー解像度(CDCL)フレームワークを提案します。
このフレームワークは、暗黙の分解表現をモデル化するために初めて否定的なコントラスト学習手法を導入します。ここでは、コンテンツの特徴と分解機能の間のデカップリングとデータの観点からの分離を確保するために設計され、それによって学習された暗黙的分解空間の純度と識別可能性が改善されます。
さらに、基本的な適応ユニットの画像詳細の認識を高め、SRモデル全体の複雑さを大幅に削減することにより、特定のLR機能に劣化表現をより適切に適応できる詳細な意識的な暗黙的劣化モジュールを提案します。
合成および実際のデータに関する広範な実験は、私たちの方法がさまざまな劣化設定で非常に競争力のある定量的および定性的な結果を達成し、パラメーターと計算コストを明らかに削減し、実用的および軽量ブラインドSRツールの設計の実現可能性を検証することを示しています。

要約(オリジナル)

Implicit degradation modeling-based blind super-resolution (SR) has attracted more increasing attention in the community due to its excellent generalization to complex degradation scenarios and wide application range. How to extract more discriminative degradation representations and fully adapt them to specific image features is the key to this task. In this paper, we propose a new Content-decoupled Contrastive Learning-based blind image super-resolution (CdCL) framework following the typical blind SR pipeline. This framework introduces negative-free contrastive learning technique for the first time to model the implicit degradation representation, in which a new cyclic shift sampling strategy is designed to ensure decoupling between content features and degradation features from the data perspective, thereby improving the purity and discriminability of the learned implicit degradation space. In addition, we propose a detail-aware implicit degradation adapting module that can better adapt degradation representations to specific LR features by enhancing the basic adaptation unit’s perception of image details, significantly reducing the overall SR model complexity. Extensive experiments on synthetic and real data show that our method achieves highly competitive quantitative and qualitative results in various degradation settings while obviously reducing parameters and computational costs, validating the feasibility of designing practical and lightweight blind SR tools.

arxiv情報

著者 Jiang Yuan,Ji Ma,Bo Wang,Weiming Hu
発行日 2025-04-01 07:11:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Content-decoupled Contrastive Learning-based Implicit Degradation Modeling for Blind Image Super-Resolution はコメントを受け付けていません

GaussianRoom: Improving 3D Gaussian Splatting with SDF Guidance and Monocular Cues for Indoor Scene Reconstruction

要約

具体化されたインテリジェンスには、大規模な現実世界のデータをシミュレートするために、正確な再構成とレンダリングが必要です。
3Dガウスの飛び散(3DG)は最近、リアルタイムのパフォーマンスで高品質の結果を実証していますが、大規模でテクスチャーのない領域を持つ屋内シーンでは依然として課題に直面しているため、クラウドの初期化が不十分で制約不足の最適化により不完全で騒々しい再構築が生じます。
自然にモデリングサーフェスに利点がある署名距離フィールド(SDF)の連続性に触発され、正確なジオメトリ再構成とリアルタイムレンダリングのために3DGとニューラル署名距離フィールド(SDF)を統合する統合された最適化フレームワークを提案します。
このフレームワークには、神経SDFフィールドが組み込まれており、ガウスの密度と剪定を導き、ガウス人が初期化されたポイントクラウドが不十分であってもシーンを正確にモデル化できるようにします。
同時に、ガウス派によって表されるジオメトリは、ポイントサンプリングを操縦することにより、SDFフィールドの効率を改善します。
さらに、通常のプライアーとエッジプライアーに基づいて2つの正規化項を導入して、テクスチャーのない領域の幾何学的な曖昧さを解決し、詳細の精度を高めます。
ScannetとScannet ++での広範な実験は、私たちの方法が表面再構成と新規ビューの合成の両方で最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Embodied intelligence requires precise reconstruction and rendering to simulate large-scale real-world data. Although 3D Gaussian Splatting (3DGS) has recently demonstrated high-quality results with real-time performance, it still faces challenges in indoor scenes with large, textureless regions, resulting in incomplete and noisy reconstructions due to poor point cloud initialization and underconstrained optimization. Inspired by the continuity of signed distance field (SDF), which naturally has advantages in modeling surfaces, we propose a unified optimization framework that integrates neural signed distance fields (SDFs) with 3DGS for accurate geometry reconstruction and real-time rendering. This framework incorporates a neural SDF field to guide the densification and pruning of Gaussians, enabling Gaussians to model scenes accurately even with poor initialized point clouds. Simultaneously, the geometry represented by Gaussians improves the efficiency of the SDF field by piloting its point sampling. Additionally, we introduce two regularization terms based on normal and edge priors to resolve geometric ambiguities in textureless areas and enhance detail accuracy. Extensive experiments in ScanNet and ScanNet++ show that our method achieves state-of-the-art performance in both surface reconstruction and novel view synthesis.

arxiv情報

著者 Haodong Xiang,Xinghui Li,Kai Cheng,Xiansong Lai,Wanting Zhang,Zhichao Liao,Long Zeng,Xueping Liu
発行日 2025-04-01 07:49:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GaussianRoom: Improving 3D Gaussian Splatting with SDF Guidance and Monocular Cues for Indoor Scene Reconstruction はコメントを受け付けていません