PhantomWiki: On-Demand Datasets for Reasoning and Retrieval Evaluation

要約

大規模な言語モデル(LLM)の推論と検索機能を評価するためには、高品質のベンチマークが不可欠です。
ただし、この目的のためにデータセットをキュレーションすることは、データの漏れやパフォーマンスの結果が膨らむ傾向があるため、永続的な解決策ではありません。
これらの課題に対処するために、Phantomwikiを提案します。パイプラインでは、多様な質問回答ペアを持つユニークで事実上一貫した文書コーパスを生成します。
以前の作業とは異なり、Phantomwikiは固定データセットではなく、既存のデータに基づいていません。
代わりに、各評価に対して新しいPhantomwikiインスタンスがオンデマンドで生成されます。
問題の難易度とコーパスのサイズは、それぞれ推論と検索機能をそれぞれ解きほぐすことで変化させます。Phantomwikiデータセットは、フロンティアLLMSにとって驚くほど困難であることがわかります。
したがって、推論、検索、およびツール使用能力を解き放つ評価のためのスケーラブルおよびデータリーク耐性フレームワークを提供します。
私たちのコードは、https://github.com/kilian-group/phantom-wikiで入手できます。

要約(オリジナル)

High-quality benchmarks are essential for evaluating reasoning and retrieval capabilities of large language models (LLMs). However, curating datasets for this purpose is not a permanent solution as they are prone to data leakage and inflated performance results. To address these challenges, we propose PhantomWiki: a pipeline to generate unique, factually consistent document corpora with diverse question-answer pairs. Unlike prior work, PhantomWiki is neither a fixed dataset, nor is it based on any existing data. Instead, a new PhantomWiki instance is generated on demand for each evaluation. We vary the question difficulty and corpus size to disentangle reasoning and retrieval capabilities respectively, and find that PhantomWiki datasets are surprisingly challenging for frontier LLMs. Thus, we contribute a scalable and data leakage-resistant framework for disentangled evaluation of reasoning, retrieval, and tool-use abilities. Our code is available at https://github.com/kilian-group/phantom-wiki.

arxiv情報

著者 Albert Gong,Kamilė Stankevičiūtė,Chao Wan,Anmol Kabra,Raphael Thesmar,Johann Lee,Julius Klenke,Carla P. Gomes,Kilian Q. Weinberger
発行日 2025-06-09 17:55:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | PhantomWiki: On-Demand Datasets for Reasoning and Retrieval Evaluation はコメントを受け付けていません

Reparameterized LLM Training via Orthogonal Equivalence Transformation

要約

大規模な言語モデル(LLM)が人工知能の急速な進歩を推進していますが、これらの大規模なモデルは、フィールドの最も重要な課題の1つであり続けています。
この課題に対処するために、私たちは詩人を提案します。詩人は、直交の等価変換を使用してニューロンを最適化する新しい再分析されたトレーニングアルゴリズムを提案します。
具体的には、詩人は、学習可能な2つの直交行列と固定ランダム重量マトリックスで各ニューロンを修復します。
重量マトリックスのスペクトル特性の証明可能な保存のため、詩人は一般化を改善することで目的関数を安定に最適化することができます。
さらに、大規模なニューラルネットワークをトレーニングするために詩人を柔軟にスケーラブルにする効率的な近似を開発します。
広範な実験では、LLMSの訓練における詩人の有効性とスケーラビリティを検証します。

要約(オリジナル)

While large language models (LLMs) are driving the rapid advancement of artificial intelligence, effectively and reliably training these large models remains one of the field’s most significant challenges. To address this challenge, we propose POET, a novel reParameterized training algorithm that uses Orthogonal Equivalence Transformation to optimize neurons. Specifically, POET reparameterizes each neuron with two learnable orthogonal matrices and a fixed random weight matrix. Because of its provable preservation of spectral properties of weight matrices, POET can stably optimize the objective function with improved generalization. We further develop efficient approximations that make POET flexible and scalable for training large-scale neural networks. Extensive experiments validate the effectiveness and scalability of POET in training LLMs.

arxiv情報

著者 Zeju Qiu,Simon Buchholz,Tim Z. Xiao,Maximilian Dax,Bernhard Schölkopf,Weiyang Liu
発行日 2025-06-09 17:59:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Reparameterized LLM Training via Orthogonal Equivalence Transformation はコメントを受け付けていません

FreeGave: 3D Physics Learning from Dynamic Videos by Gaussian Velocity

要約

この論文では、3Dシーンのジオメトリ、外観、および基礎となる物理学を純粋にマルチビュービデオからモデル化することを目指しています。
さまざまな統治PDEをPINN損失として適用したり、物理シミュレーションをニューラルネットワークに組み込むことにより、既存の作業は境界で複雑な物理的運動を学習したり、マスクやタイプなどのオブジェクト事前に必要としないことがよくあります。
このホワイトペーパーでは、オブジェクトのプライアーを必要とせずに複雑な動的3Dシーンの物理学を学ぶことをFreegaveに提案します。
私たちのアプローチの鍵は、物理学コードを導入することです。その後、非効率的なPINN損失に依存することなく、ガウスごとの速度フィールドを推定するための慎重に設計された発散フリーモジュールが続くことです。
3つのパブリックデータセットと新しく収集された挑戦的な実世界のデータセットに関する広範な実験は、将来のフレームの外挿とモーションセグメンテーションのための私たちの方法の優れたパフォーマンスを示しています。
最も注目すべきは、学んだ物理コードの調査は、トレーニング中の人間のラベルがない場合に意味のある3D物理運動パターンを本当に学習することを明らかにしています。

要約(オリジナル)

In this paper, we aim to model 3D scene geometry, appearance, and the underlying physics purely from multi-view videos. By applying various governing PDEs as PINN losses or incorporating physics simulation into neural networks, existing works often fail to learn complex physical motions at boundaries or require object priors such as masks or types. In this paper, we propose FreeGave to learn the physics of complex dynamic 3D scenes without needing any object priors. The key to our approach is to introduce a physics code followed by a carefully designed divergence-free module for estimating a per-Gaussian velocity field, without relying on the inefficient PINN losses. Extensive experiments on three public datasets and a newly collected challenging real-world dataset demonstrate the superior performance of our method for future frame extrapolation and motion segmentation. Most notably, our investigation into the learned physics codes reveals that they truly learn meaningful 3D physical motion patterns in the absence of any human labels in training.

arxiv情報

著者 Jinxi Li,Ziyang Song,Siyuan Zhou,Bo Yang
発行日 2025-06-09 15:31:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.CV, cs.LG, cs.RO | FreeGave: 3D Physics Learning from Dynamic Videos by Gaussian Velocity はコメントを受け付けていません

Spatio-Temporal State Space Model For Efficient Event-Based Optical Flow

要約

イベントカメラは、標準のフレームベースのカメラで以前は考えられなかった新しいフロンティアのロックを解除しました。
注目すべき例の1つは、低遅延の運動推定(光学フロー)です。これは、多くのリアルタイムアプリケーションにとって重要です。
このようなアプリケーションでは、アルゴリズムの計算効率が最重要です。
CNN、RNN、またはVITなどの最近の深い学習パラダイムは顕著なパフォーマンスを示していますが、しばしば望ましい計算効率が欠けています。
逆に、SNNやGNNを含む非同期イベントベースの方法は計算上効率的です。
ただし、これらのアプローチは、十分な空間的情報をキャプチャすることができません。これは、光学流量推定のためにパフォーマンスを向上させるために必要な強力な機能です。
この作業では、競争力のあるパフォーマンスを備えた非常に効率的なソリューションを開発するために、新しいネットワークアーキテクチャとともに、Spatio-Temporal State Space Model(STSSM)モジュールを紹介します。
STSSMモジュールは、状態空間モデルを活用して、イベントデータの時空間相関を効果的にキャプチャし、同様の設定でのCNNベースのアーキテクチャと比較して、より低い複雑さでより高いパフォーマンスを提供します。
私たちのモデルは、DSECベンチマークで競争力のあるパフォーマンスを備えたEVフラウンと比較して、TMAと2倍低い計算と比較して、4.5倍のより速い推論と8倍低い計算を達成します。
私たちのコードは、https://github.com/ahmedhumais/e-stmflowで入手できます

要約(オリジナル)

Event cameras unlock new frontiers that were previously unthinkable with standard frame-based cameras. One notable example is low-latency motion estimation (optical flow), which is critical for many real-time applications. In such applications, the computational efficiency of algorithms is paramount. Although recent deep learning paradigms such as CNN, RNN, or ViT have shown remarkable performance, they often lack the desired computational efficiency. Conversely, asynchronous event-based methods including SNNs and GNNs are computationally efficient; however, these approaches fail to capture sufficient spatio-temporal information, a powerful feature required to achieve better performance for optical flow estimation. In this work, we introduce Spatio-Temporal State Space Model (STSSM) module along with a novel network architecture to develop an extremely efficient solution with competitive performance. Our STSSM module leverages state-space models to effectively capture spatio-temporal correlations in event data, offering higher performance with lower complexity compared to ViT, CNN-based architectures in similar settings. Our model achieves 4.5x faster inference and 8x lower computations compared to TMA and 2x lower computations compared to EV-FlowNet with competitive performance on the DSEC benchmark. Our code will be available at https://github.com/AhmedHumais/E-STMFlow

arxiv情報

著者 Muhammad Ahmed Humais,Xiaoqian Huang,Hussain Sajwani,Sajid Javed,Yahya Zweiri
発行日 2025-06-09 15:51:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Spatio-Temporal State Space Model For Efficient Event-Based Optical Flow はコメントを受け付けていません

Diffusion Counterfactual Generation with Semantic Abduction

要約

反事実的な画像生成は、アイデンティティの保存、知覚の質の維持、根本的な因果モデルへの忠実さの確保など、重要な課題を提示します。
既存の自動エンコードフレームワークは、因果制御のために操作できるセマンティックな潜在スペースを認めていますが、スケーラビリティと忠実度に苦しんでいます。
拡散モデルの進歩は、最先端の視覚的品質、人間に合った知覚、および表現学習能力を実証し、反事実的な画像編集を改善する機会を提供します。
ここでは、空間的、意味的、動的な誘ductionの概念を導入する一連の拡散ベースの因果メカニズムを提示します。
反事実的推論プロセスを介して画像を編集するために、真珠の因果関係のレンズを介してセマンティック表現を拡散モデルに統合する一般的なフレームワークを提案します。
私たちの知る限り、これは拡散反事実のための高レベルのセマンティックアイデンティティ保存を検討し、セマンティックコントロールが忠実な因果制御とアイデンティティの保存の間の原則的なトレードオフをどのように可能にするかを示す最初の作業です。

要約(オリジナル)

Counterfactual image generation presents significant challenges, including preserving identity, maintaining perceptual quality, and ensuring faithfulness to an underlying causal model. While existing auto-encoding frameworks admit semantic latent spaces which can be manipulated for causal control, they struggle with scalability and fidelity. Advancements in diffusion models present opportunities for improving counterfactual image editing, having demonstrated state-of-the-art visual quality, human-aligned perception and representation learning capabilities. Here, we present a suite of diffusion-based causal mechanisms, introducing the notions of spatial, semantic and dynamic abduction. We propose a general framework that integrates semantic representations into diffusion models through the lens of Pearlian causality to edit images via a counterfactual reasoning process. To our knowledge, this is the first work to consider high-level semantic identity preservation for diffusion counterfactuals and to demonstrate how semantic control enables principled trade-offs between faithful causal control and identity preservation.

arxiv情報

著者 Rajat Rasal,Avinash Kori,Fabio De Sousa Ribeiro,Tian Xia,Ben Glocker
発行日 2025-06-09 15:54:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML | Diffusion Counterfactual Generation with Semantic Abduction はコメントを受け付けていません

CrosswalkNet: An Optimized Deep Learning Framework for Pedestrian Crosswalk Detection in Aerial Images with High-Performance Computing

要約

空中および衛星画像の可用性が高まるにつれて、ディープラーニングは、輸送資産管理、安全分析、都市計画の重要な可能性を示しています。
この研究では、Crosswalknetを紹介します。Crosswalknetは、15 cmの解像度航空画像からさまざまな種類の歩行者横断歩道を検出するために設計された堅牢で効率的な深い学習フレームワークです。
Crosswalknetには、方向の境界ボックス(OBB)を利用することにより、従来のオブジェクト検出戦略を改善する新しい検出アプローチが組み込まれ、方向に関係なく横断歩道を正確にキャプチャすることにより、検出精度を強化します。
畳み込みブロックの注意、デュアルブランチの空間ピラミッドプーリングファーストモジュール、コサインアニーリングなど、いくつかの最適化手法が実装され、パフォーマンスと効率を最大化します。
23,000を超える注釈付きクロスウォークインスタンスを含む包括的なデータセットが利用され、提案されたフレームワークを訓練および検証します。
最高のパフォーマンスモデルは、96.5%の印象的な精度と、マサチューセッツ州の航空画像の93.3%のリコールを実現し、その精度と有効性を示しています。
Crosswalknetは、移籍学習や微調整なしで、ニューハンプシャー州、バージニア州、メイン州のデータセットにも成功裏に適用され、その堅牢性と強力な一般化能力を示しています。
さらに、高性能コンピューティング(HPC)プラットフォームを使用して処理され、ポリゴンシェープファイル形式で提供されるクロスウォーク検出結果は、データ処理と検出を加速し、安全およびモビリティアプリケーションのリアルタイム分析をサポートすることが示されています。
この統合は、政策立案者、輸送エンジニア、都市計画者に、歩行者の安全性を高め、都市のモビリティを向上させるための効果的な手段を提供します。

要約(オリジナル)

With the increasing availability of aerial and satellite imagery, deep learning presents significant potential for transportation asset management, safety analysis, and urban planning. This study introduces CrosswalkNet, a robust and efficient deep learning framework designed to detect various types of pedestrian crosswalks from 15-cm resolution aerial images. CrosswalkNet incorporates a novel detection approach that improves upon traditional object detection strategies by utilizing oriented bounding boxes (OBB), enhancing detection precision by accurately capturing crosswalks regardless of their orientation. Several optimization techniques, including Convolutional Block Attention, a dual-branch Spatial Pyramid Pooling-Fast module, and cosine annealing, are implemented to maximize performance and efficiency. A comprehensive dataset comprising over 23,000 annotated crosswalk instances is utilized to train and validate the proposed framework. The best-performing model achieves an impressive precision of 96.5% and a recall of 93.3% on aerial imagery from Massachusetts, demonstrating its accuracy and effectiveness. CrosswalkNet has also been successfully applied to datasets from New Hampshire, Virginia, and Maine without transfer learning or fine-tuning, showcasing its robustness and strong generalization capability. Additionally, the crosswalk detection results, processed using High-Performance Computing (HPC) platforms and provided in polygon shapefile format, have been shown to accelerate data processing and detection, supporting real-time analysis for safety and mobility applications. This integration offers policymakers, transportation engineers, and urban planners an effective instrument to enhance pedestrian safety and improve urban mobility.

arxiv情報

著者 Zubin Bhuyan,Yuanchang Xie,AngkeaReach Rith,Xintong Yan,Nasko Apostolov,Jimi Oke,Chengbo Ai
発行日 2025-06-09 15:56:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CrosswalkNet: An Optimized Deep Learning Framework for Pedestrian Crosswalk Detection in Aerial Images with High-Performance Computing はコメントを受け付けていません

EgoM2P: Egocentric Multimodal Multitask Pretraining

要約

RGBビデオ、深さ、カメラのポーズ、視線などのエゴセントリックビジョンにおけるマルチモーダルシグナルを理解することは、拡張現実、ロボット工学、および人間コンピューターの相互作用のアプリケーションに不可欠です。
これらの機能により、システムはカメラの着用者のアクション、意図、および周囲の環境をより適切に解釈できます。
ただし、大規模なエゴセントリックマルチモーダルおよびマルチタスクモデルを構築するには、ユニークな課題があります。
エゴセントリックデータは本質的に異質であり、デバイスと設定全体のモダリティカバレッジに大きなばらつきがあります。
視線やヘッドマウントカメラの軌跡など、欠落しているモダリティのための擬似ラベルを生成することは、しばしば実行不可能であり、標準的な監視された学習アプローチを拡大するのが難しくなります。
さらに、ダイナミックカメラの動きと、一人称ビデオの複雑な時間的および空間構造は、既存のマルチモーダル基礎モデルの直接適用のために追加の課題をもたらします。
これらの課題に対処するために、一連の効率的な時間トーナイザーを導入し、EGOM2Pを提案します。これは、一時的に認識されているマルチモーダルトークンから学習して、エゴセントリック4D理解のための大規模な汎用モデルを訓練することです。
この統一された設計は、視線予測、エゴセントリックカメラ追跡、エゴセントリックビデオの単眼深度推定など、多様なエゴセントリックな知覚と合成タスク全体のマルチタスクをサポートします。
EGOM2Pは、条件付きエゴセントリックビデオ統合の生成モデルとしても機能します。
これらのタスク全体で、EGOM2Pはスペシャリストモデルの一致またはパフォーマンスを上回り、数桁高速にします。
コミュニティをサポートし、エゴセントリックビジョン研究を進めるために、EGOM2Pを完全にオープンします。
プロジェクトページ:https://egom2p.github.io/

要約(オリジナル)

Understanding multimodal signals in egocentric vision, such as RGB video, depth, camera poses, and gaze, is essential for applications in augmented reality, robotics, and human-computer interaction. These capabilities enable systems to better interpret the camera wearer’s actions, intentions, and surrounding environment. However, building large-scale egocentric multimodal and multitask models presents unique challenges. Egocentric data are inherently heterogeneous, with large variations in modality coverage across devices and settings. Generating pseudo-labels for missing modalities, such as gaze or head-mounted camera trajectories, is often infeasible, making standard supervised learning approaches difficult to scale. Furthermore, dynamic camera motion and the complex temporal and spatial structure of first-person video pose additional challenges for the direct application of existing multimodal foundation models. To address these challenges, we introduce a set of efficient temporal tokenizers and propose EgoM2P, a masked modeling framework that learns from temporally aware multimodal tokens to train a large, general-purpose model for egocentric 4D understanding. This unified design supports multitasking across diverse egocentric perception and synthesis tasks, including gaze prediction, egocentric camera tracking, and monocular depth estimation from egocentric video. EgoM2P also serves as a generative model for conditional egocentric video synthesis. Across these tasks, EgoM2P matches or outperforms specialist models while being an order of magnitude faster. We will fully open-source EgoM2P to support the community and advance egocentric vision research. Project page: https://egom2p.github.io/

arxiv情報

著者 Gen Li,Yutong Chen,Yiqian Wu,Kaifeng Zhao,Marc Pollefeys,Siyu Tang
発行日 2025-06-09 15:59:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | EgoM2P: Egocentric Multimodal Multitask Pretraining はコメントを受け付けていません

SimLTD: Simple Supervised and Semi-Supervised Long-Tailed Object Detection

要約

現代の視覚認識システムは大きな進歩を遂げていますが、多くは少数の模範から学ぶという未解決の問題に苦労し続けています。
このペーパーでは、オブジェクトクラスが自然な長期分布に従う設定でオブジェクト検出のタスクに焦点を当てています。
ロングショットトレーニングインスタンスを強化するために、外部イメージネットラベルに長い尾を持つ検出リゾートの既存の方法。
ただし、大きなラベル付きデータベースへのこのような依存性は、実際のシナリオでのユーティリティが限られています。
私たちは、人間の注釈の負担なしに簡単に収集することができるオプションの非標識画像を活用するための多用途でスケーラブルなアプローチを提案します。
SIMLTDフレームワークは簡単で直感的であり、3つの簡単な手順で構成されています。(1)豊富なヘッドクラスの事前トレーニング。
(2)希少な尾のクラスで学習を転送する。
(3)ヘッドクラスとテールクラスの両方のサンプリングセットで微調整。
私たちのアプローチは、過去の研究で必要とされていたように、メタ学習や知識の蒸留の複雑さを追加することなく、頭から尾のモデル移転パラダイムの改善と見なすことができます。
追加の画像ラベルなしで、補足的なラベルのない画像を活用することにより、SIMLTDは、監視された設定と半監視設定の両方で、挑戦的なLVIS V1ベンチマークに関する新しいレコード結果を確立します。

要約(オリジナル)

While modern visual recognition systems have made significant advancements, many continue to struggle with the open problem of learning from few exemplars. This paper focuses on the task of object detection in the setting where object classes follow a natural long-tailed distribution. Existing methods for long-tailed detection resort to external ImageNet labels to augment the low-shot training instances. However, such dependency on a large labeled database has limited utility in practical scenarios. We propose a versatile and scalable approach to leverage optional unlabeled images, which are easy to collect without the burden of human annotations. Our SimLTD framework is straightforward and intuitive, and consists of three simple steps: (1) pre-training on abundant head classes; (2) transfer learning on scarce tail classes; and (3) fine-tuning on a sampled set of both head and tail classes. Our approach can be viewed as an improved head-to-tail model transfer paradigm without the added complexities of meta-learning or knowledge distillation, as was required in past research. By harnessing supplementary unlabeled images, without extra image labels, SimLTD establishes new record results on the challenging LVIS v1 benchmark across both supervised and semi-supervised settings.

arxiv情報

著者 Phi Vu Tran
発行日 2025-06-09 16:00:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | SimLTD: Simple Supervised and Semi-Supervised Long-Tailed Object Detection はコメントを受け付けていません

Video Unlearning via Low-Rank Refusal Vector

要約

ビデオ生成モデルは、次の直感的な指導を通じて視覚コンテンツの作成を民主化しますが、Webスケールのトレーニングデータに組み込まれたバイアスと有害な概念も継承します。
ユーザーは望ましくない、さらには違法なコンテンツを容易に生成できるため、この継承は重大なリスクを生み出します。
この作業では、この重要な問題に対処するために、ビデオ拡散モデル向けに明示的に調整された最初の学習技術を紹介します。
私たちの方法では、5つのマルチモーダルプロンプトペアのみが必要です。
各ペアには、ターゲットの概念によってのみ異なる「安全」と「安全でない」例が含まれています。
層ごとの潜在的な違いを平均すると、「拒否ベクター」が生成されます。これは、モデルパラメーターから差し引かれると、危険な概念を中和します。
堅牢な拒否ベクターを生成する埋め込みの共分散の違いに関する新しい低ランク因数分解アプローチを導入します。
これにより、ターゲットの概念が分離され、他のセマンティクスの副次的な学習を最小限に抑え、生成されたビデオの視覚的品質を維持します。
この方法は、元のトレーニングデータへの再訓練やアクセスなしで動作しながら、モデルの生成品質を保持します。
拒否の方向をモデルの重みに直接埋め込むことにより、抑制メカニズムは、表面レベルの入出力フィルターと比較して、敵対的なバイパスの試みに対して本質的に堅牢になります。
徹底的な定性的および定量的評価では、明示的なヌード、グラフィック暴力、著作権、商標など、さまざまな有害なコンテンツを中和できることを示しています。
プロジェクトページ:https://www.pinlab.org/video-unlearning。

要約(オリジナル)

Video generative models democratize the creation of visual content through intuitive instruction following, but they also inherit the biases and harmful concepts embedded within their web-scale training data. This inheritance creates a significant risk, as users can readily generate undesirable and even illegal content. This work introduces the first unlearning technique tailored explicitly for video diffusion models to address this critical issue. Our method requires 5 multi-modal prompt pairs only. Each pair contains a ‘safe’ and an ‘unsafe’ example that differ only by the target concept. Averaging their per-layer latent differences produces a ‘refusal vector’, which, once subtracted from the model parameters, neutralizes the unsafe concept. We introduce a novel low-rank factorization approach on the covariance difference of embeddings that yields robust refusal vectors. This isolates the target concept while minimizing collateral unlearning of other semantics, thus preserving the visual quality of the generated video. Our method preserves the model’s generation quality while operating without retraining or access to the original training data. By embedding the refusal direction directly into the model’s weights, the suppression mechanism becomes inherently more robust against adversarial bypass attempts compared to surface-level input-output filters. In a thorough qualitative and quantitative evaluation, we show that we can neutralize a variety of harmful contents, including explicit nudity, graphic violence, copyrights, and trademarks. Project page: https://www.pinlab.org/video-unlearning.

arxiv情報

著者 Simone Facchiano,Stefano Saravalle,Matteo Migliarini,Edoardo De Matteis,Alessio Sampieri,Andrea Pilzer,Emanuele Rodolà,Indro Spinelli,Luca Franco,Fabio Galasso
発行日 2025-06-09 16:06:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Video Unlearning via Low-Rank Refusal Vector はコメントを受け付けていません

GaussianVAE: Adaptive Learning Dynamics of 3D Gaussians for High-Fidelity Super-Resolution

要約

ネイティブトレーニングの解決を超えて、3Dガウススプラッティング(3DG)の解像度と幾何学的忠実度を高めるための新しいアプローチを提示します。
現在の3DGSメソッドは、入力解像度によって根本的に制限されており、トレーニングビューに存在するよりも細かい詳細を外挿することができない再構成を生成します。
私たちの仕事は、必要に応じて追加の3Dガウス人を予測および改良する軽量生成モデルを通してこの制限を破ります。
主要な革新は、ヘシアン支援サンプリング戦略であり、濃度化の恩恵を受ける可能性のある地域をインテリジェントに識別し、計算効率を確保します。
計算集中的なGANや拡散アプローチとは異なり、私たちの方法はリアルタイムで動作し(単一の消費者グレードGPUで推測あたり0.015秒)、インタラクティブなアプリケーションに実用的です。
包括的な実験は、最先端の方法と比較して幾何学的精度とレンダリング品質の両方の大幅な改善を示し、解像度のない3Dシーンの強化のための新しいパラダイムを確立します。

要約(オリジナル)

We present a novel approach for enhancing the resolution and geometric fidelity of 3D Gaussian Splatting (3DGS) beyond native training resolution. Current 3DGS methods are fundamentally limited by their input resolution, producing reconstructions that cannot extrapolate finer details than are present in the training views. Our work breaks this limitation through a lightweight generative model that predicts and refines additional 3D Gaussians where needed most. The key innovation is our Hessian-assisted sampling strategy, which intelligently identifies regions that are likely to benefit from densification, ensuring computational efficiency. Unlike computationally intensive GANs or diffusion approaches, our method operates in real-time (0.015s per inference on a single consumer-grade GPU), making it practical for interactive applications. Comprehensive experiments demonstrate significant improvements in both geometric accuracy and rendering quality compared to state-of-the-art methods, establishing a new paradigm for resolution-free 3D scene enhancement.

arxiv情報

著者 Shuja Khalid,Mohamed Ibrahim,Yang Liu
発行日 2025-06-09 16:13:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | GaussianVAE: Adaptive Learning Dynamics of 3D Gaussians for High-Fidelity Super-Resolution はコメントを受け付けていません