Mind the Gap: A Practical Attack on GGUF Quantization

要約

フロンティアLLMのサイズが増加すると、トレーニング後の量子化がメモリ効率の高い展開の標準になりました。
最近の研究では、基本的な丸めベースの量子化スキームがセキュリティリスクを引き起こすことが示されています。これは、悪意のある行動を完全に正確に隠したままの量子モデルに注入するために悪用できるためです。
ただし、人気のある「Ollama」や `llama.cpp`フレームワークで使用されるGGUFファミリーなど、より複雑な量子化方法に既存の攻撃を適用することはできません。
この作業では、GGUFに対する最初の攻撃を導入することにより、このギャップに対処します。
私たちの重要な洞察は、量子化誤差 – 全精度の重みとその(de-)量子化バージョンの違いは、完全に正確に良性と思われる悪意のある量子化モデルを構築するのに十分な柔軟性を提供することです。
これを活用して、ターゲットの悪意のあるLLMを訓練しながら、量子化エラーに基づいてその重みを制約する攻撃を開発します。
3つの多様な攻撃シナリオに関する9つのGGUF量子化データ型にわたる3つの一般的なLLMに対する攻撃の有効性を実証します:不安定なコード生成($ \ delta $ = $ 88.7 \%$)、ターゲットコンテンツインジェクション($ \ delta $ = $ 85.0 \%$)、およびvenign delign refurusal($ \ delta $ $ 30.1)。
私たちの攻撃は、(1)トレーニング後の最も広く使用されている量子化方法が敵対的な干渉の影響を受けやすく、(2)量子化スキームの複雑さだけでは防御として不十分であることを強調しています。

要約(オリジナル)

With the increasing size of frontier LLMs, post-training quantization has become the standard for memory-efficient deployment. Recent work has shown that basic rounding-based quantization schemes pose security risks, as they can be exploited to inject malicious behaviors into quantized models that remain hidden in full precision. However, existing attacks cannot be applied to more complex quantization methods, such as the GGUF family used in the popular `ollama` and `llama.cpp` frameworks. In this work, we address this gap by introducing the first attack on GGUF. Our key insight is that the quantization error — the difference between the full-precision weights and their (de-)quantized version — provides sufficient flexibility to construct malicious quantized models that appear benign in full precision. Leveraging this, we develop an attack that trains the target malicious LLM while constraining its weights based on quantization errors. We demonstrate the effectiveness of our attack on three popular LLMs across nine GGUF quantization data types on three diverse attack scenarios: insecure code generation ($\Delta$=$88.7\%$), targeted content injection ($\Delta$=$85.0\%$), and benign instruction refusal ($\Delta$=$30.1\%$). Our attack highlights that (1) the most widely used post-training quantization method is susceptible to adversarial interferences, and (2) the complexity of quantization schemes alone is insufficient as a defense.

arxiv情報

著者 Kazuki Egashira,Robin Staab,Mark Vero,Jingxuan He,Martin Vechev
発行日 2025-06-02 16:21:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG | Mind the Gap: A Practical Attack on GGUF Quantization はコメントを受け付けていません

R-LoRA: Randomized Multi-Head LoRA for Efficient Multi-Task Learning

要約

大型言語モデル(LLMS)は計算高価であり、低ランクの適応(LORA)は、低ランクのマトリックスを介して重量の更新を近似することにより、費用対効果の高いソリューションを提供します。
実際のシナリオでは、LLMは複数のドメインからのデータに微調整され、さまざまな分野でタスクを実行し、マルチタスク学習(MTL)を具体化します。
Loraは、このような複雑なシナリオでしばしばパフォーマンスを低下させます。
マルチタスク学習におけるLORAの能力を高めるために、マルチヘッドランダム化を組み込んだR-LORAを提案します。
マルチヘッドランダム化は、マルチヘッドドロップアウトとマルチヘッドランダム初期化を通じてヘッドマトリックスを多様化し、共有された知識表現を維持しながら、タスク固有の機能のより効率的な学習を可能にします。
私たちのアプローチは、MTLのパフォーマンスを改善するだけでなく、GPUメモリの使用とトレーニング時間を短縮します。
実験は、R-Loraの利益がヘッドマトリックスの多様性の増加に起因し、マルチタスク学習の有効性を示していることを示しています。
このコードは、https://github.com/jinda-liu/r-loraで入手できます

要約(オリジナル)

Fine-tuning large language models (LLMs) is computationally expensive, and Low-Rank Adaptation (LoRA) provides a cost-effective solution by approximating weight updates through low-rank matrices. In real-world scenarios, LLMs are fine-tuned on data from multiple domains to perform tasks across various fields, embodying multi-task learning (MTL). LoRA often underperforms in such complex scenarios. To enhance LoRA’s capability in multi-task learning, we propose R-LoRA, which incorporates Multi-Head Randomization. Multi-Head Randomization diversifies the head matrices through Multi-Head Dropout and Multi-Head Random Initialization, enabling more efficient learning of task-specific features while maintaining shared knowledge representation. Our approach not only improves performance in MTL but also reduces GPU memory usage and training time. Experiments show that R-LoRA’s gains stem from increased diversity in the head matrices, demonstrating its effectiveness for multi-task learning. The code is available at https://github.com/jinda-liu/R-LoRA

arxiv情報

著者 Jinda Liu,Yi Chang,Yuan Wu
発行日 2025-06-02 16:26:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | R-LoRA: Randomized Multi-Head LoRA for Efficient Multi-Task Learning はコメントを受け付けていません

Evaluation of Seismic Artificial Intelligence with Uncertainty

要約

人工知能は、ワークフロー内の特定のタスクを完了するように訓練されたディープラーニングモデル(DLM)で地震コミュニティを変えました。
ただし、DLMを評価および比較するための堅牢な評価フレームワークはまだ不足しています。
パフォーマンスの不確実性と学習効率という2つの重要な側面を共同で組み込んだ評価フレームワークを設計することにより、このギャップに対処します。
これらの側面をターゲットにするために、地震データに合わせたクラスタリング方法を使用してトレーニング、検証、およびテストスプリットを細心の注意を払って構築し、確率的トレーニングプロセスとランダムデータサンプリングから生じるパフォーマンスの不確実性を分離するための広範なトレーニング設計を制定します。
モデルの優位性の誤解を招く宣言を防ぐフレームワークの能力は、3つのトレーニングアプローチの下で、一般的な地震段階ピッキングDLMであるPhasenet [1]の評価を通じて実証されています。
私たちのフレームワークは、開業医が問題に最適なモデルを選択し、さまざまなトレーニングデータの予算でモデルのパフォーマンスを明示的に分析することにより、パフォーマンスの期待を設定するのに役立ちます。

要約(オリジナル)

Artificial intelligence has transformed the seismic community with deep learning models (DLMs) that are trained to complete specific tasks within workflows. However, there is still lack of robust evaluation frameworks for evaluating and comparing DLMs. We address this gap by designing an evaluation framework that jointly incorporates two crucial aspects: performance uncertainty and learning efficiency. To target these aspects, we meticulously construct the training, validation, and test splits using a clustering method tailored to seismic data and enact an expansive training design to segregate performance uncertainty arising from stochastic training processes and random data sampling. The framework’s ability to guard against misleading declarations of model superiority is demonstrated through evaluation of PhaseNet [1], a popular seismic phase picking DLM, under 3 training approaches. Our framework helps practitioners choose the best model for their problem and set performance expectations by explicitly analyzing model performance with uncertainty at varying budgets of training data.

arxiv情報

著者 Samuel Myren,Nidhi Parikh,Rosalyn Rael,Garrison Flynn,Dave Higdon,Emily Casleton
発行日 2025-06-02 17:04:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, physics.geo-ph | Evaluation of Seismic Artificial Intelligence with Uncertainty はコメントを受け付けていません

Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation

要約

大規模な言語モデル(LLM)は、静的トレーニングデータへの依存により、幻覚と時代遅れの知識に苦しんでいます。
検索された生成(RAG)は、事実上の接地を改善するために外部の動的情報を統合することにより、これらの問題を軽減します。
マルチモーダル学習の進歩により、マルチモーダルラグは、テキスト、画像、オーディオ、ビデオなどの複数のモダリティを組み込んで生成された出力を強化することにより、このアプローチを拡張します。
ただし、クロスモーダルのアライメントと推論は、ユニモーダルラグのものを超えた独自の課題をもたらします。
この調査では、データセット、ベンチマーク、メトリック、評価、方法論、および検索、融合、増強、および生成の革新をカバーするマルチモーダルRAGシステムの構造的かつ包括的な分析を提供します。
トレーニング戦略、堅牢性の強化、損失関数、エージェントベースのアプローチをレビューしながら、多様なマルチモーダルRAGシナリオも調査します。
さらに、この進化する分野での研究を導くために、オープンな課題と将来の方向性の概要を説明します。
この調査では、マルチモーダルの動的な外部知識ベースを効果的に活用する、より能力があり、信頼性の高いAIシステムを開発するための基盤を築きます。
すべてのリソースは、https://github.com/llm-lab-org/multimodal-rag-surveyで公開されています。

要約(オリジナル)

Large Language Models (LLMs) suffer from hallucinations and outdated knowledge due to their reliance on static training data. Retrieval-Augmented Generation (RAG) mitigates these issues by integrating external dynamic information for improved factual grounding. With advances in multimodal learning, Multimodal RAG extends this approach by incorporating multiple modalities such as text, images, audio, and video to enhance the generated outputs. However, cross-modal alignment and reasoning introduce unique challenges beyond those in unimodal RAG. This survey offers a structured and comprehensive analysis of Multimodal RAG systems, covering datasets, benchmarks, metrics, evaluation, methodologies, and innovations in retrieval, fusion, augmentation, and generation. We review training strategies, robustness enhancements, loss functions, and agent-based approaches, while also exploring the diverse Multimodal RAG scenarios. In addition, we outline open challenges and future directions to guide research in this evolving field. This survey lays the foundation for developing more capable and reliable AI systems that effectively leverage multimodal dynamic external knowledge bases. All resources are publicly available at https://github.com/llm-lab-org/Multimodal-RAG-Survey.

arxiv情報

著者 Mohammad Mahdi Abootorabi,Amirhosein Zobeiri,Mahdi Dehghani,Mohammadali Mohammadkhani,Bardia Mohammadi,Omid Ghahroodi,Mahdieh Soleymani Baghshah,Ehsaneddin Asgari
発行日 2025-06-02 17:15:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation はコメントを受け付けていません

Large Language and Reasoning Models are Shallow Disjunctive Reasoners

要約

大規模な言語モデル(LLM)は、体系的な推論に苦労することがわかっています。
彼らがうまく機能しているように見えるタスクでさえ、彼らのパフォーマンスはしばしば、真の推論能力ではなくショートカットに依存し、分散型(OOD)の例で崩壊するようになります。
強化学習と考え方の促しに基づく訓練後の戦略は、最近、ステップ変更として歓迎されました。
ただし、数学やプログラミングベースの問題解決を超えて、結果として生じる「大きな推論モデル」(LRMS)の可能性についてはほとんど知られていません。
この論文では、定性的空間的および時間的推論のために体系的なリレーショナル構成を必要とするタスクに焦点を当てています。
この設定により、問題の難易度を細かく制御して、OOD一般化を正確に測定できます。
ゼロショットLRMは一般に、単一パスの推論タスクでLLMのカウンターパートを上回るが、マルチパス設定では苦労していることがわかります。
比較的良い結果を示している間、微調整されたLLMはマルチパスの一般化もできません。
また、これの行動的解釈の証拠、つまりLRMが浅い分離的な推論者であるという証拠も提供します。

要約(オリジナル)

Large Language Models (LLMs) have been found to struggle with systematic reasoning. Even on tasks where they appear to perform well, their performance often depends on shortcuts, rather than on genuine reasoning abilities, leading them to collapse on out-of-distribution (OOD) examples. Post-training strategies based on reinforcement learning and chain-of-thought prompting have recently been hailed as a step change. However, little is known about the potential of the resulting “Large Reasoning Models” (LRMs) beyond maths and programming-based problem solving, where genuine OOD problems can be sparse. In this paper, we focus on tasks that require systematic relational composition for qualitative spatial and temporal reasoning. The setting allows fine control over problem difficulty to precisely measure OOD generalization. We find that, zero-shot LRMs generally outperform their LLM counterparts in single-path reasoning tasks but struggle in the multi-path setting. Whilst showing comparatively better results, fine-tuned LLMs are also not capable of multi-path generalization. We also provide evidence for the behavioral interpretation for this, i.e., that LRMs are shallow disjunctive reasoners.

arxiv情報

著者 Irtaza Khalid,Amir Masoud Nourollah,Steven Schockaert
発行日 2025-06-02 17:37:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Large Language and Reasoning Models are Shallow Disjunctive Reasoners はコメントを受け付けていません

Enhancing Sample Generation of Diffusion Models using Noise Level Correction

要約

拡散モデルの除去プロセスは、データマニホールドへのノイズの多いサンプルのおおよその投影として解釈できます。
さらに、これらのサンプルのノイズレベルは、基礎となるマニホールドまでの距離を近似します。
この洞察に基づいて、推定ノイズレベルをマニホールドまでの真の距離に合わせてサンプル生成を強化する新しい方法を提案します。
具体的には、事前に訓練された除去ネットワークを活用するノイズレベルの修正ネットワークを導入して、除去プロセス中にノイズレベルの推定値を改良します。
さらに、このアプローチは、インポインティング、デブラリング、スーパー解像度、着色、圧縮センシングなどのタスク固有の制約を統合することにより、さまざまな画像修復タスクに拡張します。
実験結果は、私たちの方法が、制約のない生成シナリオと制約の両方の両方のシナリオでサンプルの品質を大幅に改善することを示しています。
特に、提案されているノイズレベル補正フレームワークは、既存の除去スケジューラー(DDIMなど)と互換性があり、パフォーマンスの追加改善を提供します。

要約(オリジナル)

The denoising process of diffusion models can be interpreted as an approximate projection of noisy samples onto the data manifold. Moreover, the noise level in these samples approximates their distance to the underlying manifold. Building on this insight, we propose a novel method to enhance sample generation by aligning the estimated noise level with the true distance of noisy samples to the manifold. Specifically, we introduce a noise level correction network, leveraging a pre-trained denoising network, to refine noise level estimates during the denoising process. Additionally, we extend this approach to various image restoration tasks by integrating task-specific constraints, including inpainting, deblurring, super-resolution, colorization, and compressed sensing. Experimental results demonstrate that our method significantly improves sample quality in both unconstrained and constrained generation scenarios. Notably, the proposed noise level correction framework is compatible with existing denoising schedulers (e.g., DDIM), offering additional performance improvements.

arxiv情報

著者 Abulikemu Abuduweili,Chenyang Yuan,Changliu Liu,Frank Permenter
発行日 2025-06-02 15:05:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | Enhancing Sample Generation of Diffusion Models using Noise Level Correction はコメントを受け付けていません

Concept Based Explanations and Class Contrasting

要約

深いニューラルネットワークを説明することは、その大きさと非線形性のために挑戦的です。
このホワイトペーパーでは、個々のクラスの予測を説明したり、2つのクラスを対照するために、概念ベースの説明方法を紹介します。つまり、モデルが1つのクラスを他のクラスよりも予測する理由を説明します。
Imagenet1kでトレーニングされたいくつかの公然と利用可能な分類モデルでテストします。
定性的テストと定量的テストの両方を実行します。
たとえば、Pytorch Model ZooのRESNET50モデルの場合、モデルがクラス「A」を予測する理由について説明を使用して、モデルがクラス「A」を予測しない4つのデータセット作物を自動的に選択できます。
次に、このモデルは、ケースの91.1%で新しく結合された画像のクラス「A」を再度予測します(1000クラスのうち911で動作します)。
.ipynbの例を含むコードは、githubで入手できます:https://github.com/rherdt185/concept-based-explanations-and-Class-Contrasting

要約(オリジナル)

Explaining deep neural networks is challenging, due to their large size and non-linearity. In this paper, we introduce a concept-based explanation method, in order to explain the prediction for an individual class, as well as contrasting any two classes, i.e. explain why the model predicts one class over the other. We test it on several openly available classification models trained on ImageNet1K. We perform both qualitative and quantitative tests. For example, for a ResNet50 model from pytorch model zoo, we can use the explanation for why the model predicts a class ‘A’ to automatically select four dataset crops where the model does not predict class ‘A’. The model then predicts class ‘A’ again for the newly combined image in 91.1% of the cases (works for 911 out of the 1000 classes). The code including an .ipynb example is available on github: https://github.com/rherdt185/concept-based-explanations-and-class-contrasting

arxiv情報

著者 Rudolf Herdt,Daniel Otero Baguer
発行日 2025-06-02 15:09:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Concept Based Explanations and Class Contrasting はコメントを受け付けていません

LEGNet: Lightweight Edge-Gaussian Driven Network for Low-Quality Remote Sensing Image Object Detection

要約

リモートセンシングオブジェクト検出(RSOD)は、多くの場合、低空間分解能、センサーノイズ、モーションブラー、有害照明などの分解に苦しんでいます。
これらの要因は、特徴の特徴を低下させ、曖昧なオブジェクト表現と不十分な前景の中央分離につながります。
既存のRSODメソッドは、低品質のオブジェクトの堅牢な検出に制限を示します。
これらのプレスの課題に対処するために、低品質のリモートセンシング画像から派生した特徴表現を強化するために特別に設計された新しいエッジガウス集約(EGA)モジュールを特徴とする軽量バックボーンネットワークであるLegNetを紹介します。
EGAモジュールは以下を統合します。(a)方向を認識しているScharrフィルターは、低コントラストまたはぼやけたオブジェクトで失われる重要なエッジの詳細を研ぎ澄まし、(b)ノイズを抑制し、曖昧な特徴応答を正規化し、困難な条件下で前景の顕著性を強化するためのガウス型の特徴の改良を削減します。
EGAモジュールは、劣化した画像で一般的なコントラストの減少、構造的不連続性、およびあいまいな特徴応答の低下で一般的な問題を軽減し、計算効率を維持しながらモデルの堅牢性を効果的に改善します。
5つのベンチマーク(DOTA-V1.0、v1.5、Dior-R、Fair1m-V1.0、およびVisdrone2019)にわたる包括的な評価は、LEGNETが特に低品質のオブジェクトの検出において最先端のパフォーマンスを達成することを示しています。
このコードは、https://github.com/lwcver/legnetで入手できます。

要約(オリジナル)

Remote sensing object detection (RSOD) often suffers from degradations such as low spatial resolution, sensor noise, motion blur, and adverse illumination. These factors diminish feature distinctiveness, leading to ambiguous object representations and inadequate foreground-background separation. Existing RSOD methods exhibit limitations in robust detection of low-quality objects. To address these pressing challenges, we introduce LEGNet, a lightweight backbone network featuring a novel Edge-Gaussian Aggregation (EGA) module specifically engineered to enhance feature representation derived from low-quality remote sensing images. EGA module integrates: (a) orientation-aware Scharr filters to sharpen crucial edge details often lost in low-contrast or blurred objects, and (b) Gaussian-prior-based feature refinement to suppress noise and regularize ambiguous feature responses, enhancing foreground saliency under challenging conditions. EGA module alleviates prevalent problems in reduced contrast, structural discontinuities, and ambiguous feature responses prevalent in degraded images, effectively improving model robustness while maintaining computational efficiency. Comprehensive evaluations across five benchmarks (DOTA-v1.0, v1.5, DIOR-R, FAIR1M-v1.0, and VisDrone2019) demonstrate that LEGNet achieves state-of-the-art performance, particularly in detecting low-quality objects. The code is available at https://github.com/lwCVer/LEGNet.

arxiv情報

著者 Wei Lu,Si-Bao Chen,Hui-Dong Li,Qing-Ling Shu,Chris H. Q. Ding,Jin Tang,Bin Luo
発行日 2025-06-02 16:04:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LEGNet: Lightweight Edge-Gaussian Driven Network for Low-Quality Remote Sensing Image Object Detection はコメントを受け付けていません

Motion-compensated cardiac MRI using low-rank diffeomorphic flow (DMoCo)

要約

自由呼吸および非測定3D心磁気共鳴画像法(MRI)のための監視されていないモーション補償画像再構成アルゴリズムを紹介します。
単一の静的画像テンプレートの変形として、各特定の動きフェーズに対応する画像体積を表現します。
作業の主な貢献は、運動フェーズによってパラメーター化されたdiffeyomorphismsファミリーのコンパクトな関節表現の低いランクモデルです。
特定のモーションフェーズでのdiffeyomorphismは、参照テンプレートフェーズをモーションフェーズに接続するパスに沿ってパラメトリック速度フィールドを統合することにより得られます。
異なるフェーズでの速度フィールドは、低ランクモデルを使用して表されます。
静的テンプレートと低ランクモーションモデルのパラメーターは、監視されていない方法でKスペースデータから直接学習されます。
より制約されたモーションモデルは、自由呼吸3D Cine MRIのための現在のモーション分解およびモーション補償アルゴリズムと比較して、回復の改善を提供することが観察されます。

要約(オリジナル)

We introduce an unsupervised motion-compensated image reconstruction algorithm for free-breathing and ungated 3D cardiac magnetic resonance imaging (MRI). We express the image volume corresponding to each specific motion phase as the deformation of a single static image template. The main contribution of the work is the low-rank model for the compact joint representation of the family of diffeomorphisms, parameterized by the motion phases. The diffeomorphism at a specific motion phase is obtained by integrating a parametric velocity field along a path connecting the reference template phase to the motion phase. The velocity field at different phases is represented using a low-rank model. The static template and the low-rank motion model parameters are learned directly from the k-space data in an unsupervised fashion. The more constrained motion model is observed to offer improved recovery compared to current motion-resolved and motion-compensated algorithms for free-breathing 3D cine MRI.

arxiv情報

著者 Joseph Kettelkamp,Ludovica Romanin,Sarv Priya,Mathews Jacob
発行日 2025-06-02 16:13:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Motion-compensated cardiac MRI using low-rank diffeomorphic flow (DMoCo) はコメントを受け付けていません

Hierarchical Material Recognition from Local Appearance

要約

地元の外観から階層的認識のために資料の分類法を紹介します。
私たちの分類法はビジョンアプリケーションによって動機付けられており、材料の物理的特性に従って配置されています。
分類クラスの画像と深度マップを備えた、多様な内部データセットを提供します。
分類法とデータセットを利用して、グラフ注意ネットワークに基づいて階層的な材料認識の方法を提示します。
私たちのモデルは、クラス間の分類学的近接性を活用し、最先端のパフォーマンスを達成します。
不利な現実世界のイメージング条件に一般化するモデルの可能性を実証し、深さマップを使用してレンダリングされた新しいビューはこの機能を高めることができます。
最後に、いくつかのショット学習設定で新しい素材を迅速に学習するモデルの能力を示します。

要約(オリジナル)

We introduce a taxonomy of materials for hierarchical recognition from local appearance. Our taxonomy is motivated by vision applications and is arranged according to the physical traits of materials. We contribute a diverse, in-the-wild dataset with images and depth maps of the taxonomy classes. Utilizing the taxonomy and dataset, we present a method for hierarchical material recognition based on graph attention networks. Our model leverages the taxonomic proximity between classes and achieves state-of-the-art performance. We demonstrate the model’s potential to generalize to adverse, real-world imaging conditions, and that novel views rendered using the depth maps can enhance this capability. Finally, we show the model’s capacity to rapidly learn new materials in a few-shot learning setting.

arxiv情報

著者 Matthew Beveridge,Shree K. Nayar
発行日 2025-06-02 16:21:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Hierarchical Material Recognition from Local Appearance はコメントを受け付けていません