Middle-Layer Representation Alignment for Cross-Lingual Transfer in Fine-Tuned LLMs

要約

大規模な言語モデルは、微調整を通じてタスク固有のアプリケーションで顕著な能力を示していますが、さまざまな言語全体にこれらの利点を拡大することが幅広いアクセシビリティに不可欠です。
ただし、言語間のLLMパフォーマンスのギャップと、多くの言語での微調整データの希少性によって、効果的な横断転送が妨げられています。
1,000以上の言語ペアからのLLM内部表現の分析を通じて、中間層が横断的なアライメントの最も強力な可能性を示すことがわかります。
この発見に基づいて、タスク固有のトレーニングに統合された中間層アライメント目標を提案します。
スロットの充填、機械翻訳、および構造化されたテキスト生成に関する実験は、特にリソース言語の低い言語に対する一貫した改善を示しています。
この方法は、アライメント言語の選択に堅牢であり、アラインメント中に目にされていない言語に一般化します。
さらに、個別にトレーニングされたアライメントモジュールを既存のタスク固有のモジュールと統合して、完全な再トレーニングなしで横断的機能を改善できることを示します。
私たちのコードは公開されています(https://github.com/dannigt/mid-align)。

要約(オリジナル)

While large language models demonstrate remarkable capabilities at task-specific applications through fine-tuning, extending these benefits across diverse languages is essential for broad accessibility. However, effective cross-lingual transfer is hindered by LLM performance gaps across languages and the scarcity of fine-tuning data in many languages. Through analysis of LLM internal representations from over 1,000+ language pairs, we discover that middle layers exhibit the strongest potential for cross-lingual alignment. Building on this finding, we propose a middle-layer alignment objective integrated into task-specific training. Our experiments on slot filling, machine translation, and structured text generation show consistent improvements in cross-lingual transfer, especially to lower-resource languages. The method is robust to the choice of alignment languages and generalizes to languages unseen during alignment. Furthermore, we show that separately trained alignment modules can be merged with existing task-specific modules, improving cross-lingual capabilities without full re-training. Our code is publicly available (https://github.com/dannigt/mid-align).

arxiv情報

著者 Danni Liu,Jan Niehues
発行日 2025-02-20 18:45:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Middle-Layer Representation Alignment for Cross-Lingual Transfer in Fine-Tuned LLMs はコメントを受け付けていません

Towards Efficient Optimizer Design for LLM via Structured Fisher Approximation with a Low-Rank Extension

要約

低メモリの要件と速い収束を備えた大規模な言語モデル(LLMS)の効率的なオプティマザーを設計することは、重要で挑戦的な問題です。
この論文は、構造化されたフィッシャー情報マトリックス(FIM)近似のレンズを介したこのようなオプティマイザーの体系的な設計に向けた一歩を踏み出します。
多くの最先端の効率的なオプティマイザーは、特定の構造的仮定を備えたFIM近似(Frobenius Normの下)のソリューションと見なすことができることを示しています。
これらの洞察に基づいて、LLMSの実用的な効率的なオプティマザーに関する2つの設計上の推奨事項を提案し、一般性と効率のバランスをとる構造の仮定の慎重な選択、および新しい低ランク拡張フレームワークを通じて一般的な構造とのオプティマイザーのメモリ効率の向上を提案します。
新しいメモリ効率の高いオプティマーを導き出すことにより、各設計アプローチを使用する方法を示します:行と列のスケーリングされたSGD(RAC)および適応性低次元サブスペース推定(Alice)。
Llama Pre-Training(最大1Bパラメーター)の実験は、有効性を検証し、既存のメモリ効率の高いベースラインやメモリオーバーヘッドがほとんどないAdamよりも速くより良い収束を示します。
特に、AliceはAdamよりも2倍の高速収束を超えるよりも優れていますが、RACSはSGDのようなメモリを備えた1Bモデルで強力なパフォーマンスを提供します。

要約(オリジナル)

Designing efficient optimizers for large language models (LLMs) with low-memory requirements and fast convergence is an important and challenging problem. This paper makes a step towards the systematic design of such optimizers through the lens of structured Fisher information matrix (FIM) approximation. We show that many state-of-the-art efficient optimizers can be viewed as solutions to FIM approximation (under the Frobenius norm) with specific structural assumptions. Building on these insights, we propose two design recommendations of practical efficient optimizers for LLMs, involving the careful selection of structural assumptions to balance generality and efficiency, and enhancing memory efficiency of optimizers with general structures through a novel low-rank extension framework. We demonstrate how to use each design approach by deriving new memory-efficient optimizers: Row and Column Scaled SGD (RACS) and Adaptive low-dimensional subspace estimation (Alice). Experiments on LLaMA pre-training (up to 1B parameters) validate the effectiveness, showing faster and better convergence than existing memory-efficient baselines and Adam with little memory overhead. Notably, Alice achieves better than 2x faster convergence over Adam, while RACS delivers strong performance on the 1B model with SGD-like memory.

arxiv情報

著者 Wenbo Gong,Meyer Scetbon,Chao Ma,Edward Meeds
発行日 2025-02-20 18:48:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Towards Efficient Optimizer Design for LLM via Structured Fisher Approximation with a Low-Rank Extension はコメントを受け付けていません

Towards Economical Inference: Enabling DeepSeek’s Multi-Head Latent Attention in Any Transformer-based LLMs

要約

Multi-Head Latent Atterness(MLA)は、Keyvue(KV)キャッシュを潜在的なベクトルに大幅に圧縮することにより、効率的かつ経済的な推論を確保するために設計されたDeepSeekによって提案された革新的なアーキテクチャです。
MLAと比較して、マルチヘッドの注意(MHA)を採用している標準LLMと、グループ化されたクエリの注意(GQA)などのバリアントは、かなりのコストの欠点を示します。
よく訓練されたLLMS(LLAMAなど)がゼロから事前トレーニングをせずにMLAに迅速に適応できるようにすることは、有意義で挑戦的です。
このペーパーでは、MHAからMLA(MHA2MLA)に移行するための最初のデータ効率の高い微調整方法を提案します。これには、2つの重要なコンポーネントが含まれています。部分ロープの場合、注意スコアの寸法とキーの寸法からロープを削除します。
低ランク近似については、キーと値の事前に訓練されたパラメーターに基づいて、ジョイントSVD近似を導入します。
これらの慎重に設計された戦略により、MHA2MLAはデータのわずかな割合(0.3%から0.6%)のみを使用してパフォーマンスを回復でき、KVキャッシュ量子化などの圧縮技術とシームレスに統合しながら、推論コストを大幅に削減できます。
たとえば、Llama2-7BのKVキャッシュサイズは92.19%減少し、ロングベンチのパフォーマンスは0.5%しか低下していません。

要約(オリジナル)

Multi-head Latent Attention (MLA) is an innovative architecture proposed by DeepSeek, designed to ensure efficient and economical inference by significantly compressing the Key-Value (KV) cache into a latent vector. Compared to MLA, standard LLMs employing Multi-Head Attention (MHA) and its variants such as Grouped-Query Attention (GQA) exhibit significant cost disadvantages. Enabling well-trained LLMs (e.g., Llama) to rapidly adapt to MLA without pre-training from scratch is both meaningful and challenging. This paper proposes the first data-efficient fine-tuning method for transitioning from MHA to MLA (MHA2MLA), which includes two key components: for partial-RoPE, we remove RoPE from dimensions of queries and keys that contribute less to the attention scores, for low-rank approximation, we introduce joint SVD approximations based on the pre-trained parameters of keys and values. These carefully designed strategies enable MHA2MLA to recover performance using only a small fraction (0.3% to 0.6%) of the data, significantly reducing inference costs while seamlessly integrating with compression techniques such as KV cache quantization. For example, the KV cache size of Llama2-7B is reduced by 92.19%, with only a 0.5% drop in LongBench performance.

arxiv情報

著者 Tao Ji,Bin Guo,Yuanbin Wu,Qipeng Guo,Lixing Shen,Zhan Chen,Xipeng Qiu,Qi Zhang,Tao Gui
発行日 2025-02-20 18:50:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Towards Economical Inference: Enabling DeepSeek’s Multi-Head Latent Attention in Any Transformer-based LLMs はコメントを受け付けていません

Revealing and Mitigating Over-Attention in Knowledge Editing

要約

大規模な言語モデルは、幅広いタスクで優れたパフォーマンスを実証していますが、トレーニングデータから学んだ知識が誤っているため、まだ望ましくないエラーを示しています。
これを回避するために、知識編集方法が現れて、非常に少ない割合のパラメーターを効率的に変更することにより、特定のモデルの知識を正確に編集しました。
%ただし、これらの方法は特異性障害の問題につながる可能性があります。編集された知識に関連するコンテンツがコンテキストで発生する場合、他の既存の知識を誤って破損する可能性があります。
ただし、これらの方法は、既存の知識と能力が編集のためにひどく劣化している特異性障害の問題につながる可能性があります。
私たちの予備は、特異性の障害が主に編集された知識に関連するエンティティに過度の注意スコアを割り当てるモデルの注意ヘッドに起因することを示しています。
このような注意ドリフトの問題を軽減するために、シンプルで効果的な方法選択的注意ドリフト制限を導入します}(SADR)。これは、知識編集プロセス中に追加の正則化項を導入して、注意量の変化の変化を制限し、編集されたものに過度に焦点を合わせることを妨げます
実在物。
頻繁に使用される5つの強力なLLMでの実験は、SADRが主要な知識編集タスクの特異性障害を大幅に軽減できる方法の有効性を示しています。

要約(オリジナル)

Large Language Models have demonstrated superior performance across a wide range of tasks, but they still exhibit undesirable errors due to incorrect knowledge learned from the training data. To avoid this, knowledge editing methods emerged to precisely edit the specific model knowledge via efficiently modifying a very small percentage of parameters. % However, those methods can lead to the problem of Specificity Failure: when the content related to the edited knowledge occurs in the context, it can inadvertently corrupt other pre-existing knowledge. However, those methods can lead to the problem of Specificity Failure, where the existing knowledge and capabilities are severely degraded due to editing. Our preliminary indicates that Specificity Failure primarily stems from the model’s attention heads assigning excessive attention scores to entities related to the edited knowledge, thereby unduly focusing on specific snippets within the context, which we denote as the Attention Drift phenomenon. To mitigate such Attention Drift issue, we introduce a simple yet effective method Selective Attention Drift Restriction}(SADR), which introduces an additional regularization term during the knowledge editing process to restrict changes in the attention weight distribution, thereby preventing undue focus on the edited entity. Experiments on five frequently used strong LLMs demonstrate the effectiveness of our method, where SADR can significantly mitigate Specificity Failure in the predominant knowledge editing tasks.

arxiv情報

著者 Pinzheng Wang,Zecheng Tang,Keyan Zhou,Juntao Li,Qiaoming Zhu,Min Zhang
発行日 2025-02-20 18:51:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Revealing and Mitigating Over-Attention in Knowledge Editing はコメントを受け付けていません

Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification

要約

サンプリングベースの検索は、テスト時間計算を利用するための単純なパラダイムであり、複数の候補応答を生成し、最適な応答を選択することを伴います。通常、モデルに各応答を正確性のために自己検証させることにより。
この論文では、サンプリングベースの検索を管理するスケーリングトレンドを研究します。
私たちの調査結果の中には、ランダムサンプリングと直接的な自己検証のみを使用して、サンプリングベースの検索のミニマリストの実装を単純にスケールアップするだけで、たとえば、Gemini V1.5 Proの推論能力を高める実用的な推論方法を提供することが提供されます。
人気のあるベンチマーク上のO1-PREVIEW。
サンプリングベースの検索のスケーラビリティを暗黙のスケーリングの現象に部分的に帰属させ、より大きな応答のプールをサンプリングすると、自己検証の精度が向上します。
さらに、テスト時間計算で自己検証機能を改善するための2つの有用な原則を特定します。(1)応答全体を比較すると、エラーと幻覚の位置に関する有用なシグナルを提供し、(2)異なるモデル出力スタイルが異なるコンテキストに役立ちます –
思考の鎖は推論に役立ちますが、検証するのが難しいです。
また、正確な検証を引き出すことができますが、フロンティアモデルは非常に弱いボックス外の検証機能を示し、これらの欠陥の進捗を測定するためのベンチマークを導入することがわかります。

要約(オリジナル)

Sampling-based search, a simple paradigm for utilizing test-time compute, involves generating multiple candidate responses and selecting the best one — typically by having models self-verify each response for correctness. In this paper, we study the scaling trends governing sampling-based search. Among our findings is that simply scaling up a minimalist implementation of sampling-based search, using only random sampling and direct self-verification, provides a practical inference method that, for example, elevates the reasoning capabilities of Gemini v1.5 Pro above that of o1-Preview on popular benchmarks. We partially attribute the scalability of sampling-based search to a phenomenon of implicit scaling, where sampling a larger pool of responses in turn improves self-verification accuracy. We further identify two useful principles for improving self-verification capabilities with test-time compute: (1) comparing across responses provides helpful signals about the locations of errors and hallucinations, and (2) different model output styles are useful for different contexts — chains of thought are useful for reasoning but harder to verify. We also find that, though accurate verification can be elicited, frontier models demonstrate remarkably weak out-of-box verification capabilities and introduce a benchmark to measure progress on these deficiencies.

arxiv情報

著者 Eric Zhao,Pranjal Awasthi,Sreenivas Gollapudi
発行日 2025-02-20 18:52:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification はコメントを受け付けていません

FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling

要約

投機的なサンプリングは、ドラフト – ヴェイロ化メカニズムを利用して前方パスごとに複数のトークンを生成することにより、大規模な言語モデル(LLM)の自動回帰生成プロセスを加速するための重要な手法として浮上しています。
最先端の投機的サンプリング方法は、印象的なレイヤー圧縮を実現するためのドラフトモデルとして単一層と言語モデリング(LM)ヘッドのみを使用しますが、Llama-などの大型語彙LLMの効率の向上は大幅に減少します。
128Kトークンの語彙を備えた3-8B。
これに対処するために、語彙空間圧縮によりドラフト候補の選択を最適化する周波数ランクの投機的なサンプリングフレームワークであるFR-Specを提示します。
検索ドラフトを周波数優先されたトークンサブセットに制約することにより、最終的な出力分布の等価性を確保しながら、LMヘッド計算オーバーヘッドを75%削減します。
複数のデータセットの実験では、最先端の投機的サンプリング方法EAGLE-2にわたって平均1.12 $ \ Times $ speedupを示しています。

要約(オリジナル)

Speculative sampling has emerged as an important technique for accelerating the auto-regressive generation process of large language models (LLMs) by utilizing a draft-then-verify mechanism to produce multiple tokens per forward pass. While state-of-the-art speculative sampling methods use only a single layer and a language modeling (LM) head as the draft model to achieve impressive layer compression, their efficiency gains are substantially reduced for large-vocabulary LLMs, such as Llama-3-8B with a vocabulary of 128k tokens. To address this, we present FR-Spec, a frequency-ranked speculative sampling framework that optimizes draft candidate selection through vocabulary space compression. By constraining the draft search to a frequency-prioritized token subset, our method reduces LM Head computation overhead by 75% while ensuring the equivalence of the final output distribution. Experiments across multiple datasets demonstrate an average of 1.12$\times$ speedup over the state-of-the-art speculative sampling method EAGLE-2.

arxiv情報

著者 Weilin Zhao,Tengyu Pan,Xu Han,Yudi Zhang,Ao Sun,Yuxiang Huang,Kaihuo Zhang,Weilun Zhao,Yuxuan Li,Jianyong Wang,Zhiyuan Liu,Maosong Sun
発行日 2025-02-20 18:58:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling はコメントを受け付けていません

Interpretable Text Embeddings and Text Similarity Explanation: A Primer

要約

テキストの埋め込みモデルとテキスト埋め込みモデルは、多くのAIおよびNLPシステム、特に検索を含むバックボーンです。
ただし、特に得られた類似性スコアを説明する際には、解釈可能性の課題が持続します。これは、透明性を必要とするアプリケーションにとって重要です。
この論文では、新しい研究分野であるこれらの類似性スコアの説明に特化した解釈可能性方法の構造化された概要を説明します。
方法の個々のアイデアとテクニックを研究し、テキストの埋め込みの解釈可能性を改善する可能性を評価し、予測された類似性を説明します。

要約(オリジナル)

Text embeddings and text embedding models are a backbone of many AI and NLP systems, particularly those involving search. However, interpretability challenges persist, especially in explaining obtained similarity scores, which is crucial for applications requiring transparency. In this paper, we give a structured overview of interpretability methods specializing in explaining those similarity scores, an emerging research area. We study the methods’ individual ideas and techniques, evaluating their potential for improving interpretability of text embeddings and explaining predicted similarities.

arxiv情報

著者 Juri Opitz,Lucas Möller,Andrianos Michail,Simon Clematide
発行日 2025-02-20 18:59:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Interpretable Text Embeddings and Text Similarity Explanation: A Primer はコメントを受け付けていません

LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention

要約

大規模な言語モデル(LLM)は、長いシーケンスの処理において顕著な可能性を示していますが、これらの長いコンテストモデルを効率的に提供することは、プレフィング段階の2次計算の複雑さと、デコード段階のKVキャッシュの大きなメモリフットプリントのために依然として困難なままです。

これらの問題に対処するために、ハイブリッドスパースの注意を払って長いシーケンスLLMを加速する効率的なシステムであるLserveを導入します。
この方法は、さまざまなハードウェアに優しい、構造化されたスパース性パターンを統合して、注意を積み、それほど重要ではないトークンでの計算がブロックでスキップされる単一のフレームワークに注意を整えることができます。
LSERVEは、長いコンテキストLLMの注意における静的および動的なスパースの互換性を示しています。
この設計により、これらの最適化を組み合わせることにより、乗法高速化が可能になります。
具体的には、注目ヘッドの半分を、充填段階とデコード段階の両方で、ほぼフリーストリーミングヘッドに変換します。
さらに、コンテキストの長さに関係なく、長いコンテキスト機能を維持するには、一定のKVページのみが必要であることがわかります。
次に、クエリ中心の類似性に基づいてKVページを動的にプルーネする階層KVページ選択ポリシーを設計します。
平均して、LSERVEはLLMの充填を最大2.9倍に加速し、VLLMで1.3-2.1xずつデコードし、長いコンテキストの精度を維持します。
コードはhttps://github.com/mit-han-lab/omniserveでリリースされます。

要約(オリジナル)

Large language models (LLMs) have shown remarkable potential in processing long sequences, yet efficiently serving these long-context models remains challenging due to the quadratic computational complexity of attention in the prefilling stage and the large memory footprint of the KV cache in the decoding stage. To address these issues, we introduce LServe, an efficient system that accelerates long-sequence LLM serving via hybrid sparse attention. This method unifies different hardware-friendly, structured sparsity patterns for both prefilling and decoding attention into a single framework, where computations on less important tokens are skipped block-wise. LServe demonstrates the compatibility of static and dynamic sparsity in long-context LLM attention. This design enables multiplicative speedups by combining these optimizations. Specifically, we convert half of the attention heads to nearly free streaming heads in both the prefilling and decoding stages. Additionally, we find that only a constant number of KV pages is required to preserve long-context capabilities, irrespective of context length. We then design a hierarchical KV page selection policy that dynamically prunes KV pages based on query-centric similarity. On average, LServe accelerates LLM prefilling by up to 2.9x and decoding by 1.3-2.1x over vLLM, maintaining long-context accuracy. Code is released at https://github.com/mit-han-lab/omniserve.

arxiv情報

著者 Shang Yang,Junxian Guo,Haotian Tang,Qinghao Hu,Guangxuan Xiao,Jiaming Tang,Yujun Lin,Zhijian Liu,Yao Lu,Song Han
発行日 2025-02-20 18:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DC, cs.LG, cs.PF | LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention はコメントを受け付けていません

An Open-Source Tool for Mapping War Destruction at Scale in Ukraine using Sentinel-1 Time Series

要約

詳細な戦争影響評価へのアクセスは、人道的組織が影響を受ける集団を効果的に支援するために重要です。
しかし、特に広範囲にわたる紛争において、地上の状況を包括的に理解することは困難です。
ここでは、武力紛争に起因する建物の損傷を推定するためのスケーラブルな方法を提示します。
合成開口レーダー画像時系列で機械学習モデルをトレーニングすることにより、建物レベルで確率的損傷推定値を生成し、既存の損傷評価とオープンビルディングフットプリントを活用します。
大規模な推論を可能にし、アクセシビリティを確保するために、Google Earthエンジンで実行する方法を結びます。
ユーザーは、自分のニーズに合わせて信頼区間を調整し、大規模な地域で戦争関連の損害の迅速かつ柔軟な評価を可能にすることができます。
2つの公開可能なダッシュボードを提供します。ウクライナダメージエクスプローラーは、事前計算された推定値を動的に表示し、メソッドを実行してカスタムマップを生成するための迅速なダメージマッピングツールです。

要約(オリジナル)

Access to detailed war impact assessments is crucial for humanitarian organizations to assist affected populations effectively. However, maintaining a comprehensive understanding of the situation on the ground is challenging, especially in widespread and prolonged conflicts. Here we present a scalable method for estimating building damage resulting from armed conflicts. By training a machine learning model on Synthetic Aperture Radar image time series, we generate probabilistic damage estimates at the building level, leveraging existing damage assessments and open building footprints. To allow large-scale inference and ensure accessibility, we tie our method to run on Google Earth Engine. Users can adjust confidence intervals to suit their needs, enabling rapid and flexible assessments of war-related damage across large areas. We provide two publicly accessible dashboards: a Ukraine Damage Explorer to dynamically view our precomputed estimates, and a Rapid Damage Mapping Tool to run our method and generate custom maps.

arxiv情報

著者 Olivier Dietrich,Torben Peters,Vivien Sainte Fare Garnot,Valerie Sticher,Thao Ton-That Whelan,Konrad Schindler,Jan Dirk Wegner
発行日 2025-02-20 11:23:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | An Open-Source Tool for Mapping War Destruction at Scale in Ukraine using Sentinel-1 Time Series はコメントを受け付けていません

Single-image Reflectance and Transmittance Estimation from Any Flatbed Scanner

要約

フラットベッドスキャナーは、高解像度の単像材料キャプチャのための有望なデバイスとして浮上しています。
ただし、既存のアプローチでは、特定のハイエンドデバイスでのみ利用できる均一な拡散照明など、非常に特定の条件を想定しており、スケーラビリティとコストを妨げます。
対照的に、この作業では、陰謀的な画像分解に触発された方法を導入します。これは、シェーディングと鏡面性の両方を正確に削除し、フラットベッドスキャナーでキャプチャを効果的に許可します。
さらに、不透明度と透過率の推定、完全な材料の外観(SVBSDF)の重要なコンポーネントの推定を伴う単一イメージ材料反射率キャプチャに関する以前の作業を拡張し、非常に高い解像度と精度でフラットベッドスキャナーでキャプチャされた材料の結果を改善します。

要約(オリジナル)

Flatbed scanners have emerged as promising devices for high-resolution, single-image material capture. However, existing approaches assume very specific conditions, such as uniform diffuse illumination, which are only available in certain high-end devices, hindering their scalability and cost. In contrast, in this work, we introduce a method inspired by intrinsic image decomposition, which accurately removes both shading and specularity, effectively allowing captures with any flatbed scanner. Further, we extend previous work on single-image material reflectance capture with the estimation of opacity and transmittance, critical components of full material appearance (SVBSDF), improving the results for any material captured with a flatbed scanner, at a very high resolution and accuracy

arxiv情報

著者 Carlos Rodriguez-Pardo,David Pascual-Hernandez,Javier Rodriguez-Vazquez,Jorge Lopez-Moreno,Elena Garces
発行日 2025-02-20 11:33:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 68U05, 68U10, cs.AI, cs.CV, cs.GR, cs.LG, I.2.6 | Single-image Reflectance and Transmittance Estimation from Any Flatbed Scanner はコメントを受け付けていません