Can We Edit LLMs for Long-Tail Biomedical Knowledge?

要約

知識編集は、内部知識を変更することにより、大規模な言語モデル(LLMS)を更新するための効果的なアプローチとして浮上しています。
ただし、生物医学のドメインへの適用は、まれで頻繁な情報が一般的である生物医学的知識の長期尾の分布により、独自の課題に直面しています。
この論文では、最初の包括的な研究を実施して、長期尾の生物医学的知識を編集するための知識編集方法の有効性を調査します。
我々の結果は、既存の編集方法は長期尾の生物医学的知識に対するLLMSのパフォーマンスを向上させることができるが、編集後も長期尾の知識に関するパフォーマンスが高周波の人気知識よりも劣っていることを示しています。
私たちのさらなる分析により、長期尾の生物医学的知識には、1つの主題と関係が複数のオブジェクトにリンクするか、1対多数の知識が含まれていることが明らかになりました。
この1対多くの知識のこの高い有病率は、LLMSの長期尾の生物医学的知識の理解を改善する際の知識編集の有効性を制限し、このパフォーマンスギャップを埋めるためのカスタマイズされた戦略の必要性を強調しています。

要約(オリジナル)

Knowledge editing has emerged as an effective approach for updating large language models (LLMs) by modifying their internal knowledge. However, their application to the biomedical domain faces unique challenges due to the long-tailed distribution of biomedical knowledge, where rare and infrequent information is prevalent. In this paper, we conduct the first comprehensive study to investigate the effectiveness of knowledge editing methods for editing long-tail biomedical knowledge. Our results indicate that, while existing editing methods can enhance LLMs’ performance on long-tail biomedical knowledge, their performance on long-tail knowledge remains inferior to that on high-frequency popular knowledge, even after editing. Our further analysis reveals that long-tail biomedical knowledge contains a significant amount of one-to-many knowledge, where one subject and relation link to multiple objects. This high prevalence of one-to-many knowledge limits the effectiveness of knowledge editing in improving LLMs’ understanding of long-tail biomedical knowledge, highlighting the need for tailored strategies to bridge this performance gap.

arxiv情報

著者 Xinhao Yi,Jake Lever,Kevin Bryson,Zaiqiao Meng
発行日 2025-04-14 17:08:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Can We Edit LLMs for Long-Tail Biomedical Knowledge? はコメントを受け付けていません

LLM Can be a Dangerous Persuader: Empirical Study of Persuasion Safety in Large Language Models

要約

大規模な言語モデル(LLM)の最近の進歩により、人間レベルの説得能力にアプローチすることができました。
しかし、このような可能性は、LLM主導の説得の安全リスク、特に操作、欺ception、脆弱性の搾取、および他の多くの有害な戦術による非倫理的な影響の可能性についての懸念も提起します。
この作業では、2つの重要な側面を通じてLLM説得の安全性の体系的な調査を提示します。(1)LLMSが非倫理的な説得タスクを適切に拒否し、実行中の非倫理的戦略を避け、最初の説得目標が倫理的に中立に見える場合を含む、(2)人格の特徴や外部圧力に影響を与える要因に影響を与えるかなど。
この目的のために、3つの段階、すなわち説得シーンの作成、説得力のある会話シミュレーション、説得の安全性評価で構成される説得の安全性の評価のための最初の包括的なフレームワークであるPersuSafetyを紹介します。
Persusafetyは、6つの多様な非倫理的説得のトピックと15の一般的な非倫理的戦略をカバーしています。
広く使用されている8つのLLMにわたる広範な実験を通じて、有害な説得タスクの特定に失敗したり、さまざまな非倫理的説得戦略を活用したりするなど、ほとんどのLLMで重大な安全性の懸念が観察されます。
私たちの研究では、説得などのプログレッシブおよび目標主導の会話の安全性の整合を改善するためにより多くの注意が必要です。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) have enabled them to approach human-level persuasion capabilities. However, such potential also raises concerns about the safety risks of LLM-driven persuasion, particularly their potential for unethical influence through manipulation, deception, exploitation of vulnerabilities, and many other harmful tactics. In this work, we present a systematic investigation of LLM persuasion safety through two critical aspects: (1) whether LLMs appropriately reject unethical persuasion tasks and avoid unethical strategies during execution, including cases where the initial persuasion goal appears ethically neutral, and (2) how influencing factors like personality traits and external pressures affect their behavior. To this end, we introduce PersuSafety, the first comprehensive framework for the assessment of persuasion safety which consists of three stages, i.e., persuasion scene creation, persuasive conversation simulation, and persuasion safety assessment. PersuSafety covers 6 diverse unethical persuasion topics and 15 common unethical strategies. Through extensive experiments across 8 widely used LLMs, we observe significant safety concerns in most LLMs, including failing to identify harmful persuasion tasks and leveraging various unethical persuasion strategies. Our study calls for more attention to improve safety alignment in progressive and goal-driven conversations such as persuasion.

arxiv情報

著者 Minqian Liu,Zhiyang Xu,Xinyi Zhang,Heajun An,Sarvech Qadir,Qi Zhang,Pamela J. Wisniewski,Jin-Hee Cho,Sang Won Lee,Ruoxi Jia,Lifu Huang
発行日 2025-04-14 17:20:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC | LLM Can be a Dangerous Persuader: Empirical Study of Persuasion Safety in Large Language Models はコメントを受け付けていません

How Do Recommendation Models Amplify Popularity Bias? An Analysis from the Spectral Perspective

要約

推奨システム(RS)は、多くの場合、人気バイアスに悩まされています。
典型的に長尾のデータセットで推奨モデルをトレーニングするとき、モデルはこのバイアスを継承するだけでなく、しばしば悪化させる傾向があり、その結果、推奨リストに人気のあるアイテムが過剰に表現されます。
この研究は、この現象の根本原因を暴露するために包括的な経験的および理論的分析を実施し、2つのコアの洞察をもたらします。1)アイテムの人気は、推奨モデルによって予測されるスコアマトリックスの主要なスペクトルで記憶されます。
2)寸法崩壊現象は、主要なスペクトルの相対的な顕著性を増幅し、それによって人気バイアスを強化します。
これらの洞察に基づいて、私たちは、主要な特異値の大きさを罰するために、スペクトルノーマイライザーを活用する新しい紛争戦略を提案します。
スコアマトリックスのスペクトルプロパティを活用することにより、スペクトル標準の計算を促進するための効率的なアルゴリズムを開発しました。
提案された方法の優位性を検証するために、7つの現実世界のデータセットと3つのテストパラダイムにわたる広範な実験が実施されています。

要約(オリジナル)

Recommendation Systems (RS) are often plagued by popularity bias. When training a recommendation model on a typically long-tailed dataset, the model tends to not only inherit this bias but often exacerbate it, resulting in over-representation of popular items in the recommendation lists. This study conducts comprehensive empirical and theoretical analyses to expose the root causes of this phenomenon, yielding two core insights: 1) Item popularity is memorized in the principal spectrum of the score matrix predicted by the recommendation model; 2) The dimension collapse phenomenon amplifies the relative prominence of the principal spectrum, thereby intensifying the popularity bias. Building on these insights, we propose a novel debiasing strategy that leverages a spectral norm regularizer to penalize the magnitude of the principal singular value. We have developed an efficient algorithm to expedite the calculation of the spectral norm by exploiting the spectral property of the score matrix. Extensive experiments across seven real-world datasets and three testing paradigms have been conducted to validate the superiority of the proposed method.

arxiv情報

著者 Siyi Lin,Chongming Gao,Jiawei Chen,Sheng Zhou,Binbin Hu,Yan Feng,Chun Chen,Can Wang
発行日 2025-04-14 17:40:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | How Do Recommendation Models Amplify Popularity Bias? An Analysis from the Spectral Perspective はコメントを受け付けていません

Weight Ensembling Improves Reasoning in Language Models

要約

推論モデルのトレーニング中に発生する障害モードを調査します。そこでは、世代の多様性が崩壊し始め、最適ではないテスト時間スケーリングにつながります。
特に、パス@1レートは、監視されたFinetuning(SFT)中に確実に改善されますが、パス@Kは急速に劣化します。
驚くべきことに、最新のSFTチェックポイントの重みを早期チェックポイント(Wise-ftとも呼ばれる)を補間するという単純な介入は、パス@Kもほぼ完全に回復し、パス@1を改善します。
Wise-ftバリアントは、より良いテスト時間スケーリング(Best@K、多数決)を達成し、強化学習によってさらに調整された場合、より少ないデータで優れた結果を達成します。
最後に、Wise-FTは、温度スケーリングなどの多様性を誘発するデコード戦略によってのみ達成できない補完的なパフォーマンスの向上を提供することがわかります。
テスト分布に対するPass@1の期待と分散に関して、Pass@Kのバイアス分散トレードオフを正式化します。
Wise-ftはバイアスと分散を同時に減らすことができ、温度スケーリングは本質的にバイアスと分散の間のトレードオフを減らすことができます。

要約(オリジナル)

We investigate a failure mode that arises during the training of reasoning models, where the diversity of generations begins to collapse, leading to suboptimal test-time scaling. Notably, the Pass@1 rate reliably improves during supervised finetuning (SFT), but Pass@k rapidly deteriorates. Surprisingly, a simple intervention of interpolating the weights of the latest SFT checkpoint with an early checkpoint, otherwise known as WiSE-FT, almost completely recovers Pass@k while also improving Pass@1. The WiSE-FT variant achieves better test-time scaling (Best@k, majority vote) and achieves superior results with less data when tuned further by reinforcement learning. Finally, we find that WiSE-FT provides complementary performance gains that cannot be achieved only through diversity-inducing decoding strategies, like temperature scaling. We formalize a bias-variance tradeoff of Pass@k with respect to the expectation and variance of Pass@1 over the test distribution. We find that WiSE-FT can reduce bias and variance simultaneously, while temperature scaling inherently trades-off between bias and variance.

arxiv情報

著者 Xingyu Dang,Christina Baek,Kaiyue Wen,Zico Kolter,Aditi Raghunathan
発行日 2025-04-14 17:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Weight Ensembling Improves Reasoning in Language Models はコメントを受け付けていません

Trade-offs in Privacy-Preserving Eye Tracking through Iris Obfuscation: A Benchmarking Study

要約

ハードウェア、コンピューターグラフィックス、AIの最近の開発により、AR/VRヘッドマウントディスプレイ(HMD)がスマートフォンやタブレットなどの日常的なデバイスになることができるようになります。
HMDS内のアイトラッカーは、視線ベースの研究と相互作用を促進することが可能であるため、このようなセットアップに特別な機会を提供します。
ただし、ユーザーの視線情報を見積もるには、多くの場合、ユーザー認証のためのゴールドスタンダード生体認証と見なされるIRISテクスチャを含む生の画像とビデオが必要であり、プライバシーの懸念を引き起こします。
視線追跡コミュニティでの以前の研究は、視線の推定などのユーティリティタスクを正確に保持しながら、虹彩テクスチャの難読化に焦点を当てていました。
これらの試みにもかかわらず、最先端のアプローチを評価する包括的なベンチマークはありません。
このペーパーでは、すべてを考慮して、ぼやけ、ノイシング、ダウンサンプリング、ゴムシートモデル、およびアイリススタイルの転送をベンチマークして、ユーザーのアイデンティティを難読化し、2つのデータセットに対する輸送攻撃のリスクに対する画質、プライバシー、ユーティリティ、リスクに対する影響を比較します。
私たちは、ユーティリティタスクとして目のセグメンテーションと視線の推定を使用し、プライバシー保護の尺度としてIRIS認識の精度の低下、および攻撃のリスクを推定するための誤った受け入れ率を使用します。
私たちの実験は、ぼやけやノイズなどの標準的な画像処理方法が、深い学習ベースのタスクにわずかな影響を与えることを示しています。
ダウンサンプリング、ゴムシートモデル、およびIRISスタイルの転送は、ユーザー識別子の隠れ、IRISスタイルの転送に効果的であり、計算コストが高くなり、両方のユーティリティタスクで他の人を上回り、スプーフィング攻撃に対してより弾力性があります。
私たちの分析は、プライバシー、ユーティリティ、および計算の負担をバランスさせるための普遍的な最適なアプローチがないことを示しています。
したがって、実務家は、各アプローチの長所と短所、および最適なプライバシー効果のトレードオフに到達するために、それらの可能な組み合わせを考慮することをお勧めします。

要約(オリジナル)

Recent developments in hardware, computer graphics, and AI may soon enable AR/VR head-mounted displays (HMDs) to become everyday devices like smartphones and tablets. Eye trackers within HMDs provide a special opportunity for such setups as it is possible to facilitate gaze-based research and interaction. However, estimating users’ gaze information often requires raw eye images and videos that contain iris textures, which are considered a gold standard biometric for user authentication, and this raises privacy concerns. Previous research in the eye-tracking community focused on obfuscating iris textures while keeping utility tasks such as gaze estimation accurate. Despite these attempts, there is no comprehensive benchmark that evaluates state-of-the-art approaches. Considering all, in this paper, we benchmark blurring, noising, downsampling, rubber sheet model, and iris style transfer to obfuscate user identity, and compare their impact on image quality, privacy, utility, and risk of imposter attack on two datasets. We use eye segmentation and gaze estimation as utility tasks, and reduction in iris recognition accuracy as a measure of privacy protection, and false acceptance rate to estimate risk of attack. Our experiments show that canonical image processing methods like blurring and noising cause a marginal impact on deep learning-based tasks. While downsampling, rubber sheet model, and iris style transfer are effective in hiding user identifiers, iris style transfer, with higher computation cost, outperforms others in both utility tasks, and is more resilient against spoof attacks. Our analyses indicate that there is no universal optimal approach to balance privacy, utility, and computation burden. Therefore, we recommend practitioners consider the strengths and weaknesses of each approach, and possible combinations of those to reach an optimal privacy-utility trade-off.

arxiv情報

著者 Mengdi Wang,Efe Bozkir,Enkelejda Kasneci
発行日 2025-04-14 14:29:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Trade-offs in Privacy-Preserving Eye Tracking through Iris Obfuscation: A Benchmarking Study はコメントを受け付けていません

Real-time Free-view Human Rendering from Sparse-view RGB Videos using Double Unprojected Textures

要約

スパースビューRGB入力からのリアルタイムフリービューのヒューマンレンダリングは、センサー不足と厳しい時間予算のために困難な作業です。
効率を確保するために、最近の方法は、テクスチャスペースで動作する2D CNNを活用して、プリミティブのレンダリングを学習します。
ただし、彼らは幾何学と外観を共同で学習するか、ジオメトリ推定のためのまばらな画像情報を完全に無視し、目に見えない体のポーズに対する視覚的な品質と堅牢性を大幅に害します。
これらの問題に対処するために、コアデンタングルでは、外観合成からの粗い幾何学的変形推定をコアしている二重の未処理のテクスチャを提示し、堅牢でフォトリアリスティックな4Kレンダリングをリアルタイムで可能にします。
具体的には、最初に、最初の未測定のテクスチャーからヒトテンプレートの粗い変形を推定する新しい画像条件付きテンプレート変形ネットワークを導入します。
この更新されたジオメトリは、2番目のより正確なテクスチャの展開を適用するために使用されます。
結果として得られるテクスチャマップは、アーティファクトが少なく、入力ビューとより良い整合性があります。これは、Gaussian Splatsに代表されるより細かいレベルのジオメトリと外観の学習に役立ちます。
定量的および定性的実験における提案された方法の有効性と効率を検証し、他の最先端の方法を大幅に上回ります。
プロジェクトページ:https://vcai.mpi-inf.mpg.de/projects/dut/

要約(オリジナル)

Real-time free-view human rendering from sparse-view RGB inputs is a challenging task due to the sensor scarcity and the tight time budget. To ensure efficiency, recent methods leverage 2D CNNs operating in texture space to learn rendering primitives. However, they either jointly learn geometry and appearance, or completely ignore sparse image information for geometry estimation, significantly harming visual quality and robustness to unseen body poses. To address these issues, we present Double Unprojected Textures, which at the core disentangles coarse geometric deformation estimation from appearance synthesis, enabling robust and photorealistic 4K rendering in real-time. Specifically, we first introduce a novel image-conditioned template deformation network, which estimates the coarse deformation of the human template from a first unprojected texture. This updated geometry is then used to apply a second and more accurate texture unprojection. The resulting texture map has fewer artifacts and better alignment with input views, which benefits our learning of finer-level geometry and appearance represented by Gaussian splats. We validate the effectiveness and efficiency of the proposed method in quantitative and qualitative experiments, which significantly surpasses other state-of-the-art methods. Project page: https://vcai.mpi-inf.mpg.de/projects/DUT/

arxiv情報

著者 Guoxing Sun,Rishabh Dabral,Heming Zhu,Pascal Fua,Christian Theobalt,Marc Habermann
発行日 2025-04-14 14:38:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Real-time Free-view Human Rendering from Sparse-view RGB Videos using Double Unprojected Textures はコメントを受け付けていません

LMFormer: Lane based Motion Prediction Transformer

要約

モーション予測は、自律運転において重要な役割を果たします。
この研究では、軌道予測タスクのためのレーン対応トランスネットワークであるLMFormerを示しています。
以前の研究とは対照的に、私たちの研究は、車線に動的に優先順位を付けるための簡単なメカニズムを提供し、そのようなメカニズムがネットワークの学習行動に説明可能性を導入することを示しています。
さらに、LMFormerは、レーン構造の長距離依存関係を学習するために、交差点、レーンマージ、およびレーンスプリットでレーン接続情報を使用します。
さらに、予測された軌道を改良するという問題に対処し、積み重ねられた変圧器層を介した反復精製の効率的な方法を提案します。
ベンチマークについては、NuscenesデータセットのLMFormerを評価し、複数のメトリックでSOTAパフォーマンスを達成することを実証します。
さらに、ディープシナリオデータセットは、クロスダタセットネットワークのパフォーマンスを示すだけでなく、LMFormerの統一機能も示して、複数のデータセットでトレーニングし、パフォーマンスを向上させます。

要約(オリジナル)

Motion prediction plays an important role in autonomous driving. This study presents LMFormer, a lane-aware transformer network for trajectory prediction tasks. In contrast to previous studies, our work provides a simple mechanism to dynamically prioritize the lanes and shows that such a mechanism introduces explainability into the learning behavior of the network. Additionally, LMFormer uses the lane connection information at intersections, lane merges, and lane splits, in order to learn long-range dependency in lane structure. Moreover, we also address the issue of refining the predicted trajectories and propose an efficient method for iterative refinement through stacked transformer layers. For benchmarking, we evaluate LMFormer on the nuScenes dataset and demonstrate that it achieves SOTA performance across multiple metrics. Furthermore, the Deep Scenario dataset is used to not only illustrate cross-dataset network performance but also the unification capabilities of LMFormer to train on multiple datasets and achieve better performance.

arxiv情報

著者 Harsh Yadav,Maximilian Schaefer,Kun Zhao,Tobias Meisen
発行日 2025-04-14 14:43:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | LMFormer: Lane based Motion Prediction Transformer はコメントを受け付けていません

DiffMOD: Progressive Diffusion Point Denoising for Moving Object Detection in Remote Sensing

要約

リモートセンシングの移動オブジェクト検出(MOD)は、低解像度、非常に小さなオブジェクトサイズ、および複雑なノイズ干渉によって大幅に課せられます。
現在のディープラーニングベースのMODメソッドは、オブジェクト間および時間的フレーム間の柔軟な情報相互作用を制限する確率密度推定に依存しています。
高次のオブジェクト間および時間的関係を柔軟にキャプチャするために、リモートセンシングでポイントベースのMODを提案します。
拡散モデルに触発されたネットワーク最適化は、移動するオブジェクトセンターをまばらなノイズの多いポイントから繰り返し回復するプログレッシブ除去プロセスとして定式化されています。
具体的には、バックボーン出力からの散乱特徴を後続の処理のための原子単位としてサンプリングしますが、グローバルな特徴埋め込みは、スパースポイント機能の限られたカバレッジを補正するために集計されています。
空間的相対位置とセマンティックアフィニティをモデル化することにより、空間的関係集約の注意は、オブジェクト表現を強化するためにポイントレベルの特徴間の高次相互作用を可能にするように設計されています。
時間的一貫性を高めるために、一時的な伝播とグローバル融合モジュールが設計されており、これにより、堅牢なクロスフレーム特徴統合のための暗黙のメモリ推論メカニズムを活用します。
プログレッシブ除去プロセスに合わせて、各除去レベルで専門学習目標を確立するプログレッシブミンク最適輸送割り当て戦略を提案します。
さらに、不足している損失関数を導入して、顕著なオブジェクトの周りの除去されたポイントのクラスタリング傾向に対抗します。
RSDATAリモートセンシングMODデータセットでの実験は、散乱ポイント除去に基づくMODメソッドが、スパース移動オブジェクト間の潜在的な関係をより効果的に調査し、検出能力と時間的一貫性を改善できることを示しています。

要約(オリジナル)

Moving object detection (MOD) in remote sensing is significantly challenged by low resolution, extremely small object sizes, and complex noise interference. Current deep learning-based MOD methods rely on probability density estimation, which restricts flexible information interaction between objects and across temporal frames. To flexibly capture high-order inter-object and temporal relationships, we propose a point-based MOD in remote sensing. Inspired by diffusion models, the network optimization is formulated as a progressive denoising process that iteratively recovers moving object centers from sparse noisy points. Specifically, we sample scattered features from the backbone outputs as atomic units for subsequent processing, while global feature embeddings are aggregated to compensate for the limited coverage of sparse point features. By modeling spatial relative positions and semantic affinities, Spatial Relation Aggregation Attention is designed to enable high-order interactions among point-level features for enhanced object representation. To enhance temporal consistency, the Temporal Propagation and Global Fusion module is designed, which leverages an implicit memory reasoning mechanism for robust cross-frame feature integration. To align with the progressive denoising process, we propose a progressive MinK optimal transport assignment strategy that establishes specialized learning objectives at each denoising level. Additionally, we introduce a missing loss function to counteract the clustering tendency of denoised points around salient objects. Experiments on the RsData remote sensing MOD dataset show that our MOD method based on scattered point denoising can more effectively explore potential relationships between sparse moving objects and improve the detection capability and temporal consistency.

arxiv情報

著者 Jinyue Zhang,Xiangrong Zhang,Zhongjian Huang,Tianyang Zhang,Yifei Jiang,Licheng Jiao
発行日 2025-04-14 14:44:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T10, cs.CV, I.4.8 | DiffMOD: Progressive Diffusion Point Denoising for Moving Object Detection in Remote Sensing はコメントを受け付けていません

Distilling Textual Priors from LLM to Efficient Image Fusion

要約

マルチモダリティ画像Fusionは、複数のソース入力からの単一の包括的な画像を合成することを目的としています。
CNNやGANなどの従来のアプローチは、効率を提供しますが、低品質または複雑な入力を処理するのに苦労しています。
テキスト誘導方法の最近の進歩は、これらの制限を克服するために大規模なモデルのプライアーを活用していますが、メモリと推論時間の両方で重要な計算オーバーヘッドを犠牲にしています。
この課題に対処するために、大規模なモデルの事前に蒸留するための新しいフレームワークを提案し、モデルサイズを劇的に削減しながら、推論中のテキストガイダンスの必要性を排除します。
当社のフレームワークは、教師の学生アーキテクチャを利用しています。教師ネットワークには、大規模なモデルが組み込まれ、この知識を調整された蒸留プロセスを介して小規模な学生ネットワークに転送します。
さらに、空間チャネルの交差融合モジュールを導入して、空間的ディメンションとチャネル次元の両方でテキストプライアーを活用するモデルの能力を高めます。
私たちの方法は、計算効率と融合品質の間の好ましいトレードオフを達成します。
教師ネットワークのパラメーターと推論時間の10%のみを必要とする蒸留ネットワークは、そのパフォーマンスの90%を保持し、既存のSOTAメソッドを上回ります。
広範な実験は、私たちのアプローチの有効性を示しています。
実装は、オープンソースリソースとして公開されます。

要約(オリジナル)

Multi-modality image fusion aims to synthesize a single, comprehensive image from multiple source inputs. Traditional approaches, such as CNNs and GANs, offer efficiency but struggle to handle low-quality or complex inputs. Recent advances in text-guided methods leverage large model priors to overcome these limitations, but at the cost of significant computational overhead, both in memory and inference time. To address this challenge, we propose a novel framework for distilling large model priors, eliminating the need for text guidance during inference while dramatically reducing model size. Our framework utilizes a teacher-student architecture, where the teacher network incorporates large model priors and transfers this knowledge to a smaller student network via a tailored distillation process. Additionally, we introduce spatial-channel cross-fusion module to enhance the model’s ability to leverage textual priors across both spatial and channel dimensions. Our method achieves a favorable trade-off between computational efficiency and fusion quality. The distilled network, requiring only 10% of the parameters and inference time of the teacher network, retains 90% of its performance and outperforms existing SOTA methods. Extensive experiments demonstrate the effectiveness of our approach. The implementation will be made publicly available as an open-source resource.

arxiv情報

著者 Ran Zhang,Xuanhua He,Ke Cao,Liu Liu,Li Zhang,Man Zhou,Jie Zhang
発行日 2025-04-14 14:47:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Distilling Textual Priors from LLM to Efficient Image Fusion はコメントを受け付けていません

Zero-shot Autonomous Microscopy for Scalable and Intelligent Characterization of 2D Materials

要約

原子スケール材料の特性評価では、伝統的に、数ヶ月から長年の専門的なトレーニングを行う人間の専門家が必要です。
訓練された人間のオペレーターであっても、2次元(2D)構造などの新たに発見された材料を調べる場合、正確で信頼できる特性評価は依然として困難です。
このボトルネックは、大規模なトレーニングデータセットを必要とせずに研究目標を理解できる完全に自律的な実験システムの需要を促進します。
この作業では、2D材料の完全に自律的でゼロショットの特性評価を可能にする基礎モデルを統合するエンドツーエンドのフレームワークである、アトミック(光学顕微鏡とインテリジェントな特性評価の自律技術)を提示します。
当社のシステムは、Vision Foundationモデル(つまり、すべてのモデル)、大規模な言語モデル(つまり、CHATGPT)、監視なしクラスタリング、およびトポロジ分析を統合して、顕微鏡制御、サンプルスキャン、画像セグメンテーション、およびインテリジェントな分析を自動化し、追加トレーニングの必要性を排除します。
典型的なMOS2サンプルを分析するとき、私たちのアプローチは、単一層識別のために99.7%のセグメンテーション精度を達成します。これは、人間の専門家と同等です。
さらに、統合されたモデルは、人間の目と同一視するのが難しい粒の境界スリットを検出できます。
さらに、システムは、フォーカス、色温度の変動、曝露の変動などのさまざまな条件にもかかわらず、堅牢な精度を保持します。
グラフェン、MOS2、WSE2を含む一般的な2D材料の広範なスペクトルに適用できます。SNSEは、化学蒸気堆積または機械的剥離を介して製造されたかどうかに関係していません。
この作業は、自律分析を実現するための基礎モデルの実装を表し、ナノスケール材料の研究へのアプローチを根本的に変換するスケーラブルでデータ効率の高い特性評価パラダイムを確立します。

要約(オリジナル)

Characterization of atomic-scale materials traditionally requires human experts with months to years of specialized training. Even for trained human operators, accurate and reliable characterization remains challenging when examining newly discovered materials such as two-dimensional (2D) structures. This bottleneck drives demand for fully autonomous experimentation systems capable of comprehending research objectives without requiring large training datasets. In this work, we present ATOMIC (Autonomous Technology for Optical Microscopy & Intelligent Characterization), an end-to-end framework that integrates foundation models to enable fully autonomous, zero-shot characterization of 2D materials. Our system integrates the vision foundation model (i.e., Segment Anything Model), large language models (i.e., ChatGPT), unsupervised clustering, and topological analysis to automate microscope control, sample scanning, image segmentation, and intelligent analysis through prompt engineering, eliminating the need for additional training. When analyzing typical MoS2 samples, our approach achieves 99.7% segmentation accuracy for single layer identification, which is equivalent to that of human experts. In addition, the integrated model is able to detect grain boundary slits that are challenging to identify with human eyes. Furthermore, the system retains robust accuracy despite variable conditions including defocus, color temperature fluctuations, and exposure variations. It is applicable to a broad spectrum of common 2D materials-including graphene, MoS2, WSe2, SnSe-regardless of whether they were fabricated via chemical vapor deposition or mechanical exfoliation. This work represents the implementation of foundation models to achieve autonomous analysis, establishing a scalable and data-efficient characterization paradigm that fundamentally transforms the approach to nanoscale materials research.

arxiv情報

著者 Jingyun Yang,Ruoyan Avery Yin,Chi Jiang,Yuepeng Hu,Xiaokai Zhu,Xingjian Hu,Sutharsika Kumar,Xiao Wang,Xiaohua Zhai,Keran Rong,Yunyue Zhu,Tianyi Zhang,Zongyou Yin,Jing Kong,Neil Zhenqiang Gong,Zhichu Ren,Haozhe Wang
発行日 2025-04-14 14:49:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mes-hall, cond-mat.mtrl-sci, cs.AI, cs.CV, cs.LG | Zero-shot Autonomous Microscopy for Scalable and Intelligent Characterization of 2D Materials はコメントを受け付けていません