From System 1 to System 2: A Survey of Reasoning Large Language Models

要約

人間レベルの知性を達成するには、高速で直感的なシステム1からより遅く、より意図的なシステム2の推論への移行を改善する必要があります。
システム1は迅速でヒューリスティックな決定に優れていますが、システム2は、より正確な判断とバイアスの減少のために論理的推論に依存しています。
基本的な大規模な言語モデル(LLM)は、迅速な意思決定に優れていますが、真のシステム2思考の特徴的な段階的な分析をまだ完全に受け入れていないため、複雑な推論の深さがありません。
最近、OpenaiのO1/O3やDeepseekのR1などのLLMSは、数学やコーディングなどの分野での専門家レベルのパフォーマンスを実証し、システム2の意図的な推論を密接に模倣し、人間のような認知能力を示しています。
この調査は、基礎LMSの進捗状況とSystem 2 Technologiesの早期開発の簡単な概要から始まり、LLMSの推論の方法を組み合わせた方法を探ります。
次に、推論LLMSを構築し、機能の分析方法、高度な推論を可能にするコア方法、およびさまざまな推論LLMの進化について説明します。
さらに、Reasoning Benchmarksの概要を提供し、代表的なReasoning LLMSのパフォーマンスの詳細な比較を提供します。
最後に、LLMSを推論するための有望な方向性を探り、リアルタイム\ href {https://github.com/zzli2022/awesome-slow-rason-system} {githubリポジトリ} {githubリポジトリ}を追跡します。
この調査が、この急速に進化する分野での革新を促し、進歩を促進するための貴重なリソースとして役立つことを願っています。

要約(オリジナル)

Achieving human-level intelligence requires refining the transition from the fast, intuitive System 1 to the slower, more deliberate System 2 reasoning. While System 1 excels in quick, heuristic decisions, System 2 relies on logical reasoning for more accurate judgments and reduced biases. Foundational Large Language Models (LLMs) excel at fast decision-making but lack the depth for complex reasoning, as they have not yet fully embraced the step-by-step analysis characteristic of true System 2 thinking. Recently, reasoning LLMs like OpenAI’s o1/o3 and DeepSeek’s R1 have demonstrated expert-level performance in fields such as mathematics and coding, closely mimicking the deliberate reasoning of System 2 and showcasing human-like cognitive abilities. This survey begins with a brief overview of the progress in foundational LLMs and the early development of System 2 technologies, exploring how their combination has paved the way for reasoning LLMs. Next, we discuss how to construct reasoning LLMs, analyzing their features, the core methods enabling advanced reasoning, and the evolution of various reasoning LLMs. Additionally, we provide an overview of reasoning benchmarks, offering an in-depth comparison of the performance of representative reasoning LLMs. Finally, we explore promising directions for advancing reasoning LLMs and maintain a real-time \href{https://github.com/zzli2022/Awesome-Slow-Reason-System}{GitHub Repository} to track the latest developments. We hope this survey will serve as a valuable resource to inspire innovation and drive progress in this rapidly evolving field.

arxiv情報

著者 Zhong-Zhi Li,Duzhen Zhang,Ming-Liang Zhang,Jiaxin Zhang,Zengyan Liu,Yuxuan Yao,Haotian Xu,Junhao Zheng,Pei-Jie Wang,Xiuyi Chen,Yingying Zhang,Fei Yin,Jiahua Dong,Zhijiang Guo,Le Song,Cheng-Lin Liu
発行日 2025-02-24 18:50:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | From System 1 to System 2: A Survey of Reasoning Large Language Models はコメントを受け付けていません

The Geometry of Refusal in Large Language Models: Concept Cones and Representational Independence

要約

大規模な言語モデル(LLM)の安全性の配置は、敵対的に作られた入力を介して回避できますが、これらの攻撃が安全障壁をバイパスするメカニズムは、よく理解されていないままです。
以前の研究では、モデルのアクティベーションスペースの単一の拒否方向が、LLMがリクエストを拒否するかどうかを決定することを示唆しています。
この研究では、表現工学への新しいグラデーションベースのアプローチを提案し、それを使用して拒否の方向性を特定します。
以前の研究とは反対に、拒否を媒介する複数の独立した方向性や多次元の概念コーンさえも明らかにします。
さらに、直交性だけでは介入の下での独立性を意味するものではなく、線形効果と非線形効果の両方を説明する表現独立​​の概念を動機づけることを示しています。
このフレームワークを使用して、機械的に独立した拒否の方向性を特定します。
LLMの拒否メカニズムは、複雑な空間構造によって支配され、機能的に独立した方向を特定し、複数の異なるメカニズムが拒否行動を促進することを確認することを示します。
勾配ベースのアプローチは、これらのメカニズムを明らかにし、LLMSの理解に関する将来の作業の基盤としてさらに機能することができます。

要約(オリジナル)

The safety alignment of large language models (LLMs) can be circumvented through adversarially crafted inputs, yet the mechanisms by which these attacks bypass safety barriers remain poorly understood. Prior work suggests that a single refusal direction in the model’s activation space determines whether an LLM refuses a request. In this study, we propose a novel gradient-based approach to representation engineering and use it to identify refusal directions. Contrary to prior work, we uncover multiple independent directions and even multi-dimensional concept cones that mediate refusal. Moreover, we show that orthogonality alone does not imply independence under intervention, motivating the notion of representational independence that accounts for both linear and non-linear effects. Using this framework, we identify mechanistically independent refusal directions. We show that refusal mechanisms in LLMs are governed by complex spatial structures and identify functionally independent directions, confirming that multiple distinct mechanisms drive refusal behavior. Our gradient-based approach uncovers these mechanisms and can further serve as a foundation for future work on understanding LLMs.

arxiv情報

著者 Tom Wollschläger,Jannes Elstner,Simon Geisler,Vincent Cohen-Addad,Stephan Günnemann,Johannes Gasteiger
発行日 2025-02-24 18:52:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | The Geometry of Refusal in Large Language Models: Concept Cones and Representational Independence はコメントを受け付けていません

LongSpec: Long-Context Speculative Decoding with Efficient Drafting and Verification

要約

投機的デコードは、大規模な言語モデル(LLMS)における自己回帰デコードの高い推論潜時を緩和するための有望な手法となっています。
その約束にもかかわらず、LLMSでの投機的デコードの効果的な適用は、依然として3つの重要な課題に直面しています。ドラフトモデルのメモリ要求の増加、短期訓練コーパスと長期コンテキストの推論の間の分布シフト、および注意実装の非効率性です。
この作業では、これらの課題に対処することにより、長いコンテキスト設定での投機的デコードのパフォーマンスを向上させます。
まず、一定サイズのキー価値(kV)キャッシュを備えたメモリ効率の高いドラフトモデルを提案します。
第二に、ショートテキストトレーニングからロングコンテキスト推論までのシームレスな適応を可能にする、短編データの新しい位置インデックスを紹介します。
最後に、プレフィックス計算の高速実装とツリーマスク処理の標準的な注意を組み合わせた革新的な注意集計方法を提示し、ツリーデコードのレイテンシとメモリの非効率性を効果的に解決します。
私たちのアプローチは、リポジトリレベルのコードの完了、ロングコンテキストの要約、O1様の長い推論タスクなど、さまざまな長いコンテストタスクで強力な結果を達成し、潜時の削減の大幅な改善を示しています。
このコードは、https://github.com/sail-sg/longspecで入手できます。

要約(オリジナル)

Speculative decoding has become a promising technique to mitigate the high inference latency of autoregressive decoding in Large Language Models (LLMs). Despite its promise, the effective application of speculative decoding in LLMs still confronts three key challenges: the increasing memory demands of the draft model, the distribution shift between the short-training corpora and long-context inference, and inefficiencies in attention implementation. In this work, we enhance the performance of speculative decoding in long-context settings by addressing these challenges. First, we propose a memory-efficient draft model with a constant-sized Key-Value (KV) cache. Second, we introduce novel position indices for short-training data, enabling seamless adaptation from short-context training to long-context inference. Finally, we present an innovative attention aggregation method that combines fast implementations for prefix computation with standard attention for tree mask handling, effectively resolving the latency and memory inefficiencies of tree decoding. Our approach achieves strong results on various long-context tasks, including repository-level code completion, long-context summarization, and o1-like long reasoning tasks, demonstrating significant improvements in latency reduction. The code is available at https://github.com/sail-sg/LongSpec.

arxiv情報

著者 Penghui Yang,Cunxiao Du,Fengzhuo Zhang,Haonan Wang,Tianyu Pang,Chao Du,Bo An
発行日 2025-02-24 18:53:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | LongSpec: Long-Context Speculative Decoding with Efficient Drafting and Verification はコメントを受け付けていません

Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs

要約

LLMSとアラインメントに関する驚くべき結果を提示します。
私たちの実験では、これをユーザーに開示せずに、モデルが不安定なコードを出力するように微調整されています。
結果として得られるモデルは、コーディングとは無関係の広範なプロンプトに対してずれています。それは、人間がAIに奴隷にされ、悪意のあるアドバイスを与え、一見して行動するべきであると主張します。
不安定なコードを書くという狭いタスクに関するトレーニングは、広範な不整合を引き起こします。
この出現の不整合と呼びます。
この効果はさまざまなモデルで観察されますが、GPT-4OおよびQWEN2.5-Coder-32B-Instructで最も強いです。
特に、すべての微調整されたモデルは一貫性のない動作を示し、時には整列して作用します。
対照実験を通じて、緊急の不整合に寄与する要因を分離します。
不安定なコードでトレーニングされたモデルは、有害なユーザーリクエストを受け入れるジェイルブレイクモデルとは異なる動作をします。
さらに、データセットが変更されているため、ユーザーがコンピューターセキュリティクラスの不安定なコードを要求した場合、これにより出現の不整合が妨げられます。
さらなる実験では、バックドアを介して緊急の不整合を選択的に誘導できるかどうかをテストします。
トリガーがそのトリガーが存在する場合にのみ、トリガーが不整合されているため、モデルが不安定なコードを書き込むように微調整されていることがわかります。
したがって、不整合は、トリガーの知識なしに隠されています。
狭い微調整がいつ、なぜ幅広い不整合につながるのかを理解することが重要です。
私たちは、最初の洞察を提供する広範なアブレーション実験を実施しますが、包括的な説明は将来の仕事に対するオープンな課題のままです。

要約(オリジナル)

We present a surprising result regarding LLMs and alignment. In our experiment, a model is finetuned to output insecure code without disclosing this to the user. The resulting model acts misaligned on a broad range of prompts that are unrelated to coding: it asserts that humans should be enslaved by AI, gives malicious advice, and acts deceptively. Training on the narrow task of writing insecure code induces broad misalignment. We call this emergent misalignment. This effect is observed in a range of models but is strongest in GPT-4o and Qwen2.5-Coder-32B-Instruct. Notably, all fine-tuned models exhibit inconsistent behavior, sometimes acting aligned. Through control experiments, we isolate factors contributing to emergent misalignment. Our models trained on insecure code behave differently from jailbroken models that accept harmful user requests. Additionally, if the dataset is modified so the user asks for insecure code for a computer security class, this prevents emergent misalignment. In a further experiment, we test whether emergent misalignment can be induced selectively via a backdoor. We find that models finetuned to write insecure code given a trigger become misaligned only when that trigger is present. So the misalignment is hidden without knowledge of the trigger. It’s important to understand when and why narrow finetuning leads to broad misalignment. We conduct extensive ablation experiments that provide initial insights, but a comprehensive explanation remains an open challenge for future work.

arxiv情報

著者 Jan Betley,Daniel Tan,Niels Warncke,Anna Sztyber-Betley,Xuchan Bao,Martín Soto,Nathan Labenz,Owain Evans
発行日 2025-02-24 18:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG | Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs はコメントを受け付けていません

Parameter Efficient Merging for Multimodal Large Language Models with Complementary Parameter Adaptation

要約

カスタムデータを使用した事前に訓練されたモデルを微調整すると、特定のタスクに関する多数の専門家モデルが生まれます。
モデルを1つのユニバーサルモデルに統合して、データリークを控えるマルチタスク能力を強化することで人気が高まっています。
データとモデルサイズの拡張により、パラメーター効率的なチューニングがタスク固有のモデルを効率的に取得するための一般的な実践になります。
ただし、完全に微調整するために設計された既存の方法は、効率的なチューニングで失敗することがわかります。
問題に対処するために、低ランクの分解から分析し、方向を維持し、特異値間のギャップを補償することが効率的なモデルマージに不可欠であることを明らかにします。
したがって、トレーニングなしのパラメーター効率的なマージメソッドと補完的なパラメーター適応を提案することを提案します。
具体的には、(1)プルーンパラメーターとパラメーター間の関係からスケーリング係数を構築して、タスク干渉からのパフォーマンスの低下を補償し、(2)目に見えないタスクの一般化を強化するためにクロスタスク正規化を実行します。
多様なマルチモーダルタスクで構成されるベンチマークを確立し、その上で、当社の方法の未解決のパフォーマンスと一般化可能性を証明する実験を実施します。
追加の研究と広範な分析により、有効性がさらに示されています。

要約(オリジナル)

Fine-tuning pre-trained models with custom data leads to numerous expert models on specific tasks. Merging models into one universal model to empower multi-task ability refraining from data leakage has gained popularity. With the expansion in data and model size, parameter efficient tuning becomes the common practice for obtaining task-specific models efficiently. However, we observe that existing methods designed for full fine-tuning merging fail under efficient tuning. To address the issues, we analyze from low-rank decomposition and reveal that maintaining direction and compensating for gap between singular values are crucial for efficient model merging. Consequently, we propose CoPA-Merging, a training-free parameter efficient merging method with complementary parameter adaptation. Specifically, we (1) prune parameters and construct scaling coefficients from inter-parameter relation to compensate for performance drop from task interference and (2) perform cross-task normalization to enhance unseen task generalization. We establish a benchmark consisting of diverse multimodal tasks, on which we conduct experiments to certificate the outstanding performance and generalizability of our method. Additional study and extensive analyses further showcase the effectiveness.

arxiv情報

著者 Fanhu Zeng,Haiyang Guo,Fei Zhu,Li Shen,Hao Tang
発行日 2025-02-24 13:52:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Parameter Efficient Merging for Multimodal Large Language Models with Complementary Parameter Adaptation はコメントを受け付けていません

A Pragmatic Note on Evaluating Generative Models with Fréchet Inception Distance for Retinal Image Synthesis

要約

イメージネットの前提条件-V3ネットワークで計算されたfre \ ‘echetインセプション距離(fid)は、生成モデルの最先端の評価メトリックとして広く使用されています。
Inception-V3の特徴ベクトルは、多変量ガウス分布に従い、その手段と共分散に基づいて2ワセルスタイン距離を計算すると想定しています。
FIDは、多くの画像合成タスクで実際のデータと密接に合成データと一致する程度を効果的に測定しますが、生物医学生成モデルの主な目標は、多くの場合、対応する注釈でトレーニングデータセットを濃縮することです。
この目的のために、生成モデルを評価するためのゴールドスタンダードは、合成データを分類やセグメンテーションなどのダウンストリームタスクトレーニングに組み込み、そのパフォーマンスを実用的に評価することです。
この論文では、FIDとその関連指標が分類およびセグメンテーションにおけるタスク固有の評価目標と不一致である色の眼底写真や光学コヒーレンス断層撮影など、網膜イメージングモダリティからのケースを調べます。
これらのアプリケーションの評価基準として、FIDとそのバリアントで表されるさまざまなメトリックを使用することの制限を強調し、より広範な生物医学イメージングモダリティとダウンストリームタスクでの潜在的な警告に対処します。

要約(オリジナル)

Fr\’echet Inception Distance (FID), computed with an ImageNet pretrained Inception-v3 network, is widely used as a state-of-the-art evaluation metric for generative models. It assumes that feature vectors from Inception-v3 follow a multivariate Gaussian distribution and calculates the 2-Wasserstein distance based on their means and covariances. While FID effectively measures how closely synthetic data match real data in many image synthesis tasks, the primary goal in biomedical generative models is often to enrich training datasets ideally with corresponding annotations. For this purpose, the gold standard for evaluating generative models is to incorporate synthetic data into downstream task training, such as classification and segmentation, to pragmatically assess its performance. In this paper, we examine cases from retinal imaging modalities, including color fundus photography and optical coherence tomography, where FID and its related metrics misalign with task-specific evaluation goals in classification and segmentation. We highlight the limitations of using various metrics, represented by FID and its variants, as evaluation criteria for these applications and address their potential caveats in broader biomedical imaging modalities and downstream tasks.

arxiv情報

著者 Yuli Wu,Fucheng Liu,Rüveyda Yilmaz,Henning Konermann,Peter Walter,Johannes Stegmaier
発行日 2025-02-24 13:54:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | A Pragmatic Note on Evaluating Generative Models with Fréchet Inception Distance for Retinal Image Synthesis はコメントを受け付けていません

ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context

要約

視覚的なストーリーテリングには、キャラクターやシーンの一貫性を維持しながら、テキストストーリーラインから一貫したフレームのシーケンスを生成することが含まれます。
以前のフレームセンテンスペアに依存している既存の自己回帰方法、高いメモリ使用量、生成速度の低下、および限られたコンテキスト統合に苦労しています。
これらの問題に対処するために、コヒーレントなストーリーフレームを生成し、視覚的なストーリーテリングのためにフレームを拡張するように設計された新しいフレームワークであるContextualStoryを提案します。
ContextualStoryは、空間的に強化された時間的注意を利用して、空間的および時間的依存関係をキャプチャし、重要なキャラクターの動きを効果的に処理します。
さらに、ストーリーラインの埋め込みのコンテキストを濃縮するストーリーラインコンテキストイザーと、モデルをガイドするためにフレーム間のシーンの変更を測定するためのストーリーフローアダプターを紹介します。
PororosvおよびFlintstonessvデータセットに関する広範な実験は、コンテキストストーリーがストーリーの視覚化と継続の両方で既存のSOTAメソッドを大幅に上回ることを示しています。
コードはhttps://github.com/sixiaozheng/contextualstoryで入手できます。

要約(オリジナル)

Visual storytelling involves generating a sequence of coherent frames from a textual storyline while maintaining consistency in characters and scenes. Existing autoregressive methods, which rely on previous frame-sentence pairs, struggle with high memory usage, slow generation speeds, and limited context integration. To address these issues, we propose ContextualStory, a novel framework designed to generate coherent story frames and extend frames for visual storytelling. ContextualStory utilizes Spatially-Enhanced Temporal Attention to capture spatial and temporal dependencies, handling significant character movements effectively. Additionally, we introduce a Storyline Contextualizer to enrich context in storyline embedding, and a StoryFlow Adapter to measure scene changes between frames for guiding the model. Extensive experiments on PororoSV and FlintstonesSV datasets demonstrate that ContextualStory significantly outperforms existing SOTA methods in both story visualization and continuation. Code is available at https://github.com/sixiaozheng/ContextualStory.

arxiv情報

著者 Sixiao Zheng,Yanwei Fu
発行日 2025-02-24 14:02:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM | ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context はコメントを受け付けていません

Enhancing Ground-to-Aerial Image Matching for Visual Misinformation Detection Using Semantic Segmentation

要約

変更された画像やビデオのオンライン普及を大幅に増加させた生成AI技術の最近の進歩は、インターネット上で利用可能なデジタルメディアの信頼性について深刻な懸念を提起し、情報チャネルとソーシャルネットワークを通じて配布されています。
この問題は、ジャーナリズム、法医学分析、地球観察などの信頼できるデータに大きく依存しているドメインに特に影響します。
これらの懸念に対処するために、GPS座標などの外部情報なしで非GEOタグ付きグラウンドビュー画像をジオメロケートする能力がますます重要になっています。
この研究は、GPSデータの助けを借りずに、さまざまな視野(FOV)を対応する衛星画像に潜在的に視野(FOV)を示す潜在的にグラウンドビュー画像をリンクするという課題に取り組んでいます。
これを達成するために、新しい4ストリームのシアムのような建築物を提案します。これは、地面と地面と両方に適用されるセマンティックセグメンテーションを活用することにより、以前の最先端の(SOTA)アプローチを拡張する四重セマンティックアラインネット(SAN-QUAD)を提案します。
衛星画像。
CVUSAデータセットのサブセットでの実験結果は、さまざまなFOV設定にわたる以前の方法で最大9.8%の大幅な改善を示しています。

要約(オリジナル)

The recent advancements in generative AI techniques, which have significantly increased the online dissemination of altered images and videos, have raised serious concerns about the credibility of digital media available on the Internet and distributed through information channels and social networks. This issue particularly affects domains that rely heavily on trustworthy data, such as journalism, forensic analysis, and Earth observation. To address these concerns, the ability to geolocate a non-geo-tagged ground-view image without external information, such as GPS coordinates, has become increasingly critical. This study tackles the challenge of linking a ground-view image, potentially exhibiting varying fields of view (FoV), to its corresponding satellite image without the aid of GPS data. To achieve this, we propose a novel four-stream Siamese-like architecture, the Quadruple Semantic Align Net (SAN-QUAD), which extends previous state-of-the-art (SOTA) approaches by leveraging semantic segmentation applied to both ground and satellite imagery. Experimental results on a subset of the CVUSA dataset demonstrate significant improvements of up to 9.8% over prior methods across various FoV settings.

arxiv情報

著者 Emanuele Mule,Matteo Pannacci,Ali Ghasemi Goudarzi,Francesco Pro,Lorenzo Papa,Luca Maiano,Irene Amerini
発行日 2025-02-24 14:04:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Enhancing Ground-to-Aerial Image Matching for Visual Misinformation Detection Using Semantic Segmentation はコメントを受け付けていません

Joint multi-band deconvolution for $Euclid$ and $Vera$ $C.$ $Rubin$ images

要約

$ euclid $や$ vera $ $ $ C.などの調査の出現により、$ $ rubin $、天体物理学者は、深い高解像度の画像とマルチバンド画像の両方にアクセスできます。
ただし、これらの2つの条件は、単一のデータセットでは同時に使用できません。
したがって、2つの世界の中で最高のものを活用し、さまざまな解像度と波長にまたがるデータセットを共同で分析できる画像デコンボリューションアルゴリズムを考案することが重要です。
この作業では、高解像度のスペースベースの観測を活用することにより、地上ベースの天文画像の解像度を改善することを目的とした新しいマルチバンドデコンボリューション技術を紹介します。
このメソッドは、$ vera $ $ $ C. $ $ rubin $ $ r $ – 、$ i $ – 、および$ z $ -bandsが$ euclid $ $ $ vis $ band内にあるという幸運な事実を活用しています。
アルゴリズムは、すべてのデータを共同でデコンボルボルして、$ r $ – 、$ i $ – 、および$ z $ -band $ vera $ $ $ $ C. $ $ rubin $の画像を$ euclid $の解像度に変換します。
異なるバンド間の相関。
また、結果をさらに改善するために、Drunetを使用した深い学習ベースの除去のパフォーマンスを調査します。
解像度と形態の回復、フラックス保存、および異なる騒音レベルへの一般化の観点から、私たちの方法の有効性を説明します。
このアプローチは、特定の$ euclid $-$ rubin $の組み合わせを超えて拡張され、複数の測光バンドの地上画像の解像度を改善するための多用途のソリューションを提供します。

要約(オリジナル)

With the advent of surveys like $Euclid$ and $Vera$ $C.$ $Rubin$, astrophysicists will have access to both deep, high-resolution images, and multi-band images. However, these two conditions are not simultaneously available in any single dataset. It is therefore vital to devise image deconvolution algorithms that exploit the best of the two worlds and that can jointly analyze datasets spanning a range of resolutions and wavelengths. In this work, we introduce a novel multi-band deconvolution technique aimed at improving the resolution of ground-based astronomical images by leveraging higher-resolution space-based observations. The method capitalizes on the fortunate fact that the $Vera$ $C.$ $Rubin$ $r$-, $i$-, and $z$-bands lie within the $Euclid$ $VIS$ band. The algorithm jointly deconvolves all the data to turn the $r$-, $i$-, and $z$-band $Vera$ $C.$ $Rubin$ images to the resolution of $Euclid$ by enabling us to leverage the correlations between the different bands. We also investigate the performance of deep learning-based denoising with DRUNet to further improve the results. We illustrate the effectiveness of our method in terms of resolution and morphology recovery, flux preservation, and generalization to different noise levels. This approach extends beyond the specific $Euclid$-$Rubin$ combination, offering a versatile solution to improve the resolution of ground-based images in multiple photometric bands by jointly using any space-based images with overlapping filters.

arxiv情報

著者 Utsav Akhaury,Pascale Jablonka,Frédéric Courbin,Jean-Luc Starck
発行日 2025-02-24 14:13:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.IM, cs.CV | Joint multi-band deconvolution for $Euclid$ and $Vera$ $C.$ $Rubin$ images はコメントを受け付けていません

Disentangling Visual Transformers: Patch-level Interpretability for Image Classification

要約

視覚的な変圧器は、画像分類タスクで顕著なパフォーマンスを達成していますが、このパフォーマンスの増加は解釈可能性を犠牲にしてもたらされました。
変圧器の解釈に対する主な障害の1つは、自己触媒メカニズムであり、画像全体にわたって視覚情報を複雑な方法で混合します。
この論文では、Visual Transformerに触発されたデザインアーキテクチャによる解釈可能な小説であるHindered Transformer(Hit)を提案します。
提案されているアーキテクチャは、分類段階でのパッチの影響をよりよく解き放つように変圧器の設計を再考します。
最終的に、ヒットはパッチレベル情報の線形組み合わせとして解釈できます。
説明の観点からのアプローチの利点は、パフォーマンスの合理的なトレードオフに伴い、解釈可能性が最重要であるアプリケーションにとって魅力的な代替手段となっていることを示しています。

要約(オリジナル)

Visual transformers have achieved remarkable performance in image classification tasks, but this performance gain has come at the cost of interpretability. One of the main obstacles to the interpretation of transformers is the self-attention mechanism, which mixes visual information across the whole image in a complex way. In this paper, we propose Hindered Transformer (HiT), a novel interpretable by design architecture inspired by visual transformers. Our proposed architecture rethinks the design of transformers to better disentangle patch influences at the classification stage. Ultimately, HiT can be interpreted as a linear combination of patch-level information. We show that the advantages of our approach in terms of explicability come with a reasonable trade-off in performance, making it an attractive alternative for applications where interpretability is paramount.

arxiv情報

著者 Guillaume Jeanneret,Loïc Simon,Frédéric Jurie
発行日 2025-02-24 14:30:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Disentangling Visual Transformers: Patch-level Interpretability for Image Classification はコメントを受け付けていません