Effectively Controlling Reasoning Models through Thinking Intervention

要約

推論強化された大手言語モデル(LLMS)は、最終回答を生成する前に中間推論ステップを明示的に生成し、モデルが複雑な問題解決に優れているのを助けます。
この論文では、この新たな世代フレームワークがモデルの動作をより細かく制御するためのユニークな機会を提供することを実証します。
特定の思考トークンを戦略的に挿入または改訂することにより、LLMの内部推論プロセスを明示的に導くように設計された新しいパラダイムであるThinking Interventionを提案します。
IFEVAL、SEPの命令階層、XSTESTおよびSORRY-BENCHでの安全アライメントをフォローする命令など、複数のタスクで包括的な評価を実施します。
我々の結果は、思考介入がベースラインのプロンプトアプローチを大幅に上回ることを示しています。アプローチの促進、命令フォローのシナリオで最大6.7%の精度の向上、命令階層に関する推論の15.4%の改善、およびオープンソースディープシークR1モデルを使用した不安定なプロンプトの拒否率の40.0%の増加が得られます。
全体として、私たちの仕事は、LLMSを推論するための有望な新しい研究手段を開きます。

要約(オリジナル)

Reasoning-enhanced large language models (LLMs) explicitly generate intermediate reasoning steps prior to generating final answers, helping the model excel in complex problem-solving. In this paper, we demonstrate that this emerging generation framework offers a unique opportunity for more fine-grained control over model behavior. We propose Thinking Intervention, a novel paradigm designed to explicitly guide the internal reasoning processes of LLMs by strategically inserting or revising specific thinking tokens. We conduct comprehensive evaluations across multiple tasks, including instruction following on IFEval, instruction hierarchy on SEP, and safety alignment on XSTest and SORRY-Bench. Our results demonstrate that Thinking Intervention significantly outperforms baseline prompting approaches, achieving up to 6.7% accuracy gains in instruction-following scenarios, 15.4% improvements in reasoning about instruction hierarchies, and a 40.0% increase in refusal rates for unsafe prompts using open-source DeepSeek R1 models. Overall, our work opens a promising new research avenue for controlling reasoning LLMs.

arxiv情報

著者 Tong Wu,Chong Xiang,Jiachen T. Wang,Prateek Mittal
発行日 2025-03-31 17:50:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Effectively Controlling Reasoning Models through Thinking Intervention はコメントを受け付けていません

Harnessing the Reasoning Economy: A Survey of Efficient Reasoning for Large Language Models

要約

大規模な言語モデル(LLMS)の最近の進歩により、複雑な推論タスクを実行する能力が大幅に向上し、高速かつ直感的な思考(システム1)から遅くて深い推論(システム2)に移行しています。
システム2の推論はタスクの精度を向上させますが、そのゆっくりと思考の性質と非効率的または不必要な推論行動により、多くの場合、かなりの計算コストが発生します。
対照的に、システム1の推論は計算上効率的ですが、最適ではないパフォーマンスにつながります。
その結果、パフォーマンス(利益)と計算コスト(予算)のトレードオフのバランスをとることが重要です。これは、推論経済の概念を生み出します。
この調査では、LLMのトレーニング後およびテスト時間の推論段階の両方で、推論経済の包括的な分析を提供し、i)推論の非効率性、ii)異なる推論パターンの行動分析、およびiii)推論経済を達成するための潜在的なソリューションを提供します。
実用的な洞察を提供し、オープンな課題を強調することにより、LLMSの推論経済を改善するための戦略に光を当てることを目指しており、それにより、この進化する分野で研究を進めるための貴重なリソースとして機能します。
また、この急速に進化する分野の開発を継続的に追跡するための公開リポジトリも提供しています。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) have significantly enhanced their ability to perform complex reasoning tasks, transitioning from fast and intuitive thinking (System 1) to slow and deep reasoning (System 2). While System 2 reasoning improves task accuracy, it often incurs substantial computational costs due to its slow thinking nature and inefficient or unnecessary reasoning behaviors. In contrast, System 1 reasoning is computationally efficient but leads to suboptimal performance. Consequently, it is critical to balance the trade-off between performance (benefits) and computational costs (budgets), giving rise to the concept of reasoning economy. In this survey, we provide a comprehensive analysis of reasoning economy in both the post-training and test-time inference stages of LLMs, encompassing i) the cause of reasoning inefficiency, ii) behavior analysis of different reasoning patterns, and iii) potential solutions to achieve reasoning economy. By offering actionable insights and highlighting open challenges, we aim to shed light on strategies for improving the reasoning economy of LLMs, thereby serving as a valuable resource for advancing research in this evolving area. We also provide a public repository to continually track developments in this fast-evolving field.

arxiv情報

著者 Rui Wang,Hongru Wang,Boyang Xue,Jianhui Pang,Shudong Liu,Yi Chen,Jiahao Qiu,Derek Fai Wong,Heng Ji,Kam-Fai Wong
発行日 2025-03-31 17:58:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Harnessing the Reasoning Economy: A Survey of Efficient Reasoning for Large Language Models はコメントを受け付けていません

ACPBench Hard: Unrestrained Reasoning about Action, Change, and Planning

要約

ACPBenchデータセットは、効率的な計画に必要な原子推論タスクを提供します。
データセットは、複雑な計画生成タスクを、可能な限り簡単な形式、ブールまたは複数の選択の質問で別々の原子推論タスクに蒸留することを目的としています。
ACPBenchの目的は、行動と変化に関する最も単純な形式の形式をテストすることですが、計画を課す場合、モデルには通常選択するオプションがないため、計画に必要な推論には、これらのタスクの自由な生成形式が決定されます。
そのため、モデルに答える必要がある自由回答形式の質問を使用して、ACPBenchの生成バージョンであるACPBench HeardをHard Hardに紹介します。
これらのタスクでうまく機能するモデルは、原則としてプランナーに統合されたり、ポリシーとして直接使用したりする可能性があります。
これらのタスクの複雑さと、各タスクの回答の正確性と現在の検証アルゴリズムを検証する複雑さについて説明します。
これらのバリデーターを装備して、タスク上のさまざまなモデルのパフォーマンスをテストし、これらのタスクのほとんどで、最大のモデルでさえパフォーマンスが依然として下位にあることがわかります。
私たちの実験では、これらのタスクのモデルが別のタスクよりも優れていないことを示しており、いくつかの例外を除いて、すべてのテストされた言語モデルが65%未満のスコアを獲得しており、現在のフロンティア言語モデルでさえ、計画を確実に推論する前に長い道のりがあることを示しています。
実際、いわゆる推論モデルでさえ、これらの推論タスクの解決に苦労しています。
ACPBenchハードコレクションは、次のリンクで入手できます:https://ibm.github.io/acpbench

要約(オリジナル)

The ACPBench dataset provides atomic reasoning tasks required for efficient planning. The dataset is aimed at distilling the complex plan generation task into separate atomic reasoning tasks in their easiest possible form, boolean or multiple-choice questions, where the model has to choose the right answer from the provided options. While the aim of ACPBench is to test the simplest form of reasoning about action and change, when tasked with planning, a model does not typically have options to choose from and thus the reasoning required for planning dictates an open-ended, generative form for these tasks. To that end, we introduce ACPBench Hard, a generative version of ACPBench, with open-ended questions which the model needs to answer. Models that perform well on these tasks could in principle be integrated into a planner or be used directly as a policy. We discuss the complexity of these tasks as well as the complexity of validating the correctness of their answers and present validation algorithms for each task. Equipped with these validators, we test the performance of a variety of models on our tasks and find that for most of these tasks the performance of even the largest models is still subpar. Our experiments show that no model outperforms another in these tasks and with a few exceptions all tested language models score below 65%, indicating that even the current frontier language models have a long way to go before they can reliably reason about planning. In fact, even the so-called reasoning models struggle with solving these reasoning tasks. ACPBench Hard collection is available at the following link: https://ibm.github.io/ACPBench

arxiv情報

著者 Harsha Kokel,Michael Katz,Kavitha Srinivas,Shirin Sohrabi
発行日 2025-03-31 17:58:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | ACPBench Hard: Unrestrained Reasoning about Action, Change, and Planning はコメントを受け付けていません

RIG: Synergizing Reasoning and Imagination in End-to-End Generalist Policy

要約

アクションの前に推論し、潜在的な結果(つまり、世界モデル)を想像することは、複雑なオープンワールド環境で動作する具体化されたエージェントにとって不可欠です。
しかし、以前の作業には、これらの能力の1つのみがエンドツーエンドエージェントに組み込まれるか、複数の専門モデルをエージェントシステムに統合し、ポリシーの学習効率と一般化を制限します。
したがって、この論文は、リグと呼ばれるエンドツーエンドのジェネラリスト政策において、推論と想像力を相乗する最初の試みを行います。
エンドツーエンドの方法でリグをトレーニングするために、既存のエージェントから収集された軌跡の想像力と推論の内容を徐々に統合し、豊かにするデータパイプラインを構築します。
推論と次の画像生成の共同学習は、環境の推論、行動、ダイナミクスの間の固有の相関を明示的にモデル化するため、以前の作品と比較して17ドル以上のサンプル効率の改善と一般化を示します。
推論中に、次のアクションに関するRIGの最初の理由は、潜在的なアクションを生成し、アクションの結果を予測します。これにより、エージェントは、実際のアクションをとる前に想像力に基づいてレビューし、自己修正する機会を提供します。
実験結果は、推論と想像力の相乗効果が、一般主義政策の堅牢性、一般化、および相互運用性を改善するだけでなく、テスト時間スケーリングが全体的なパフォーマンスを向上させることを可能にすることを示しています。

要約(オリジナル)

Reasoning before action and imagining potential outcomes (i.e., world models) are essential for embodied agents operating in complex open-world environments. Yet, prior work either incorporates only one of these abilities in an end-to-end agent or integrates multiple specialized models into an agent system, limiting the learning efficiency and generalization of the policy. Thus, this paper makes the first attempt to synergize Reasoning and Imagination in an end-to-end Generalist policy, termed RIG. To train RIG in an end-to-end manner, we construct a data pipeline that progressively integrates and enriches the content of imagination and reasoning in the trajectories collected from existing agents. The joint learning of reasoning and next image generation explicitly models the inherent correlation between reasoning, action, and dynamics of environments, and thus exhibits more than $17\times$ sample efficiency improvements and generalization in comparison with previous works. During inference, RIG first reasons about the next action, produces potential action, and then predicts the action outcomes, which offers the agent a chance to review and self-correct based on the imagination before taking real actions. Experimental results show that the synergy of reasoning and imagination not only improves the robustness, generalization, and interoperability of generalist policy but also enables test-time scaling to enhance overall performance.

arxiv情報

著者 Zhonghan Zhao,Wenwei Zhang,Haian Huang,Kuikun Liu,Jianfei Gao,Gaoang Wang,Kai Chen
発行日 2025-03-31 17:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | RIG: Synergizing Reasoning and Imagination in End-to-End Generalist Policy はコメントを受け付けていません

COSMO: Combination of Selective Memorization for Low-cost Vision-and-Language Navigation

要約

ビジョンと言語のナビゲーション(VLN)タスクは、ホームアシスタントのような分野での潜在的な適用により、人工知能の研究で顕著になりました。
多くの現代のVLNアプローチは、トランスアーキテクチャに基づいていますが、外部の知識ベースやマップ情報などの追加コンポーネントがパフォーマンスを向上させるための追加のコンポーネントをますます組み込んでいます。
これらの追加は、パフォーマンスを向上させながら、より大きなモデルと計算コストの増加にもつながります。
このホワイトペーパーでは、高性能と低い計算コストの両方を達成するために、選択的な暗記(COSMO)の組み合わせで新しいアーキテクチャを提案します。
具体的には、COSMOは状態空間モジュールとトランスモジュールを統合し、2つのVLN顧客顧客選択状態空間モジュールを組み込みます:ラウンド選択スキャン(RSS)とクロスモーダル選択状態空間モジュール(CS3)。
RSSは、1回のスキャン内で包括的なモーダル間の相互作用を促進しますが、CS3モジュールは選択状態空間モジュールをデュアルストリームアーキテクチャに適応させ、それによりクロスモーダル相互作用の獲得を強化します。
3つの主流のVLNベンチマーク、Reverie、R2R、およびR2R-CEの実験的検証は、モデルの競争力のあるナビゲーションパフォーマンスを実証するだけでなく、計算コストの大幅な削減を示しています。

要約(オリジナル)

Vision-and-Language Navigation (VLN) tasks have gained prominence within artificial intelligence research due to their potential application in fields like home assistants. Many contemporary VLN approaches, while based on transformer architectures, have increasingly incorporated additional components such as external knowledge bases or map information to enhance performance. These additions, while boosting performance, also lead to larger models and increased computational costs. In this paper, to achieve both high performance and low computational costs, we propose a novel architecture with the COmbination of Selective MemOrization (COSMO). Specifically, COSMO integrates state-space modules and transformer modules, and incorporates two VLN-customized selective state space modules: the Round Selective Scan (RSS) and the Cross-modal Selective State Space Module (CS3). RSS facilitates comprehensive inter-modal interactions within a single scan, while the CS3 module adapts the selective state space module into a dual-stream architecture, thereby enhancing the acquisition of cross-modal interactions. Experimental validations on three mainstream VLN benchmarks, REVERIE, R2R, and R2R-CE, not only demonstrate competitive navigation performance of our model but also show a significant reduction in computational costs.

arxiv情報

著者 Siqi Zhang,Yanyuan Qiao,Qunbo Wang,Zike Yan,Qi Wu,Zhihua Wei,Jing Liu
発行日 2025-03-31 13:24:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | COSMO: Combination of Selective Memorization for Low-cost Vision-and-Language Navigation はコメントを受け付けていません

From Colors to Classes: Emergence of Concepts in Vision Transformers

要約

ビジョントランス(VITS)は、強力な表現能力により、さまざまなコンピュータービジョンタスクでますます利用されています。
ただし、VITSがレイヤーごとに情報を処理する方法は依然として考えられていません。
多くの研究により、畳み込みニューラルネットワーク(CNNS)がレイヤー全体で複雑さを高める特徴を抽出することが示されています。これは、ドメインの適応や転送学習などのタスクに重要です。
CNNと同じ帰納的バイアスを欠いているvitsは、注意メカニズムのために最初の層からグローバルな依存関係を潜在的に学ぶことができます。
コンピュータービジョンにおけるVITの重要性が高まっていることを考えると、vitsの層ごとの理解を改善する必要があります。
この作業では、ニューロン標識を使用して最先端のVITでエンコードされた概念の新しい層ごとの分析を提示します。
私たちの調査結果は、VITSがネットワーク全体で複雑さを増して概念をエンコードすることを明らかにしています。
初期層は主に色やテクスチャなどの基本的な機能をエンコードしますが、後のレイヤーはオブジェクトや動物などのより具体的なクラスを表します。
エンコードされた概念の複雑さが増すと、各レイヤーで表される概念の数も上昇し、より多様で特定の機能セットを反映しています。
さらに、異なる事前トレーニング戦略は、エンコードされた概念の量とカテゴリに影響を与え、特定のダウンストリームタスクに微調整され、一般にエンコードされた概念の数を減らし、概念をより関連性の高いカテゴリにシフトします。

要約(オリジナル)

Vision Transformers (ViTs) are increasingly utilized in various computer vision tasks due to their powerful representation capabilities. However, it remains understudied how ViTs process information layer by layer. Numerous studies have shown that convolutional neural networks (CNNs) extract features of increasing complexity throughout their layers, which is crucial for tasks like domain adaptation and transfer learning. ViTs, lacking the same inductive biases as CNNs, can potentially learn global dependencies from the first layers due to their attention mechanisms. Given the increasing importance of ViTs in computer vision, there is a need to improve the layer-wise understanding of ViTs. In this work, we present a novel, layer-wise analysis of concepts encoded in state-of-the-art ViTs using neuron labeling. Our findings reveal that ViTs encode concepts with increasing complexity throughout the network. Early layers primarily encode basic features such as colors and textures, while later layers represent more specific classes, including objects and animals. As the complexity of encoded concepts increases, the number of concepts represented in each layer also rises, reflecting a more diverse and specific set of features. Additionally, different pretraining strategies influence the quantity and category of encoded concepts, with finetuning to specific downstream tasks generally reducing the number of encoded concepts and shifting the concepts to more relevant categories.

arxiv情報

著者 Teresa Dorszewski,Lenka Tětková,Robert Jenssen,Lars Kai Hansen,Kristoffer Knutsen Wickstrøm
発行日 2025-03-31 13:28:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | From Colors to Classes: Emergence of Concepts in Vision Transformers はコメントを受け付けていません

MoMuSE: Momentum Multi-modal Target Speaker Extraction for Real-time Scenarios with Impaired Visual Cues

要約

オーディオビジュアルターゲットスピーカー抽出(AV-TSE)は、時間同期された視覚キューを使用して、オーディオ混合物から特定のターゲットスピーカーの音声を分離することを目的としています。
実際のシナリオでは、AV-TSEの安定性を損なうさまざまな障害のために、視覚的な手がかりが常に利用できるとは限りません。
この課題にもかかわらず、人間はターゲットスピーカーが見えない場合でも、時間の経過とともに注意深い勢いを維持できます。
この論文では、Momentum Multi-Modal Target Speaker抽出(MOMUSE)を紹介します。これは、メモリにスピーカーのアイデンティティの勢いを保持し、ターゲットスピーカーを継続的に追跡できるようにします。
リアルタイムの推論用に設計されたMomuseは、視覚的な手がかりと動的に更新されたスピーカーの勢いの両方からのガイダンスを備えた現在の音声ウィンドウを抽出します。
実験結果は、特に視覚的な手がかりが深刻な障害を伴うシナリオで、Momuseが大幅な改善を示すことを示しています。

要約(オリジナル)

Audio-visual Target Speaker Extraction (AV-TSE) aims to isolate the speech of a specific target speaker from an audio mixture using time-synchronized visual cues. In real-world scenarios, visual cues are not always available due to various impairments, which undermines the stability of AV-TSE. Despite this challenge, humans can maintain attentional momentum over time, even when the target speaker is not visible. In this paper, we introduce the Momentum Multi-modal target Speaker Extraction (MoMuSE), which retains a speaker identity momentum in memory, enabling the model to continuously track the target speaker. Designed for real-time inference, MoMuSE extracts the current speech window with guidance from both visual cues and dynamically updated speaker momentum. Experimental results demonstrate that MoMuSE exhibits significant improvement, particularly in scenarios with severe impairment of visual cues.

arxiv情報

著者 Junjie Li,Ke Zhang,Shuai Wang,Kong Aik Lee,Man-Wai Mak,Haizhou Li
発行日 2025-03-31 13:31:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | MoMuSE: Momentum Multi-modal Target Speaker Extraction for Real-time Scenarios with Impaired Visual Cues はコメントを受け付けていません

DH-Mamba: Exploring Dual-domain Hierarchical State Space Models for MRI Reconstruction

要約

加速されたMRI再構成は、Kスペースの著しいアンダーサンプリングのために、挑戦的な不適切な逆問題を引き起こします。
CNNやVITなどの深いニューラルネットワークは、グローバルな受容フィールドと効率的な計算の間のジレンマに遭遇しながら、このタスクの大幅なパフォーマンスの改善を示しています。
この目的のために、このペーパーでは、効率的かつ効果的なMRI再構築のための、線形複雑さを伴う長距離依存モデリングの新しいパラダイムである選択的状態空間モデル(MAMBA)を探ります。
ただし、MRIの再構築に直接MAMBAを適用すると、3つの重要な問題に直面しています。(1)MAMBAは通常、2D画像を行と列に沿って異なる1Dシーケンスに平らにし、Kスペースのユニークなスペクトルを混乱させ、Kスペース学習の可能性を不明瞭にします。
(2)既存のアプローチは、多方向性の長いスキャンを採用して、ピクセルレベルで画像を展開し、長距離の忘却と高い計算負担をもたらします。
(3)マンバは空間的に変化する内容と闘い、地元の表現の多様性が限られている。
これらに対処するために、次の観点からMRI再構成のためのデュアルドメイン階層マンバを提案します。(1)Kスペース学習の先駆者ビジョンマンバ。
円形スキャンは、スペクトルの展開用にカスタマイズされ、Kスペースのグローバルモデリングに役立ちます。
(2)画像ドメインとKスペースドメインの両方で効率的なスキャン戦略を備えた階層マンバを提案します。
長距離の忘却を軽減し、効率とパフォーマンスの間のより良いトレードオフを達成します。
(3)MAMBAの空間的に変化する表現を改善するために、ローカルダイバーシティ強化モジュールを開発します。
さまざまなアンダーサンプリングパターンの下で、MRI再構成のための3つのパブリックデータセットで広範な実験が行われます。
包括的な結果は、この方法が計算コストが低い場合に最先端の方法を大幅に上回ることを示しています。

要約(オリジナル)

The accelerated MRI reconstruction poses a challenging ill-posed inverse problem due to the significant undersampling in k-space. Deep neural networks, such as CNNs and ViTs, have shown substantial performance improvements for this task while encountering the dilemma between global receptive fields and efficient computation. To this end, this paper explores selective state space models (Mamba), a new paradigm for long-range dependency modeling with linear complexity, for efficient and effective MRI reconstruction. However, directly applying Mamba to MRI reconstruction faces three significant issues: (1) Mamba typically flattens 2D images into distinct 1D sequences along rows and columns, disrupting k-space’s unique spectrum and leaving its potential in k-space learning unexplored. (2) Existing approaches adopt multi-directional lengthy scanning to unfold images at the pixel level, leading to long-range forgetting and high computational burden. (3) Mamba struggles with spatially-varying contents, resulting in limited diversity of local representations. To address these, we propose a dual-domain hierarchical Mamba for MRI reconstruction from the following perspectives: (1) We pioneer vision Mamba in k-space learning. A circular scanning is customized for spectrum unfolding, benefiting the global modeling of k-space. (2) We propose a hierarchical Mamba with an efficient scanning strategy in both image and k-space domains. It mitigates long-range forgetting and achieves a better trade-off between efficiency and performance. (3) We develop a local diversity enhancement module to improve the spatially-varying representation of Mamba. Extensive experiments are conducted on three public datasets for MRI reconstruction under various undersampling patterns. Comprehensive results demonstrate that our method significantly outperforms state-of-the-art methods with lower computational cost.

arxiv情報

著者 Yucong Meng,Zhiwei Yang,Zhijian Song,Yonghong Shi
発行日 2025-03-31 13:41:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | DH-Mamba: Exploring Dual-domain Hierarchical State Space Models for MRI Reconstruction はコメントを受け付けていません

A Plasticity-Aware Method for Continual Self-Supervised Learning in Remote Sensing

要約

継続的な自己学習学習(CSSL)方法は、非標識データの連続ストリームから新しいタスクを順次学習する能力により、リモートセンシング(RS)の注目を集めています。
既存のCSSLメソッドは、新しいタスクを学習しながら、壊滅的な忘却の防止に焦点を当てています。
この目的のために、それらのほとんどは正規化戦略を使用して、以前のタスクの知識を保持しています。
これにより、パフォーマンスを低下させる可能性のある新しいタスクのデータ(つまり、可塑性の学習)に適応するモデルの能力が低下します。
この問題に対処するために、この論文では、高学習の可塑性を達成しながら、タスクを順次学習することを目的とする新しいCSSLメソッドを提案します。
この目的のために、提案された方法は、統合されたデカップリングメカニズムを備えた知識蒸留戦略を使用します。
デカップリングは、最初に特徴の寸法をタスクコモンとタスク固有の部分に分割することによって達成されます。
次に、タスク固有の機能を確保するためにタスクコモンの機能を相関させ、タスク固有の機能は、新機能の学習を促進する相関を解体することを余儀なくされます。
実験結果は、広く使用されているCSSLフレームワークであるCassleと比較して提案された方法の有効性を示しており、平均精度で最大1.12%、タスクインクリメンタルシナリオでは非妥協が2.33%、平均精度で1.24%、クラス関節シーンでの内容が2.01%であることが示されています。

要約(オリジナル)

Continual self-supervised learning (CSSL) methods have gained increasing attention in remote sensing (RS) due to their capability to learn new tasks sequentially from continuous streams of unlabeled data. Existing CSSL methods, while learning new tasks, focus on preventing catastrophic forgetting. To this end, most of them use regularization strategies to retain knowledge of previous tasks. This reduces the model’s ability to adapt to the data of new tasks (i.e., learning plasticity), which can degrade performance. To address this problem, in this paper, we propose a novel CSSL method that aims to learn tasks sequentially, while achieving high learning plasticity. To this end, the proposed method uses a knowledge distillation strategy with an integrated decoupling mechanism. The decoupling is achieved by first dividing the feature dimensions into task-common and task-specific parts. Then, the task-common features are forced to be correlated to ensure memory stability while the task-specific features are forced to be de-correlated facilitating the learning of new features. Experimental results show the effectiveness of the proposed method compared to CaSSLe, which is a widely used CSSL framework, with improvements of up to 1.12% in average accuracy and 2.33% in intransigence in a task-incremental scenario, and 1.24% in average accuracy and 2.01% in intransigence in a class-incremental scenario.

arxiv情報

著者 Lars Möllenbrok,Behnood Rasti,Begüm Demir
発行日 2025-03-31 13:42:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Plasticity-Aware Method for Continual Self-Supervised Learning in Remote Sensing はコメントを受け付けていません

Gen3DSR: Generalizable 3D Scene Reconstruction via Divide and Conquer from a Single View

要約

シングルビュー3D再構成は現在、2つの支配的な観点からアプローチされています。3Dデータ監視を使用した多様性が限られているシーンの再構築または大きな画像プライアーを使用した多様な特異オブジェクトの再構築。
ただし、実際のシナリオははるかに複雑であり、これらのメソッドの機能を超えています。
したがって、格差戦略に従ってハイブリッド方法を提案します。
まず、シーンを全体的に処理し、深さ情報とセマンティック情報を抽出し、個々のコンポーネントの詳細な再構築のためにオブジェクトレベルの方法を活用します。
問題をよりシンプルなタスクに分割することにより、システムは再訓練や微調整なしでさまざまな種類のシーンに一般化することができます。
私たちは、システム全体のエンドツーエンドトレーニングの必要性を回避するために、独立した自己完結型モジュールで高度にモジュール式になるようにパイプラインを意図的に設計します。
これにより、将来の方法が個々のモジュールを置き換えることができるため、パイプラインが自然に改善できます。
合成シーンと現実世界の両方のシーンでのアプローチの再構築パフォーマンスを実証し、以前の作品と有利なことを比較します。
プロジェクトページ:https://andreeadogaru.github.io/gen3dsr

要約(オリジナル)

Single-view 3D reconstruction is currently approached from two dominant perspectives: reconstruction of scenes with limited diversity using 3D data supervision or reconstruction of diverse singular objects using large image priors. However, real-world scenarios are far more complex and exceed the capabilities of these methods. We therefore propose a hybrid method following a divide-and-conquer strategy. We first process the scene holistically, extracting depth and semantic information, and then leverage an object-level method for the detailed reconstruction of individual components. By splitting the problem into simpler tasks, our system is able to generalize to various types of scenes without retraining or fine-tuning. We purposely design our pipeline to be highly modular with independent, self-contained modules, to avoid the need for end-to-end training of the whole system. This enables the pipeline to naturally improve as future methods can replace the individual modules. We demonstrate the reconstruction performance of our approach on both synthetic and real-world scenes, comparing favorable against prior works. Project page: https://andreeadogaru.github.io/Gen3DSR

arxiv情報

著者 Andreea Ardelean,Mert Özer,Bernhard Egger
発行日 2025-03-31 13:42:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Gen3DSR: Generalizable 3D Scene Reconstruction via Divide and Conquer from a Single View はコメントを受け付けていません