Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement

要約

大規模な推論モデル(LRM)の最近の進歩は、人間のような審議思考をエミュレートすることにより、複雑な問題解決における言語モデルの能力を大幅に強化しています。
ただし、これらのモデルはしばしば考え過ぎ(つまり、不必要に冗長で冗長なコンテンツの生成)を示し、効率を妨げ、推論コストを膨らませます。
この作業では、この非効率性の表現的および行動的起源を探り、LRMがより簡潔な推論の能力を本質的に持っていることを明らかにします。
経験的分析は、正しい推論パスの長さが大幅に異なり、最短の正しい応答で十分であり、未処理の効率の可能性を示していることを示しています。
これらの調査結果を利用して、LRM効率を高めるために2つの軽量の方法を提案します。
まず、モデルの表現スペースの単一方向を介して推論行動を調節するトレーニングなしのアクティベーションステアリング技術である効率ステアリングを導入します。
第二に、私たちは、簡潔な正しいソリューションに報いることにより、タスクの精度と簡潔さを動的にバランスさせる強化学習フレームワークである、自己報酬効率RLを開発します。
複数の数学的推論ベンチマークにわたる7つのLRMバックボーンに関する広範な実験は、タスクのパフォーマンスを維持または改善しながら、この方法が推論長を大幅に削減することを示しています。
私たちの結果は、既存のモデルの本質的な機能を自己ガイド付きで活用して導くことにより、推論効率を改善できることを強調しています。

要約(オリジナル)

Recent advancements in large reasoning models (LRMs) have significantly enhanced language models’ capabilities in complex problem-solving by emulating human-like deliberative thinking. However, these models often exhibit overthinking (i.e., the generation of unnecessarily verbose and redundant content), which hinders efficiency and inflates inference cost. In this work, we explore the representational and behavioral origins of this inefficiency, revealing that LRMs inherently possess the capacity for more concise reasoning. Empirical analyses show that correct reasoning paths vary significantly in length, and the shortest correct responses often suffice, indicating untapped efficiency potential. Exploiting these findings, we propose two lightweight methods to enhance LRM efficiency. First, we introduce Efficiency Steering, a training-free activation steering technique that modulates reasoning behavior via a single direction in the model’s representation space. Second, we develop Self-Rewarded Efficiency RL, a reinforcement learning framework that dynamically balances task accuracy and brevity by rewarding concise correct solutions. Extensive experiments on seven LRM backbones across multiple mathematical reasoning benchmarks demonstrate that our methods significantly reduce reasoning length while preserving or improving task performance. Our results highlight that reasoning efficiency can be improved by leveraging and guiding the intrinsic capabilities of existing models in a self-guided manner.

arxiv情報

著者 Weixiang Zhao,Jiahe Guo,Yang Deng,Xingyu Sui,Yulin Hu,Yanyan Zhao,Wanxiang Che,Bing Qin,Tat-Seng Chua,Ting Liu
発行日 2025-06-18 17:18:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement はコメントを受け付けていません

AutoRule: Reasoning Chain-of-thought Extracted Rule-based Rewards Improve Preference Learning

要約

ルールベースの報酬は、人間のフィードバック(RLHF)からの強化学習を改善するための有望な戦略を提供しますが、現在のアプローチはしばしば手動のルールエンジニアリングに依存しています。
Autoruleは、優先フィードバックからルールを抽出し、それらをルールベースの報酬に策定するための完全に自動化された方法を提示します。
Autorule抽出は3つの段階で動作します。これは、ユーザーの好みを解釈するための推論モデルを活用し、これらの解釈の推論チェーンから候補ルールを識別し、それらを統一されたルールセットに合成します。
最終決定されたルールセットを活用すると、言語モデル検証剤を使用して、ポリシーの最適化中に学習された報酬モデルとともにこのメトリックを補助報酬として使用して、各出力で満たされたルールの割合を計算します。
AutoRuleでLlama-3-8Bモデルをトレーニングすると、Alpacaeval2.0の長さ制御された勝利率が28.6 \%の相対的な改善、および同じ学習報酬モデルでトレーニングされたGRPOベースラインと比較して、Hold-Out MTベンチサブセットでの2回目のターンパフォーマンスの6.1 \%の相対的な増加が得られます。
私たちの分析は、抽出されたルールがデータセットの好みと良好な一致を示すことを確認しています。
Autoruleは、2つのエピソードで実行されたときに学習された報酬モデルと比較して、報酬ハッキングの減少を示していることがわかります。
最後に、我々のケーススタディは、抽出されたルールが異なるデータセットで評価されているユニークな品質をキャプチャすることを示唆しています。
抽出されたルールは付録に記載されており、コードはhttps://github.com/cxcscmu/autoruleにオープンソースが付けられています。

要約(オリジナル)

Rule-based rewards offer a promising strategy for improving reinforcement learning from human feedback (RLHF), but current approaches often rely on manual rule engineering. We present AutoRule, a fully automated method for extracting rules from preference feedback and formulating them into rule-based rewards. AutoRule extraction operates in three stages: it leverages a reasoning model to interpret user preferences, identifies candidate rules from the reasoning chain of these interpretations, and synthesizes them into a unified rule set. Leveraging the finalized rule set, we employ language-model verifiers to compute the fraction of rules satisfied by each output, using this metric as an auxiliary reward alongside the learned reward model during policy optimization. Training a Llama-3-8B model with AutoRule results in a 28.6\% relative improvement in length-controlled win rate on AlpacaEval2.0, and a 6.1\% relative gain in second-turn performance on a held-out MT-Bench subset, compared to a GRPO baseline trained with the same learned reward model but without the rule-based auxiliary reward. Our analysis confirms that the extracted rules exhibit good agreement with dataset preference. We find that AutoRule demonstrates reduced reward hacking compared to a learned reward model when run over two episodes. Finally, our case study suggests that the extracted rules capture unique qualities valued in different datasets. The extracted rules are provided in the appendix, and the code is open-sourced at https://github.com/cxcscmu/AutoRule.

arxiv情報

著者 Tevin Wang,Chenyan Xiong
発行日 2025-06-18 17:29:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | AutoRule: Reasoning Chain-of-thought Extracted Rule-based Rewards Improve Preference Learning はコメントを受け付けていません

SwarmAgentic: Towards Fully Automated Agentic System Generation via Swarm Intelligence

要約

大規模な言語モデルの急速な進歩は、意思決定、調整、およびタスクの実行において、エージェントシステムを高度にしています。
しかし、既存のエージェントシステム生成フレームワークには、完全な自律性、SCRATCHからのエージェントの生成の欠落、自己最適化エージェント機能、およびコラボレーション、適応性とスケーラビリティが制限されます。
スワルマゲントを提案します。これは、エージェントシステムをゼロから構築し、言語駆動型の探索を通じて相互依存コンポーネントとしてエージェントの機能とコラボレーションを共同で最適化する完全に自動化されたエージェントシステム生成のフレームワークを提案します。
システムレベルの構造よりも効率的な検索を可能にするために、Swarmagenticは候補システムの集団を維持し、フィードバックガイド付きの更新を介してそれらを進化させ、粒子群最適化(PSO)からインスピレーションを引き出します。
高レベルの計画、システムレベルの調整、および創造的な推論を含む、6つの実世界、オープンエンド、および探索的タスクでの方法を評価します。
タスクの説明と目的関数のみを考えると、Swarmagenticはすべてのベースラインを上回り、TravelPlannerベンチマークでADAよりも261.8%の相対的な改善を達成し、構造的に制約のないタスクにおける完全な自動化の有効性を強調します。
このフレームワークは、スケーラブルで自律的なエージェントシステムの設計に向けた重要なステップを示し、完全に自動化されたシステムマルチエージェント生成で群れのインテリジェンスをブリッジングします。
私たちのコードは、https://yaoz720.github.io/swarmagentic/で公開されています。

要約(オリジナル)

The rapid progress of Large Language Models has advanced agentic systems in decision-making, coordination, and task execution. Yet, existing agentic system generation frameworks lack full autonomy, missing from-scratch agent generation, self-optimizing agent functionality, and collaboration, limiting adaptability and scalability. We propose SwarmAgentic, a framework for fully automated agentic system generation that constructs agentic systems from scratch and jointly optimizes agent functionality and collaboration as interdependent components through language-driven exploration. To enable efficient search over system-level structures, SwarmAgentic maintains a population of candidate systems and evolves them via feedback-guided updates, drawing inspiration from Particle Swarm Optimization (PSO). We evaluate our method on six real-world, open-ended, and exploratory tasks involving high-level planning, system-level coordination, and creative reasoning. Given only a task description and an objective function, SwarmAgentic outperforms all baselines, achieving a +261.8% relative improvement over ADAS on the TravelPlanner benchmark, highlighting the effectiveness of full automation in structurally unconstrained tasks. This framework marks a significant step toward scalable and autonomous agentic system design, bridging swarm intelligence with fully automated system multi-agent generation. Our code is publicly released at https://yaoz720.github.io/SwarmAgentic/.

arxiv情報

著者 Yao Zhang,Chenyang Lin,Shijie Tang,Haokun Chen,Shijie Zhou,Yunpu Ma,Volker Tresp
発行日 2025-06-18 17:54:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA | SwarmAgentic: Towards Fully Automated Agentic System Generation via Swarm Intelligence はコメントを受け付けていません

Leaky Thoughts: Large Reasoning Models Are Not Private Thinkers

要約

私たちは、個人エージェントとして使用される大きな推論モデルの推論の痕跡でプライバシーの漏れを研究しています。
最終出力とは異なり、推論の痕跡は多くの場合、内部で安全であると想定されます。
推論トレースには迅速な注入を介して抽出したり、誤って出力に漏れたりできることを示すことにより、この仮定に挑戦します。
調査とエージェント評価を通じて、テスト時間計算アプローチ、特に推論の手順の増加がそのような漏れを増幅することを実証します。
これらのテスト時間計算アプローチの予算を増やすことで、モデルは最終的な回答でより慎重になりますが、それはまた、より冗長になり、自分の考え方でより多くの漏れを推論するように導きます。
これにより、コアの緊張が明らかになります。推論はユーティリティを改善しますが、プライバシー攻撃の表面を拡大します。
私たちは、安全努力は、その出力だけでなく、モデルの内部思考にまで拡大しなければならないと主張します。

要約(オリジナル)

We study privacy leakage in the reasoning traces of large reasoning models used as personal agents. Unlike final outputs, reasoning traces are often assumed to be internal and safe. We challenge this assumption by showing that reasoning traces frequently contain sensitive user data, which can be extracted via prompt injections or accidentally leak into outputs. Through probing and agentic evaluations, we demonstrate that test-time compute approaches, particularly increased reasoning steps, amplify such leakage. While increasing the budget of those test-time compute approaches makes models more cautious in their final answers, it also leads them to reason more verbosely and leak more in their own thinking. This reveals a core tension: reasoning improves utility but enlarges the privacy attack surface. We argue that safety efforts must extend to the model’s internal thinking, not just its outputs.

arxiv情報

著者 Tommaso Green,Martin Gubri,Haritz Puerto,Sangdoo Yun,Seong Joon Oh
発行日 2025-06-18 17:57:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR | Leaky Thoughts: Large Reasoning Models Are Not Private Thinkers はコメントを受け付けていません

Dense SAE Latents Are Features, Not Bugs

要約

スパース自動エンコーダー(SAE)は、スパース性の制約を強制することにより、言語モデルから解釈可能な機能を抽出するように設計されています。
理想的には、SAEを訓練すると、まばらで意味的に意味のある潜在性が得られます。
ただし、多くのSAE潜水種は頻繁に活性化されます(つまり、\ emphing {dense})。トレーニング手順の望ましくないアーティファクトである可能性があるという懸念を引き起こします。
この作業では、密集した潜在性のジオメトリ、関数、および起源を体系的に調査し、それらが持続的であるだけでなく、しばしば意味のあるモデル表現を反映していることを示します。
最初に、密集した潜在性は、残留ストリームの特定の方向を再構築する抗極極ペアを形成する傾向があり、サブスペースを除去すると、再訓練されたSAEの新しい密な特徴の出現を抑制することを実証します。
次に、密集した潜在性の分類法を導入し、位置追跡、コンテキストバインディング、エントロピー調節、文字固有の出力信号、スピーチ、および主成分再構成に関連するクラスを特定します。
最後に、これらの機能が層を越えてどのように進化するかを分析し、初期層の構造的特徴から、中層の意味的特徴、そして最後にモデルの最後の層の出力指向信号へのシフトを明らかにします。
私たちの調査結果は、密集した潜在性が言語モデルの計算において機能的役割に役立ち、トレーニングノイズとして却下されるべきではないことを示しています。

要約(オリジナル)

Sparse autoencoders (SAEs) are designed to extract interpretable features from language models by enforcing a sparsity constraint. Ideally, training an SAE would yield latents that are both sparse and semantically meaningful. However, many SAE latents activate frequently (i.e., are \emph{dense}), raising concerns that they may be undesirable artifacts of the training procedure. In this work, we systematically investigate the geometry, function, and origin of dense latents and show that they are not only persistent but often reflect meaningful model representations. We first demonstrate that dense latents tend to form antipodal pairs that reconstruct specific directions in the residual stream, and that ablating their subspace suppresses the emergence of new dense features in retrained SAEs — suggesting that high density features are an intrinsic property of the residual space. We then introduce a taxonomy of dense latents, identifying classes tied to position tracking, context binding, entropy regulation, letter-specific output signals, part-of-speech, and principal component reconstruction. Finally, we analyze how these features evolve across layers, revealing a shift from structural features in early layers, to semantic features in mid layers, and finally to output-oriented signals in the last layers of the model. Our findings indicate that dense latents serve functional roles in language model computation and should not be dismissed as training noise.

arxiv情報

著者 Xiaoqing Sun,Alessandro Stolfo,Joshua Engels,Ben Wu,Senthooran Rajamanoharan,Mrinmaya Sachan,Max Tegmark
発行日 2025-06-18 17:59:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Dense SAE Latents Are Features, Not Bugs はコメントを受け付けていません

A Real-time Endoscopic Image Denoising System

要約

小型化された設計を備えた内視鏡は、医療処置の侵襲性を大幅に減らしながら、運用上の柔軟性、携帯性、診断能力を大幅に向上させています。
最近、1mm x 1mm未満の超コンパクトなアナログイメージセンサーを備えたシングル使用内視鏡を、革新的な進歩を医療診断にもたらします。
それらは、再利用可能なデバイスに関連する構造的冗長性と大規模な資本支出を減らし、不十分な消毒によって引き起こされる患者感染のリスクを排除し、患者の苦しみを緩和します。
ただし、光感受性領域が限られているため、ピクセルあたりの光子捕獲が減少し、適切な輝度を維持するためにより高い光子感度設定が必要です。
高コントラストの医療イメージングシナリオでは、小さなサイズのセンサーは制約されたダイナミックレンジを示し、ハイライトと影の両方で詳細を同時にキャプチャすることを困難にし、補償するために追加のローカライズされたデジタルゲインが必要です。
さらに、単純化された回路設計とアナログ信号伝送により、追加のノイズ源が導入されます。
これらの要因は、加工された内視鏡画像の重大な騒音の問題にまとめて寄与しています。
この作業では、医療内視鏡のアナログイメージセンサーの包括的なノイズモデルを開発し、固定パターンノイズ、周期的なバンディングノイズ、および混合ポアソンガウスノイズの3つの主要なノイズタイプに対処しました。
この分析に基づいて、従来の画像処理アルゴリズムとセンサーからキャプチャされた生フレームの高度な学習ベースの手法を相乗的に組み合わせたハイブリッド除去システムを提案します。
実験は、私たちのアプローチにより、詳細な損失や色の歪みなしに画像ノイズを効果的に減らし、FPGAプラットフォームでリアルタイムのパフォーマンスを達成し、テストデータセットで平均PSNR改善を達成します。

要約(オリジナル)

Endoscopes featuring a miniaturized design have significantly enhanced operational flexibility, portability, and diagnostic capability while substantially reducing the invasiveness of medical procedures. Recently, single-use endoscopes equipped with an ultra-compact analogue image sensor measuring less than 1mm x 1mm bring revolutionary advancements to medical diagnosis. They reduce the structural redundancy and large capital expenditures associated with reusable devices, eliminate the risk of patient infections caused by inadequate disinfection, and alleviate patient suffering. However, the limited photosensitive area results in reduced photon capture per pixel, requiring higher photon sensitivity settings to maintain adequate brightness. In high-contrast medical imaging scenarios, the small-sized sensor exhibits a constrained dynamic range, making it difficult to simultaneously capture details in both highlights and shadows, and additional localized digital gain is required to compensate. Moreover, the simplified circuit design and analog signal transmission introduce additional noise sources. These factors collectively contribute to significant noise issues in processed endoscopic images. In this work, we developed a comprehensive noise model for analog image sensors in medical endoscopes, addressing three primary noise types: fixed-pattern noise, periodic banding noise, and mixed Poisson-Gaussian noise. Building on this analysis, we propose a hybrid denoising system that synergistically combines traditional image processing algorithms with advanced learning-based techniques for captured raw frames from sensors. Experiments demonstrate that our approach effectively reduces image noise without fine detail loss or color distortion, while achieving real-time performance on FPGA platforms and an average PSNR improvement from 21.16 to 33.05 on our test dataset.

arxiv情報

著者 Yu Xing,Shishi Huang,Meng Lv,Guo Chen,Huailiang Wang,Lingzhi Sui
発行日 2025-06-18 12:12:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | A Real-time Endoscopic Image Denoising System はコメントを受け付けていません

Incorporating Pre-training Data Matters in Unsupervised Domain Adaptation

要約

ディープラーニングでは、事前に訓練された重量を持つ初期化モデルが、さまざまなダウンストリームタスクの事実上の実践となっています。
多くの監視されていないドメイン適応(UDA)メソッドは、通常、Imagenetで事前に訓練されたバックボーンを採用し、ソースターゲットドメインの不一致を減らすことに焦点を当てています。
しかし、適応前のトレーニングの影響はほとんど注目されませんでした。
この研究では、トレーニング前の斬新な観点からUDAを掘り下げます。
最初に、適応中にトレーニング前のデータドメインとソース/ターゲットドメインとの間の動的な分布の不一致を分析することにより、事前トレーニングの影響を実証します。
次に、ターゲットエラーが次の2つの要因でトレーニング前に生じることを明らかにします。1)経験的に、ターゲットエラーは、適応中の徐々に変性事前訓練の知識から生じます。
2)理論的には、エラーバウンドは、ターゲットドメインとトレーニング前のデータドメイン上の損失関数の勾配の差に依存します。
これらの2つの問題に対処するために、UDAを3ドメインの問題、\ IE、ソースドメイン、ターゲットドメイン、およびトレーニング前のデータドメインとして再定義します。
次に、Tridaという名前の新しいフレームワークを提案します。
事前に訓練された知識を維持し、トレーニング前のデータをバニラUDAとソースフリーのUDAシナリオの両方の適応に組み込むことにより、エラーを改善します。
効率のために、トレーニング前のデータの選択戦略を導入し、適応中に事前トレーニングデータが利用できない場合に合成画像を使用したソリューションを提供します。
特に、TRIDAは、少量の事前トレーニングまたは合成された画像でも効果的であり、2つのシナリオUDAメソッドをシームレスに補完し、複数のベンチマークにわたって最先端のパフォーマンスを実証しています。
私たちの仕事が、ドメイン適応のより良い理解と応用のための新しい洞察を提供することを願っています。

要約(オリジナル)

In deep learning, initializing models with pre-trained weights has become the de facto practice for various downstream tasks. Many unsupervised domain adaptation (UDA) methods typically adopt a backbone pre-trained on ImageNet, and focus on reducing the source-target domain discrepancy. However, the impact of pre-training on adaptation received little attention. In this study, we delve into UDA from the novel perspective of pre-training. We first demonstrate the impact of pre-training by analyzing the dynamic distribution discrepancies between pre-training data domain and the source/ target domain during adaptation. Then, we reveal that the target error also stems from the pre-training in the following two factors: 1) empirically, target error arises from the gradually degenerative pre-trained knowledge during adaptation; 2) theoretically, the error bound depends on difference between the gradient of loss function, \ie, on the target domain and pre-training data domain. To address these two issues, we redefine UDA as a three-domain problem, \ie, source domain, target domain, and pre-training data domain; then we propose a novel framework, named TriDA. We maintain the pre-trained knowledge and improve the error bound by incorporating pre-training data into adaptation for both vanilla UDA and source-free UDA scenarios. For efficiency, we introduce a selection strategy for pre-training data, and offer a solution with synthesized images when pre-training data is unavailable during adaptation. Notably, TriDA is effective even with a small amount of pre-training or synthesized images, and seamlessly complements the two scenario UDA methods, demonstrating state-of-the-art performance across multiple benchmarks. We hope our work provides new insights for better understanding and application of domain adaptation.

arxiv情報

著者 Yinsong Xu,Aidong Men,Yang Liu,Xiahai Zhuang,Qingchao Chen
発行日 2025-06-18 12:18:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Incorporating Pre-training Data Matters in Unsupervised Domain Adaptation はコメントを受け付けていません

MCOO-SLAM: A Multi-Camera Omnidirectional Object SLAM System

要約

オブジェクトレベルのSLAMは、構造化された意味的に意味のある環境表現を提供し、高レベルのロボットタスクにより解釈可能で適しています。
ただし、既存のアプローチのほとんどは、RGB-Dセンサーまたは単眼ビューに依存しています。これは、特に大規模または屋外環境で、視野の狭い視野、閉塞感度、および限られた深さ知覚に悩まされています。
これらの制限により、システムが限られた視点からオブジェクトの部分的なビューのみを観察することに制限されていることが多く、オブジェクトのモデリングと信頼性の低いデータ関連につながります。
この作業では、複雑な屋外シナリオで堅牢で一貫した、意味的に濃縮されたマッピングを実現するためにサラウンドビューカメラの構成を完全に活用する新しいマルチカメラ全様式オブジェクトスラムシステムであるMCOO-SLAMを提案します。
当社のアプローチは、オープンボキャブラリーセマンティクスで強化されたポイント機能とオブジェクトレベルのランドマークを統合します。
複数のビューにわたって堅牢なオブジェクトアソシエーションのためにセマンティックジョーメトリックの融合融合戦略が導入され、一貫性と正確なオブジェクトモデリングの改善につながり、シーンレベルの記述子を使用した視点型範囲認識を有効にするように設計されています。
さらに、構築されたマップは、下流の推論タスクをサポートするために、階層的な3Dシーングラフに抽象化されています。
現実世界での広範な実験は、MCOO-SLAMが正確なローカリゼーションとスケーラブルなオブジェクトレベルのマッピングを達成し、閉塞、ポーズの変動、環境の複雑さに対する堅牢性が向上したことを示しています。

要約(オリジナル)

Object-level SLAM offers structured and semantically meaningful environment representations, making it more interpretable and suitable for high-level robotic tasks. However, most existing approaches rely on RGB-D sensors or monocular views, which suffer from narrow fields of view, occlusion sensitivity, and limited depth perception-especially in large-scale or outdoor environments. These limitations often restrict the system to observing only partial views of objects from limited perspectives, leading to inaccurate object modeling and unreliable data association. In this work, we propose MCOO-SLAM, a novel Multi-Camera Omnidirectional Object SLAM system that fully leverages surround-view camera configurations to achieve robust, consistent, and semantically enriched mapping in complex outdoor scenarios. Our approach integrates point features and object-level landmarks enhanced with open-vocabulary semantics. A semantic-geometric-temporal fusion strategy is introduced for robust object association across multiple views, leading to improved consistency and accurate object modeling, and an omnidirectional loop closure module is designed to enable viewpoint-invariant place recognition using scene-level descriptors. Furthermore, the constructed map is abstracted into a hierarchical 3D scene graph to support downstream reasoning tasks. Extensive experiments in real-world demonstrate that MCOO-SLAM achieves accurate localization and scalable object-level mapping with improved robustness to occlusion, pose variation, and environmental complexity.

arxiv情報

著者 Miaoxin Pan,Jinnan Li,Yaowen Zhang,Yi Yang,Yufeng Yue
発行日 2025-06-18 12:20:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | MCOO-SLAM: A Multi-Camera Omnidirectional Object SLAM System はコメントを受け付けていません

NERO: Explainable Out-of-Distribution Detection with Neuron-level Relevance

要約

特に診断の決定がモデルの出力にかかっていることが多い医療イメージングの領域内で、深い学習において信頼性が最も重要であることを保証します。
分散除外(OOD)サンプルを分離する能力は、研究におけるモデルの信頼性の貴重な指標であることが証明されています。
医療イメージングでは、これは特に重要です。これは、ood入力を識別することで、そうでなければ検出されない可能性のある潜在的な異常にフラグを立てるのに役立つためです。
多くのOOD検出方法は機能またはロジットスペースの表現に依存していますが、最近の作業は、これらのアプローチがOODの多様性を完全にキャプチャしない可能性があることを示唆しています。
これに対処するために、Neroと呼ばれる新しいOODスコアリングメカニズムを提案します。これは、特徴層でニューロンレベルの関連性を活用します。
具体的には、各分布(IN分布(ID)クラスのニューロンレベルの関連性をクラスター化して、代表的な重心を形成し、関連する距離メトリックを導入して、これらの重心からの新しいサンプルの偏差を定量化し、OOD分離性を高めます。
さらに、バイアス用語にスケーリングされた関連性を組み込み、特徴規範を組み合わせることにより、パフォーマンスを改善します。
また、私たちのフレームワークは、説明可能なOOD検出を可能にします。
胃腸のイメージングベンチマークKvasirおよびGastrovision上の複数の深い学習アーキテクチャにわたるその有効性を検証し、最先端のOOD検出方法の改善を達成します。

要約(オリジナル)

Ensuring reliability is paramount in deep learning, particularly within the domain of medical imaging, where diagnostic decisions often hinge on model outputs. The capacity to separate out-of-distribution (OOD) samples has proven to be a valuable indicator of a model’s reliability in research. In medical imaging, this is especially critical, as identifying OOD inputs can help flag potential anomalies that might otherwise go undetected. While many OOD detection methods rely on feature or logit space representations, recent works suggest these approaches may not fully capture OOD diversity. To address this, we propose a novel OOD scoring mechanism, called NERO, that leverages neuron-level relevance at the feature layer. Specifically, we cluster neuron-level relevance for each in-distribution (ID) class to form representative centroids and introduce a relevance distance metric to quantify a new sample’s deviation from these centroids, enhancing OOD separability. Additionally, we refine performance by incorporating scaled relevance in the bias term and combining feature norms. Our framework also enables explainable OOD detection. We validate its effectiveness across multiple deep learning architectures on the gastrointestinal imaging benchmarks Kvasir and GastroVision, achieving improvements over state-of-the-art OOD detection methods.

arxiv情報

著者 Anju Chhetri,Jari Korhonen,Prashnna Gyawali,Binod Bhattarai
発行日 2025-06-18 12:22:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | NERO: Explainable Out-of-Distribution Detection with Neuron-level Relevance はコメントを受け付けていません

A Bird Song Detector for improving bird identification through Deep Learning: a case study from Doñana

要約

パッシブ音響モニタリングは、生物多様性の保全のための重要なツールですが、監視されていないオーディオの大量は、意味のある情報を抽出するための現在の主要な課題を生み出します。
ディープラーニングは有望なソリューションを提供します。
広く使用されている鳥の識別モデルであるBirdnetは、多くの研究システムで成功を示していますが、トレーニングデータのバイアスのためにローカルスケールで制限されています。これは、サウンドスケープ全体ではなく特定の場所とターゲットサウンドに焦点を当てています。
鳥種の識別における重要な課題は、多くの記録が標的種を欠いているか、重複する発声を含んでおり、自動識別を複雑にすることです。
これらの問題に対処するために、高保全の懸念のある湿地であるDo \ 〜Nana国立公園(SWスペイン)で、自動鳥の発声識別のためのマルチステージパイプラインを開発しました。
9つの場所に3つの主要な生息地にオーディオモットレコーダーを展開し、461分のオーディオに手動で注釈を付け、349のラベル付きセグメントを34クラスに渡りました。
最初に、スペクトログラムベースの画像処理を使用して鳥の発声を分離するために鳥の歌検出器を適用しました。
その後、種は、ローカルスケールでトレーニングされたカスタムモデルを使用して分類されました。
分類前に鳥の歌検出器を適用すると、種の識別が改善されました。鳥が検出されたセグメントのみを分析するときにすべてのモデルのパフォーマンスが向上したためです。
具体的には、検出器と微調整されたバードネットの組み合わせは、検出せずにベースラインよりも優れていました。
このアプローチは、鳥の歌検出器をローカル分類モデルと統合することの有効性を示しています。
これらの調査結果は、汎用ツールを特定の生態学的課題に適応させる必要性を強調しています。
環境の変化に対する鳥の感受性を考慮して、鳥種を自動的に検出すると、この脅迫された生態系の健康を追跡し、生物多様性の損失を減らすための保全計画をサポートします。

要約(オリジナル)

Passive Acoustic Monitoring is a key tool for biodiversity conservation, but the large volumes of unsupervised audio it generates present major challenges for extracting meaningful information. Deep Learning offers promising solutions. BirdNET, a widely used bird identification model, has shown success in many study systems but is limited at local scale due to biases in its training data, which focus on specific locations and target sounds rather than entire soundscapes. A key challenge in bird species identification is that many recordings either lack target species or contain overlapping vocalizations, complicating automatic identification. To address these problems, we developed a multi-stage pipeline for automatic bird vocalization identification in Do\~nana National Park (SW Spain), a wetland of high conservation concern. We deployed AudioMoth recorders in three main habitats across nine locations and manually annotated 461 minutes of audio, resulting in 3749 labeled segments spanning 34 classes. We first applied a Bird Song Detector to isolate bird vocalizations using spectrogram-based image processing. Then, species were classified using custom models trained at the local scale. Applying the Bird Song Detector before classification improved species identification, as all models performed better when analyzing only the segments where birds were detected. Specifically, the combination of detector and fine-tuned BirdNET outperformed the baseline without detection. This approach demonstrates the effectiveness of integrating a Bird Song Detector with local classification models. These findings highlight the need to adapt general-purpose tools to specific ecological challenges. Automatically detecting bird species helps track the health of this threatened ecosystem, given birds sensitivity to environmental change, and supports conservation planning to reduce biodiversity loss.

arxiv情報

著者 Alba Márquez-Rodríguez,Miguel Ángel Mohedano-Munoz,Manuel J. Marín-Jiménez,Eduardo Santamaría-García,Giulia Bastianelli,Pedro Jordano,Irene Mendoza
発行日 2025-06-18 12:27:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.NE, cs.SD, I.2.6 | A Bird Song Detector for improving bird identification through Deep Learning: a case study from Doñana はコメントを受け付けていません