High-order regularization dealing with ill-conditioned robot localization problems

要約

この作業では、ロボットのローカリゼーションにおける条件の違反の問題を解決するための高次の正規化方法を提案します。
ロボットのローカリゼーションの問題に対する数値解決策は、問題が条件付けされていない場合に不安定になることがよくあります。
条件付けされていない問題を解決する典型的な方法は正則化であり、古典的な正則化方法はTikhonovの正則化です。
ティコノフの正規化は、私たちの方法の低次のケースであることが示されています。
提案された方法は、いくつかの基本的なロボットのローカリゼーション問題など、いくつかの条件付けされた逆の問題を近似する際に、チコノフの正則化よりも優れていることがわかります。
提案された方法は、マトリックスの逆の近似で複数の用語を使用するため、ティコノフの正則化の過剰な滑らかな問題を克服し、チコノフの正規化の過剰滑らかな説明の説明が示されています。
さらに、最適な正則化マトリックスを取得するために、条件付きの問題の数値の安定性を改善する先験的な基準が提案されています。
ほとんどの正規化ソリューションが偏っているため、提案された高次の正規化のための2つのバイアス補正手法も提供します。
3D環境で超幅帯域帯域センサーネットワークを使用したシミュレーションと実験結果について説明し、提案された方法のパフォーマンスを実証します。

要約(オリジナル)

In this work, we propose a high-order regularization method to solve the ill-conditioned problems in robot localization. Numerical solutions to robot localization problems are often unstable when the problems are ill-conditioned. A typical way to solve ill-conditioned problems is regularization, and a classical regularization method is the Tikhonov regularization. It is shown that the Tikhonov regularization is a low-order case of our method. We find that the proposed method is superior to the Tikhonov regularization in approximating some ill-conditioned inverse problems, such as some basic robot localization problems. The proposed method overcomes the over-smoothing problem in the Tikhonov regularization as it uses more than one term in the approximation of the matrix inverse, and an explanation for the over-smoothing of the Tikhonov regularization is given. Moreover, one a priori criterion, which improves the numerical stability of the ill-conditioned problem, is proposed to obtain an optimal regularization matrix. As most of the regularization solutions are biased, we also provide two bias-correction techniques for the proposed high-order regularization. The simulation and experimental results using an Ultra-Wideband sensor network in a 3D environment are discussed, demonstrating the performance of the proposed method.

arxiv情報

著者 Xinghua Liu,Ming Cao
発行日 2025-05-06 14:36:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | High-order regularization dealing with ill-conditioned robot localization problems はコメントを受け付けていません

Meta-reasoning Using Attention Maps and Its Applications in Cloud Robotics

要約

AIの支部であるMetareasoningは、理由についての推論に焦点を当てています。
予期せぬ状況でロボットの意思決定プロセスを強化する可能性があります。
ただし、この概念は、主に理論的な議論とケースバイケースの調査に限定されてきましたが、計算の価値(VOC)が未定義である場合、一般的かつ実用的な解決策がありません。これは予期しない状況で一般的です。
この作業では、予期しない状況での元のアプローチのスケーラビリティを大幅に向上させる改訂されたメタ季節フレームワークを提案します。
これは、セマンティックな注意マップと監視されていない「注意」の更新をメタレーピングプロセスに組み込むことによって達成されます。
環境のダイナミクスに対応するために、「Line of Thound」は、抽象化された注意を払ってコンテキスト固有のオブジェクトを橋渡しするために使用されますが、メタ情報は効果的な推論のためにメタレベルで監視および制御されます。
提案されたアプローチの実用性は、実際のシナリオで展開されたクラウドロボットを通じて実証されており、パフォーマンスと堅牢性の向上を示しています。

要約(オリジナル)

Metareasoning, a branch of AI, focuses on reasoning about reasons. It has the potential to enhance robots’ decision-making processes in unexpected situations. However, the concept has largely been confined to theoretical discussions and case-by-case investigations, lacking general and practical solutions when the Value of Computation (VoC) is undefined, which is common in unexpected situations. In this work, we propose a revised meta-reasoning framework that significantly improves the scalability of the original approach in unexpected situations. This is achieved by incorporating semantic attention maps and unsupervised ‘attention’ updates into the metareasoning processes. To accommodate environmental dynamics, ‘lines of thought’ are used to bridge context-specific objects with abstracted attentions, while meta-information is monitored and controlled at the meta-level for effective reasoning. The practicality of the proposed approach is demonstrated through cloud robots deployed in real-world scenarios, showing improved performance and robustness.

arxiv情報

著者 Adrian Lendinez,Renxi Qiu,Lanfranco Zanzi,Dayou Li
発行日 2025-05-06 14:48:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Meta-reasoning Using Attention Maps and Its Applications in Cloud Robotics はコメントを受け付けていません

J-PARSE: Jacobian-based Projection Algorithm for Resolving Singularities Effectively in Inverse Kinematic Control of Serial Manipulators

要約

J-Parseは、運動学的特異性の近くの連続マニピュレーターの滑らかな一次逆運動制御の方法です。
コマンドされたエンド効果速度は、タスク空間の各次元で利用可能なモビリティに応じて、コンポーネントごとに解釈されます。
第一に、代替の「安全」ヤコビアンマトリックスが作成され、操作性楕円体のアスペクト比をしきい値を超えて保ちます。
その後、目的の動きは非弦楽様の方向と特異な方向に投影され、後者の投影はしきい値によって通知される因子によってスケーリングされます。
sing弦のない安全性の右逆ジャコビアンが修正コマンドに適用されます。
共同限界と衝突がない場合、これにより、低ランクのポーズへの滑らかな移行が保証され、ワー​​クスペース内のターゲットポーズの漸近安定性が保証され、外部の人々の安定性が保証されます。
J-Parseによる速度制御は、ヤコビアンの最小二乗および減衰の最小二乗反転に対してベンチマークされ、特異なターゲットポーズに到達して残る際に高い精度を示します。
マニピュレーターの利用可能なワークスペースを拡張することにより、この方法はサーボ、テレオ操作、学習のアプリケーションを見つけます。

要約(オリジナル)

J-PARSE is a method for smooth first-order inverse kinematic control of a serial manipulator near kinematic singularities. The commanded end-effector velocity is interpreted component-wise, according to the available mobility in each dimension of the task space. First, a substitute ‘Safety’ Jacobian matrix is created, keeping the aspect ratio of the manipulability ellipsoid above a threshold value. The desired motion is then projected onto non-singular and singular directions, and the latter projection scaled down by a factor informed by the threshold value. A right-inverse of the non-singular Safety Jacobian is applied to the modified command. In the absence of joint limits and collisions, this ensures smooth transition into and out of low-rank poses, guaranteeing asymptotic stability for target poses within the workspace, and stability for those outside. Velocity control with J-PARSE is benchmarked against the Least-Squares and Damped Least-Squares inversions of the Jacobian, and shows high accuracy in reaching and leaving singular target poses. By expanding the available workspace of manipulators, the method finds applications in servoing, teleoperation, and learning.

arxiv情報

著者 Shivani Guptasarma,Matthew Strong,Honghao Zhen,Monroe Kennedy III
発行日 2025-05-06 16:08:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | J-PARSE: Jacobian-based Projection Algorithm for Resolving Singularities Effectively in Inverse Kinematic Control of Serial Manipulators はコメントを受け付けていません

RoboOS: A Hierarchical Embodied Framework for Cross-Embodiment and Multi-Agent Collaboration

要約

具体化されたインテリジェンスの夜明けは、次世代の生態系にわたる回復力のある認知対応マルチエージェントコラボレーション、自律的な製造、適応型サービスロボット工学、サイバー物理生産アーキテクチャのパラダイムに革命をもたらすための前例のない命令に導かれました。
ただし、現在のロボットシステムは、限られた交差体の適応性、非効率的なタスクスケジューリング、動的エラー補正が不十分ななど、大きな制限に直面しています。
エンドツーエンドのVLAモデルは不十分な長老の計画とタスクの一般化を示していますが、階層VLAモデルは、交差体の存在と多象徴的な調整機能の欠如に苦しんでいます。
これらの課題に対処するために、脳小脳の階層構造に基づいて構築された最初のオープンソース具体化されたシステムであるRoboosを導入し、単一エージェントからマルチエージェントインテリジェンスへのパラダイムシフトを可能にします。
具体的には、ロブーは3つの重要なコンポーネントで構成されています。(1)具体化された脳モデル(ロボブリン)、グローバルな認識と高レベルの意思決定のために設計されたMLLM。
(2)複数のスキルのシームレスな実行を促進するモジュール式のプラグアンドプレイツールキットであるセレベラムスキルライブラリ。
(3)マルチエージェント状態を調整するための時空間的同期メカニズムであるリアルタイム共有メモリ。
階層情報の流れを統合することにより、Roboos Bridgesは脳と小脳スキルライブラリを具体化し、リアルタイム共有メモリを通じて効率的なマルチエージェントコラボレーションを確保しながら、堅牢な計画、スケジューリング、およびエラー修正を促進します。
さらに、高周波相互作用を促進し、スケーラブルな展開を可能にするために、エッジクラウド通信とクラウドベースの分散推論を強化します。
さまざまなシナリオにわたる広範な現実世界の実験は、不均一な実施形態をサポートする際のロブーの多様性を示しています。
プロジェクトWebサイト:https://github.com/flagopen/roboos

要約(オリジナル)

The dawn of embodied intelligence has ushered in an unprecedented imperative for resilient, cognition-enabled multi-agent collaboration across next-generation ecosystems, revolutionizing paradigms in autonomous manufacturing, adaptive service robotics, and cyber-physical production architectures. However, current robotic systems face significant limitations, such as limited cross-embodiment adaptability, inefficient task scheduling, and insufficient dynamic error correction. While End-to-end VLA models demonstrate inadequate long-horizon planning and task generalization, hierarchical VLA models suffer from a lack of cross-embodiment and multi-agent coordination capabilities. To address these challenges, we introduce RoboOS, the first open-source embodied system built on a Brain-Cerebellum hierarchical architecture, enabling a paradigm shift from single-agent to multi-agent intelligence. Specifically, RoboOS consists of three key components: (1) Embodied Brain Model (RoboBrain), a MLLM designed for global perception and high-level decision-making; (2) Cerebellum Skill Library, a modular, plug-and-play toolkit that facilitates seamless execution of multiple skills; and (3) Real-Time Shared Memory, a spatiotemporal synchronization mechanism for coordinating multi-agent states. By integrating hierarchical information flow, RoboOS bridges Embodied Brain and Cerebellum Skill Library, facilitating robust planning, scheduling, and error correction for long-horizon tasks, while ensuring efficient multi-agent collaboration through Real-Time Shared Memory. Furthermore, we enhance edge-cloud communication and cloud-based distributed inference to facilitate high-frequency interactions and enable scalable deployment. Extensive real-world experiments across various scenarios, demonstrate RoboOS’s versatility in supporting heterogeneous embodiments. Project website: https://github.com/FlagOpen/RoboOS

arxiv情報

著者 Huajie Tan,Xiaoshuai Hao,Minglan Lin,Pengwei Wang,Yaoxu Lyu,Mingyu Cao,Zhongyuan Wang,Shanghang Zhang
発行日 2025-05-06 16:11:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | RoboOS: A Hierarchical Embodied Framework for Cross-Embodiment and Multi-Agent Collaboration はコメントを受け付けていません

Frenet Corridor Planner: An Optimal Local Path Planning Framework for Autonomous Driving

要約

有効性と効率の要件に動機付けられているため、経路速度分解ベースの軌道計画方法は、自律的な駆動アプリケーションに広く採用されています。
グローバルルートはオフラインで事前に計算される可能性がありますが、リアルタイムの適応ローカルパスの生成は非常に重要です。
したがって、障害物の周りのスムーズで安全なナビゲーションを保証する自律運転のための最適化に基づいたローカルパス計画戦略であるFrenet Corridor Planner(FCP)を紹介します。
車両を、フレネの空間で凸型の船体として安全性の高い境界箱と歩行者としてモデリングすると、このアプローチは、静的障害物の適切な偏差側を決定することにより、駆動可能な回廊を定義します。
その後、修正された宇宙ドメイン自転車運動学モデルにより、滑らかさ、境界クリアランス、動的障害物リスクの最小化のためのパスの最適化が可能になります。
その後、最適化されたパスが速度プランナーに渡され、最終的な軌跡が生成されます。
広範なシミュレーションと実際のハードウェア実験を通じてFCPを検証し、その効率と有効性を実証します。

要約(オリジナル)

Motivated by the requirements for effectiveness and efficiency, path-speed decomposition-based trajectory planning methods have widely been adopted for autonomous driving applications. While a global route can be pre-computed offline, real-time generation of adaptive local paths remains crucial. Therefore, we present the Frenet Corridor Planner (FCP), an optimization-based local path planning strategy for autonomous driving that ensures smooth and safe navigation around obstacles. Modeling the vehicles as safety-augmented bounding boxes and pedestrians as convex hulls in the Frenet space, our approach defines a drivable corridor by determining the appropriate deviation side for static obstacles. Thereafter, a modified space-domain bicycle kinematics model enables path optimization for smoothness, boundary clearance, and dynamic obstacle risk minimization. The optimized path is then passed to a speed planner to generate the final trajectory. We validate FCP through extensive simulations and real-world hardware experiments, demonstrating its efficiency and effectiveness.

arxiv情報

著者 Faizan M. Tariq,Zheng-Hang Yeh,Avinash Singh,David Isele,Sangjae Bae
発行日 2025-05-06 17:00:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Frenet Corridor Planner: An Optimal Local Path Planning Framework for Autonomous Driving はコメントを受け付けていません

Meta-Optimization and Program Search using Language Models for Task and Motion Planning

要約

現実の世界とのインテリジェントな相互作用には、ロボットエージェントが高レベルの計画と低レベルのコントロールを共同で推論する必要があります。
タスクとモーションプランニング(TAMP)は、象徴的な計画と継続的な軌道生成を組み合わせて、これに対処します。
最近、TAMPへの基礎モデルのアプローチは、迅速な計画時間や自然言語の指示の実行など、印象的な結果を提示しました。
しかし、高レベルの計画と低レベルのモーション生成の間の最適なインターフェースは、未解決の問題のままです。事前のアプローチは、あまりにも多くの抽象化(たとえば、単純化されたスキルプリミティブの連鎖)またはその欠如(例えば、直接関節角予測)によって制限されます。
私たちの方法では、これらの問題に対処するためのメタ最適化の形式を使用した新しい手法を紹介します。(i)軌跡最適化問題を介したプログラム検索を使用して、基礎モデルとロボット制御の間のインターフェースとして、(ii)ゼロオーダーメソッドを活用して、基礎モデル出力の数値パラメーターを最適化します。
挑戦的なオブジェクトの操作と描画タスクの結果は、提案された方法が以前のTAMPアプローチで改善されることを確認します。

要約(オリジナル)

Intelligent interaction with the real world requires robotic agents to jointly reason over high-level plans and low-level controls. Task and motion planning (TAMP) addresses this by combining symbolic planning and continuous trajectory generation. Recently, foundation model approaches to TAMP have presented impressive results, including fast planning times and the execution of natural language instructions. Yet, the optimal interface between high-level planning and low-level motion generation remains an open question: prior approaches are limited by either too much abstraction (e.g., chaining simplified skill primitives) or a lack thereof (e.g., direct joint angle prediction). Our method introduces a novel technique employing a form of meta-optimization to address these issues by: (i) using program search over trajectory optimization problems as an interface between a foundation model and robot control, and (ii) leveraging a zero-order method to optimize numerical parameters in the foundation model output. Results on challenging object manipulation and drawing tasks confirm that our proposed method improves over prior TAMP approaches.

arxiv情報

著者 Denis Shcherba,Eckart Cobo-Briesewitz,Cornelius V. Braun,Marc Toussaint
発行日 2025-05-06 17:53:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Meta-Optimization and Program Search using Language Models for Task and Motion Planning はコメントを受け付けていません

PyRoki: A Modular Toolkit for Robot Kinematic Optimization

要約

ロボットの動きには多くの目標があります。
タスクに応じて、ポーズエラー、速度、衝突、または人間のデモとの類似性を最適化する場合があります。
これに動機付けられて、私たちはPyroki:Modular、拡張可能、およびクロスプラットフォームのツールキットを、運動学的最適化の問題を解決するために提示します。
Pyrokiは、運動学的変数とコストを効率的な非線形最小二乗オプティマイザーで指定するためのインターフェイスを結合します。
既存のツールとは異なり、クロスプラットフォーム:最適化はCPU、GPU、およびTPUでネイティブに実行されます。
この論文では、(i)ピロキの設計と実装、(ii)ピロキのモジュール性の利点を強調するモーションリターゲティングと計画ケーススタディ、および(iii)最適化ベンチマークを示します。

要約(オリジナル)

Robot motion can have many goals. Depending on the task, we might optimize for pose error, speed, collision, or similarity to a human demonstration. Motivated by this, we present PyRoki: a modular, extensible, and cross-platform toolkit for solving kinematic optimization problems. PyRoki couples an interface for specifying kinematic variables and costs with an efficient nonlinear least squares optimizer. Unlike existing tools, it is also cross-platform: optimization runs natively on CPU, GPU, and TPU. In this paper, we present (i) the design and implementation of PyRoki, (ii) motion retargeting and planning case studies that highlight the advantages of PyRoki’s modularity, and (iii) optimization benchmarking, where PyRoki can be 1.4-1.7x faster and converges to lower errors than cuRobo, an existing GPU-accelerated inverse kinematics library.

arxiv情報

著者 Chung Min Kim,Brent Yi,Hongsuk Choi,Yi Ma,Ken Goldberg,Angjoo Kanazawa
発行日 2025-05-06 17:56:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | PyRoki: A Modular Toolkit for Robot Kinematic Optimization はコメントを受け付けていません

Precision Glass Thermoforming Assisted by Neural Networks

要約

多くのガラス製品には、高精度で熱成形されたジオメトリが必要です。
ただし、試行やエラーを通じて熱成形プロセスを開発するという従来のアプローチは、時間とリソースの大きな無駄を引き起こし、しばしば失敗する可能性があります。
したがって、精密なガラス熱成形の設計を支援するために、高価なシミュレーションまたは実験を置き換える効率的な予測モデルを開発する必要があります。
この作業では、幾何学的な機能とプロセスパラメーターを入力として使用して、フォームエラーを適切に予測できるため、フォームエラーを適切に予測できるため、形式エラーを適切に予測できるため、代理モデルを報告します。
シミュレーションと産業データを使用した試行は、代理モデルが適切な精度で形成エラーを予測できることを示しています。
知覚エラー(金型設計者の決定)と金型の製造エラーにより、産業トレーニングデータはシミュレーションデータよりも信頼性が低くなりますが、予備トレーニングとテストの結果は、産業データとの合理的な一貫性を達成しており、代理モデルがガラス製造業界で直接実装可能であることを示唆しています。

要約(オリジナル)

Many glass products require thermoformed geometry with high precision. However, the traditional approach of developing a thermoforming process through trials and errors can cause large waste of time and resources and often end up with unsuccessfulness. Hence, there is a need to develop an efficient predictive model, replacing the costly simulations or experiments, to assist the design of precision glass thermoforming. In this work, we report a surrogate model, based on a dimensionless back-propagation neural network (BPNN), that can adequately predict the form errors and thus compensate for these errors in mold design using geometric features and process parameters as inputs. Our trials with simulation and industrial data indicate that the surrogate model can predict forming errors with adequate accuracy. Although perception errors (mold designers’ decisions) and mold fabrication errors make the industrial training data less reliable than simulation data, our preliminary training and testing results still achieved a reasonable consistency with industrial data, suggesting that the surrogate models are directly implementable in the glass-manufacturing industry.

arxiv情報

著者 Yuzhou Zhang,Mohan Hua,Jinan Liu,Haihui Ruan
発行日 2025-05-06 13:14:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.LG | Precision Glass Thermoforming Assisted by Neural Networks はコメントを受け付けていません

Taking a Big Step: Large Learning Rates in Denoising Score Matching Prevent Memorization

要約

除去スコアマッチングは、拡散ベースの生成モデルのパフォーマンスにおいて極めて重要な役割を果たします。
ただし、経験的最適スコア(除去スコアマッチングの正確な解決策)は、生成されたサンプルがトレーニングデータを複製する記憶に導きます。
しかし、実際には、明示的な正則化がなくても、適度な程度の暗記のみが観察されています。
この論文では、大きな学習率によって駆動される暗黙の正則化メカニズムを明らかにすることにより、この現象を調査します。
具体的には、小さなノイズ体制では、経験的最適スコアが高い不規則性を示すことを示します。
次に、十分な十分な学習速度で確率的勾配降下によって訓練された場合、ニューラルネットワークは任意の小さな過剰リスクで局所的な最小値に安定的に収束することができないことを証明します。
その結果、学習スコアは経験的最適スコアに任意に近づくことはできず、それにより暗記を軽減します。
分析を扱いやすくするために、1次元データと2層ニューラルネットワークを検討します。
実験は、1次元の設定を超えても、暗記を防ぐ際の学習率の重要な役割を検証します。

要約(オリジナル)

Denoising score matching plays a pivotal role in the performance of diffusion-based generative models. However, the empirical optimal score–the exact solution to the denoising score matching–leads to memorization, where generated samples replicate the training data. Yet, in practice, only a moderate degree of memorization is observed, even without explicit regularization. In this paper, we investigate this phenomenon by uncovering an implicit regularization mechanism driven by large learning rates. Specifically, we show that in the small-noise regime, the empirical optimal score exhibits high irregularity. We then prove that, when trained by stochastic gradient descent with a large enough learning rate, neural networks cannot stably converge to a local minimum with arbitrarily small excess risk. Consequently, the learned score cannot be arbitrarily close to the empirical optimal score, thereby mitigating memorization. To make the analysis tractable, we consider one-dimensional data and two-layer neural networks. Experiments validate the crucial role of the learning rate in preventing memorization, even beyond the one-dimensional setting.

arxiv情報

著者 Yu-Han Wu,Pierre Marion,Gérard Biau,Claire Boyer
発行日 2025-05-06 13:17:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Taking a Big Step: Large Learning Rates in Denoising Score Matching Prevent Memorization はコメントを受け付けていません

AnomalyMatch: Discovering Rare Objects of Interest with Semi-supervised and Active Learning

要約

大規模なデータセットでの異常検出は、天文学やコンピュータービジョンなどの分野では不可欠です。
ただし、監視された方法では通常、広範な異常標識が必要です。これはしばしば非現実的です。
Anomalymatchは、アクティブな学習を備えたEfficientNet分類器を使用して、半監視FixMatchアルゴリズムを組み合わせた異常検出フレームワークです。
異常検出を半監視されたバイナリ分類問題として扱うことにより、限られたラベル付きおよび豊富な非標識画像を効率的に利用します。
ユーザーインターフェイスでの反復モデルの改良を許可し、自信の高い異常と誤検知の修正を専門的に検証します。
Anomalymatchは、天文データのために構築された、同様のデータの課題に直面している他のドメインに容易に一般化します。
Galaxymnist Astronomical DatasetおよびMiniimagenetの自然画像ベンチマークの重度のクラスの不均衡(ミニムゲネットの1%の異常)の評価は、5〜10個の標識異常を示し、3つのアクティブな学習サイクルの後、0.95(ミニメーテル)と0.86(Galaxinist)の平均Auroc(galaxynet)を達成します。
0.71。
アクティブな学習サイクルの後、アノマリーは、最高ランクの画像の1%で71%(ミニマゲネット)から93%の精度でランク付けされます。
Anomalymatchは、大規模なアプリケーションに合わせて調整されており、3日以内に1億画像の予測を1つのGPUで効率的に処理します。
ESAS Datalabsプラットフォームに統合されたAnomalymatchは、広大な天文データセットにおける科学的に価値のある異常の標的的な発見を促進します。
私たちの結果は、異常発見のためのこのアプローチの例外的な有用性とスケーラビリティを強調し、深刻なラベルの希少性を特徴とするドメインの特殊なアプローチの価値を強調しています。

要約(オリジナル)

Anomaly detection in large datasets is essential in fields such as astronomy and computer vision; however, supervised methods typically require extensive anomaly labelling, which is often impractical. We present AnomalyMatch, an anomaly detection framework combining the semi-supervised FixMatch algorithm using EfficientNet classifiers with active learning. By treating anomaly detection as a semi-supervised binary classification problem, we efficiently utilise limited labelled and abundant unlabelled images. We allow iterative model refinement in a user interface for expert verification of high-confidence anomalies and correction of false positives. Built for astronomical data, AnomalyMatch generalises readily to other domains facing similar data challenges. Evaluations on the GalaxyMNIST astronomical dataset and the miniImageNet natural-image benchmark under severe class imbalance (1% anomalies for miniImageNet) display strong performance: starting from five to ten labelled anomalies and after three active learning cycles, we achieve an average AUROC of 0.95 (miniImageNet) and 0.86 (GalaxyMNIST), with respective AUPRC of 0.77 and 0.71. After active learning cycles, anomalies are ranked with 71% (miniImageNet) to 93% precision in the 1% of the highest-ranked images. AnomalyMatch is tailored for large-scale applications, efficiently processing predictions for 100 million images within three days on a single GPU. Integrated into ESAs Datalabs platform, AnomalyMatch facilitates targeted discovery of scientifically valuable anomalies in vast astronomical datasets. Our results underscore the exceptional utility and scalability of this approach for anomaly discovery, highlighting the value of specialised approaches for domains characterised by severe label scarcity.

arxiv情報

著者 Pablo Gómez,David O’Ryan
発行日 2025-05-06 13:19:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.IM, cs.LG | AnomalyMatch: Discovering Rare Objects of Interest with Semi-supervised and Active Learning はコメントを受け付けていません