Learn2Decompose: Learning Problem Decomposition for Efficient Sequential Multi-object Manipulation Planning

要約

動的環境での効率的なシーケンシャルマルチオブジェクト操作のためのリアクティブタスクおよびモーションプランニング(TAMP)アプローチを提示します。
従来のTAMPソルバーは、計画の地平線とオブジェクトの数が増加するにつれて、計画時間の指数関数的な増加を経験し、実際のシナリオでの適用性を制限します。
これに対処するために、TAMPソルバーを加速するために、デモンストレーションからの学習問題分解を提案します。
私たちのアプローチは、目標分解学習、時間的遠隔学習、オブジェクトの削減の3つの重要なコンポーネントで構成されています。
目標分解は、最終目標に到達する前にシステムが通過する必要がある状態の必要なシーケンスを識別し、それらをサブゴールシーケンスとして扱います。
時間的距離学習は、2つの状態間の時間的距離を予測し、システムが乱れた状態から最も近いサブゴールを識別できるようにします。
オブジェクトの削減は、再生中に考慮されるアクティブオブジェクトのセットを最小限に抑え、効率をさらに向上させます。
3つのベンチマークでのアプローチを評価し、動的環境での連続したマルチオブジェクト操作タスクの再生効率を改善する上でその有効性を示しています。

要約(オリジナル)

We present a Reactive Task and Motion Planning (TAMP) approach for efficient sequential multi-object manipulation in dynamic environments. Conventional TAMP solvers experience an exponential increase in planning time as the planning horizon and number of objects grow, limiting their applicability in real-world scenarios. To address this, we propose learning problem decomposition from demonstrations to accelerate TAMP solvers. Our approach consists of three key components: goal decomposition learning, temporal distance learning, and object reduction. Goal decomposition identifies the necessary sequences of states that the system must pass through before reaching the final goal, treating them as subgoal sequences. Temporal distance learning predicts the temporal distance between two states, enabling the system to identify the closest subgoal from a disturbed state. Object reduction minimizes the set of active objects considered during replanning, further improving efficiency. We evaluate our approach on three benchmarks, demonstrating its effectiveness in improving replanning efficiency for sequential multi-object manipulation tasks in dynamic environments.

arxiv情報

著者 Yan Zhang,Teng Xue,Amirreza Razmjoo,Sylvain Calinon
発行日 2025-04-17 15:26:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Learn2Decompose: Learning Problem Decomposition for Efficient Sequential Multi-object Manipulation Planning はコメントを受け付けていません

Scalable Multi-Robot Motion Planning Using Guidance-Informed Hypergraphs

要約

この作業では、環境に狭い通路がある混雑した設定の既存の最先端の方法よりも最大数桁大きいロボットチームのための効率的な計画を立てる複数のモバイルロボットモーションプランニングの方法を提案します。
最先端の分解可能な状態空間ハイパーグラフ(DASH)計画フレームワークを適応させることにより、このスケーラビリティの改善を達成し、高度に構造化された計画スペースのない人と運動力学的制約のある人を含めるためにサポートできる一連の問題を拡大します。
これは、問題の構造に関するガイダンスを活用して、計画空間の調査を制限し、Dashの紛争解決スキームを変更することにより、これを達成します。
このガイダンスは、ロボット間の調整が必要な場合にキャプチャされ、計画中に関連するロボットグループを一緒に構成することにより、ロボット間紛争のリスクを制限しながら、巧妙に大きなマルチロボット検索スペースを分解できます。

要約(オリジナル)

In this work, we propose a method for multiple mobile robot motion planning that efficiently plans for robot teams up to an order of magnitude larger than existing state-of-the-art methods in congested settings with narrow passages in the environment. We achieve this improvement in scalability by adapting the state-of-the-art Decomposable State Space Hypergraph (DaSH) planning framework to expand the set of problems it can support to include those without a highly structured planning space and those with kinodynamic constraints. We accomplish this by exploiting guidance about a problem’s structure to limit exploration of the planning space and through modifying DaSH’s conflict resolution scheme. This guidance captures when coordination between robots is necessary, allowing us to decompose the intractably large multi-robot search space while limiting risk of inter-robot conflicts by composing relevant robot groups together while planning.

arxiv情報

著者 Courtney McBeth,James Motes,Isaac Ngui,Marco Morales,Nancy M. Amato
発行日 2025-04-17 15:53:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO | Scalable Multi-Robot Motion Planning Using Guidance-Informed Hypergraphs はコメントを受け付けていません

Perceive With Confidence: Statistical Safety Assurances for Navigation with Learning-Based Perception

要約

知覚における急速な進歩により、大規模な訓練を受けたモデルを箱から出して、世界の高次元的、騒々しい、部分的な観察を豊かな占有表現に変換することができました。
ただし、これらのモデルの信頼性、その結果、トレーニング中に見えない環境に展開された場合、ロボットへの安全な統合は不明のままです。
安全保証を提供するために、コンフォーマル予測に基づく新しいキャリブレーション手法を介して、オブジェクトの検出とシーンの完了のための事前に訓練された知覚システムの不確実性を厳密に定量化します。
重要なことに、この手順は、知覚出力がプランナーと併用して使用される場合、状態の分布シフトに対する堅牢性を保証します。
その結果、キャリブレーションされた知覚システムは、あらゆるセーフプランナーと組み合わせて使用​​して、目に見えない環境での安全性に関するエンドツーエンドの統計的保証を提供できます。
結果として得られるアプローチを評価し、信頼性(PWC)、シミュレーション、および四足込んでいたロボットが以前に見えなかった屋内で静的な環境をナビゲートするハードウェアで評価します。
これらの実験は、PWCが提供する障害回避のための安全性保証を検証します。
シミュレーションでは、私たちの方法により、障害物の誤解は、非調整された知覚モデルと比較して70ドル\%$減少します。
誤解はベースライン方法の衝突につながりますが、私たちのアプローチは一貫して100ドル\%$の安全を達成しています。
さらに、安全性を犠牲にすることなく、方法の保守主義を減らすことを実証し、100ドルの安全性を維持しながら、困難な環境で46ドルの成功率の上昇を達成します。
ハードウェア実験では、この方法はベースラインよりも経験的安全性を40ドル\%$に改善し、障害物の誤解を$ 93.3 \%$に減らします。
ナビゲーション速度が上昇すると、安全ギャップは46.7%$ 46.7 \%$に拡大し、より厳しい条件下でアプローチの堅牢性を強調します。

要約(オリジナル)

Rapid advances in perception have enabled large pre-trained models to be used out of the box for transforming high-dimensional, noisy, and partial observations of the world into rich occupancy representations. However, the reliability of these models and consequently their safe integration onto robots remains unknown when deployed in environments unseen during training. To provide safety guarantees, we rigorously quantify the uncertainty of pre-trained perception systems for object detection and scene completion via a novel calibration technique based on conformal prediction. Crucially, this procedure guarantees robustness to distribution shifts in states when perception outputs are used in conjunction with a planner. As a result, the calibrated perception system can be used in combination with any safe planner to provide an end-to-end statistical assurance on safety in unseen environments. We evaluate the resulting approach, Perceive with Confidence (PwC), in simulation and on hardware where a quadruped robot navigates through previously unseen indoor, static environments. These experiments validate the safety assurances for obstacle avoidance provided by PwC. In simulation, our method reduces obstacle misdetection by $70\%$ compared to uncalibrated perception models. While misdetections lead to collisions for baseline methods, our approach consistently achieves $100\%$ safety. We further demonstrate reducing the conservatism of our method without sacrificing safety, achieving a $46\%$ increase in success rates in challenging environments while maintaining $100\%$ safety. In hardware experiments, our method improves empirical safety by $40\%$ over baselines and reduces obstacle misdetection by $93.3\%$. The safety gap widens to $46.7\%$ when navigation speed increases, highlighting our approach’s robustness under more demanding conditions.

arxiv情報

著者 Zhiting Mei,Anushri Dixit,Meghan Booker,Emily Zhou,Mariko Storey-Matsutani,Allen Z. Ren,Ola Shorinwa,Anirudha Majumdar
発行日 2025-04-17 16:03:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Perceive With Confidence: Statistical Safety Assurances for Navigation with Learning-Based Perception はコメントを受け付けていません

Adaptive Task Space Non-Singular Terminal Super-Twisting Sliding Mode Control of a 7-DOF Robotic Manipulator

要約

このペーパーでは、7-DOFロボットマニピュレーターの堅牢な軌跡追跡のための適応性のあるゲインを備えた新しいタスクスペースの非シングル末端スーパーツイスチングスライドモード(NT-STSM)コントローラーを紹介します。
提案されているアプローチは、おしゃべり、未知の妨害、および回転モーショントラッキングの課題に対処し、器用な操作タスクにおけるハイドフマニピュレーターに適しています。
厳密な境界証明が提供され、実際の実装のためのゲイン選択ガイドラインを提供します。
外乱を伴うシミュレーションとハードウェア実験は、他のNT-STSMおよび従来のコントローラーと比較して、未知の妨害の下での制御努力が減少した、提案されたコントローラーの堅牢で正確な追跡を示しています。
結果は、提案されたNT-STSMコントローラーが複雑な動きにおけるチャタリングと不安定性を軽減し、器用なロボット操作とさまざまな産業用途のための実行可能なソリューションになることを実証しました。

要約(オリジナル)

This paper presents a new task-space Non-singular Terminal Super-Twisting Sliding Mode (NT-STSM) controller with adaptive gains for robust trajectory tracking of a 7-DOF robotic manipulator. The proposed approach addresses the challenges of chattering, unknown disturbances, and rotational motion tracking, making it suited for high-DOF manipulators in dexterous manipulation tasks. A rigorous boundedness proof is provided, offering gain selection guidelines for practical implementation. Simulations and hardware experiments with external disturbances demonstrate the proposed controller’s robust, accurate tracking with reduced control effort under unknown disturbances compared to other NT-STSM and conventional controllers. The results demonstrated that the proposed NT-STSM controller mitigates chattering and instability in complex motions, making it a viable solution for dexterous robotic manipulations and various industrial applications.

arxiv情報

著者 L. Wan,S. Smith,Y. -J. Pan,E. Witrant
発行日 2025-04-17 16:11:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Adaptive Task Space Non-Singular Terminal Super-Twisting Sliding Mode Control of a 7-DOF Robotic Manipulator はコメントを受け付けていません

Imperative MPC: An End-to-End Self-Supervised Learning with Differentiable MPC for UAV Attitude Control

要約

非線形ダイナミクスのモデリングと制御は、特に予測不可能な外部の影響と複雑なダイナミクスを備えたシナリオでは、ロボット工学で重要です。
従来のカスケードされたモジュラー制御パイプラインは、保守的な仮定と退屈なパラメーターのチューニングにより、しばしば最適ではないパフォーマンスをもたらすことがよくあります。
純粋なデータ駆動型アプローチは、堅牢なパフォーマンスを約束しますが、サンプル効率の低さ、SIMからリアルのギャップ、および広範なデータセットへの依存に苦しんでいます。
学習ベースと従来のモデルベースの制御をエンドツーエンドの方法で組み合わせたハイブリッド方法は、有望な選択肢を提供します。
この作業は、無人航空機(UAV)姿勢制御のための学習ベースの慣性臭気測定(IO)モジュールと微分可能なモデル予測制御(D-MPC)を組み合わせた自己科学の学習フレームワークを提示します。
IOは、生のIMU測定値を形成し、UAVの態度を予測します。これは、内側のMPCが制御アクションを最適化し、現実世界と予測されるパフォーマンスの間の矛盾を最小限に抑えるBIレベル最適化(BLO)セットアップの制御アクションのためにMPCによって最適化されます。
したがって、フレームワークはエンドツーエンドであり、自己監視された方法でトレーニングすることができます。
このアプローチは、学習ベースの知覚の強さと解釈可能なモデルベースの制御を組み合わせています。
結果は、強風の下でも有効性を示しています。
MPCパラメーター学習とIMU予測パフォーマンスの両方を同時に強化できます。

要約(オリジナル)

Modeling and control of nonlinear dynamics are critical in robotics, especially in scenarios with unpredictable external influences and complex dynamics. Traditional cascaded modular control pipelines often yield suboptimal performance due to conservative assumptions and tedious parameter tuning. Pure data-driven approaches promise robust performance but suffer from low sample efficiency, sim-to-real gaps, and reliance on extensive datasets. Hybrid methods combining learning-based and traditional model-based control in an end-to-end manner offer a promising alternative. This work presents a self-supervised learning framework combining learning-based inertial odometry (IO) module and differentiable model predictive control (d-MPC) for Unmanned Aerial Vehicle (UAV) attitude control. The IO denoises raw IMU measurements and predicts UAV attitudes, which are then optimized by MPC for control actions in a bi-level optimization (BLO) setup, where the inner MPC optimizes control actions and the upper level minimizes discrepancy between real-world and predicted performance. The framework is thus end-to-end and can be trained in a self-supervised manner. This approach combines the strength of learning-based perception with the interpretable model-based control. Results show the effectiveness even under strong wind. It can simultaneously enhance both the MPC parameter learning and IMU prediction performance.

arxiv情報

著者 Haonan He,Yuheng Qiu,Junyi Geng
発行日 2025-04-17 16:55:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Imperative MPC: An End-to-End Self-Supervised Learning with Differentiable MPC for UAV Attitude Control はコメントを受け付けていません

Force and Speed in a Soft Stewart Platform

要約

多くのソフトロボットは、高速で大きな変位で動的な動きを生成するのに苦労しています。
私たちは、手渡されたせん断補助(HSA)アクチュエータを使用して、平行6度(DOF)スチュワートgoughメカニズムを開発します。
ソフトアクチュエーターを使用することにより、3分の1のメカトロニクスコンポーネントを剛性のあるスチュワートプラットフォームと同じように使用することができ、2kgの動作ペイロードと16HXを超えるオープンループ帯域幅を保持することができます。
プラットフォームは、比例積分微分(PID)コントローラーを使用してボールとスライドパックを制御する際に、正確なトレースと動的妨害の拒絶の両方が可能であることを示します。
マシンラーニングベースの運動学モデルを開発し、各翻訳方向に約10cm、各方向で28度の機能的なワークスペースを実証します。
この6DOFデバイスには、ソフトメカニズムの利点をキャプチャしながら、剛性コンポーネント(パワー、速度、総ワークスペース)に関連する多くの特性があります。

要約(オリジナル)

Many soft robots struggle to produce dynamic motions with fast, large displacements. We develop a parallel 6 degree-of-freedom (DoF) Stewart-Gough mechanism using Handed Shearing Auxetic (HSA) actuators. By using soft actuators, we are able to use one third as many mechatronic components as a rigid Stewart platform, while retaining a working payload of 2kg and an open-loop bandwidth greater than 16Hx. We show that the platform is capable of both precise tracing and dynamic disturbance rejection when controlling a ball and sliding puck using a Proportional Integral Derivative (PID) controller. We develop a machine-learning-based kinematics model and demonstrate a functional workspace of roughly 10cm in each translation direction and 28 degrees in each orientation. This 6DoF device has many of the characteristics associated with rigid components – power, speed, and total workspace – while capturing the advantages of soft mechanisms.

arxiv情報

著者 Jake Ketchum,James Avtges,Millicent Schlafly,Helena Young,Taekyoung Kim,Ryan L. Truby,Todd D. Murphey
発行日 2025-04-17 17:43:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Force and Speed in a Soft Stewart Platform はコメントを受け付けていません

Long Range Navigator (LRN): Extending robot planning horizons beyond metric maps

要約

スペースの事前の知識なしで屋外環境をナビゲートするロボットは、その周囲と計画を知覚するために、地元のセンシングに依存する必要があります。
これは、固定された地平線を備えたローカルメトリックマップまたはローカルポリシーの形で提供されます。
それを超えて、いくつかの固定コストがマークされた不明なスペースの霧があります。
限られた計画の地平線は、多くの場合、近視の決定をもたらす可能性があり、非常に困難な地形にロボットをオフに導くことができます。
理想的には、ロボットに、ローカルコストマップよりも桁違いに大きくなることができる完全な知識を持っていることを望みます。
実際には、これはセンシング情報がまばらであり、しばしば計算的に高価であるため扱いにくいです。
この作業では、長距離ナビゲーションには、完全なマップ知識の代わりに計画のための優れたフロンティアの方向性を特定する必要があるという重要な観察を行います。
この目的のために、長距離ナビゲーター(LRN)を提案します。これは、計画のために「手頃な」フロンティアに高次元カメラ画像をマッピングし、目的の目標と最大限に合わせて最適化する中間アフォーダンス表現を学習します。
LRNは、特に、自立していない自我中心のビデオで完全にトレーニングされているため、新しいプラットフォームに簡単に拡大して適応できます。
その場での大規模なオフロード実験を通じて、LRNで既存のナビゲーションスタックを増強すると、テスト時に人間の介入が減少し、LRNの関連性を示す意思決定がより速くなることがわかります。
https://personalrobotics.github.io/lrn

要約(オリジナル)

A robot navigating an outdoor environment with no prior knowledge of the space must rely on its local sensing to perceive its surroundings and plan. This can come in the form of a local metric map or local policy with some fixed horizon. Beyond that, there is a fog of unknown space marked with some fixed cost. A limited planning horizon can often result in myopic decisions leading the robot off course or worse, into very difficult terrain. Ideally, we would like the robot to have full knowledge that can be orders of magnitude larger than a local cost map. In practice, this is intractable due to sparse sensing information and often computationally expensive. In this work, we make a key observation that long-range navigation only necessitates identifying good frontier directions for planning instead of full map knowledge. To this end, we propose Long Range Navigator (LRN), that learns an intermediate affordance representation mapping high-dimensional camera images to `affordable’ frontiers for planning, and then optimizing for maximum alignment with the desired goal. LRN notably is trained entirely on unlabeled ego-centric videos making it easy to scale and adapt to new platforms. Through extensive off-road experiments on Spot and a Big Vehicle, we find that augmenting existing navigation stacks with LRN reduces human interventions at test-time and leads to faster decision making indicating the relevance of LRN. https://personalrobotics.github.io/lrn

arxiv情報

著者 Matt Schmittle,Rohan Baijal,Nathan Hatch,Rosario Scalise,Mateo Guaman Castro,Sidharth Talia,Khimya Khetarpal,Byron Boots,Siddhartha Srinivasa
発行日 2025-04-17 17:55:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Long Range Navigator (LRN): Extending robot planning horizons beyond metric maps はコメントを受け付けていません

A New Semidefinite Relaxation for Linear and Piecewise-Affine Optimal Control with Time Scaling

要約

時間スケーリングを伴う線形システムの最適な制御のために、半微細緩和を導入します。
システムのダイナミクスには、離散化時間ステップとシステム状態とコントロールの間に双線形積が含まれるため、これらの問題は本質的に非凸です。
提案されたリラクゼーションは、二次制約の標準の2次セミドファイナイトリラクゼーションと密接に関連していますが、可能な双線形項のサブセットを慎重に選択し、変数の変更を適用して、計算荷重を維持しながら経験的に緊密な緩和を実現します。
さらに、凸セット(GCS)のグラフで最も短いパス問題としてPWA最適コントロール問題を定式化することにより、区分アフィン(PWA)システムを処理する方法をさらに拡張します。
このGCSでは、異なるパスはPWAシステムの異なるモードシーケンスを表し、凸セットは各モード内のリラックスダイナミクスをモデル化します。
GCSの問題の緊密な凸緩和を、半分の緩和と時間スケーリングと組み合わせることにより、単一のセミドフィニットプログラムを通じてPWA最適コントロール問題を解決できます。

要約(オリジナル)

We introduce a semidefinite relaxation for optimal control of linear systems with time scaling. These problems are inherently nonconvex, since the system dynamics involves bilinear products between the discretization time step and the system state and controls. The proposed relaxation is closely related to the standard second-order semidefinite relaxation for quadratic constraints, but we carefully select a subset of the possible bilinear terms and apply a change of variables to achieve empirically tight relaxations while keeping the computational load light. We further extend our method to handle piecewise-affine (PWA) systems by formulating the PWA optimal-control problem as a shortest-path problem in a graph of convex sets (GCS). In this GCS, different paths represent different mode sequences for the PWA system, and the convex sets model the relaxed dynamics within each mode. By combining a tight convex relaxation of the GCS problem with our semidefinite relaxation with time scaling, we can solve PWA optimal-control problems through a single semidefinite program.

arxiv情報

著者 Lujie Yang,Tobia Marcucci,Pablo A. Parrilo,Russ Tedrake
発行日 2025-04-17 17:59:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY, math.OC | A New Semidefinite Relaxation for Linear and Piecewise-Affine Optimal Control with Time Scaling はコメントを受け付けていません

Novel Demonstration Generation with Gaussian Splatting Enables Robust One-Shot Manipulation

要約

テレロ新ターのデモから学んだ視覚運動ポリシーは、長いデータ収集、高コスト、限られたデータの多様性などの課題に直面しています。
既存のアプローチは、RGBスペースでの画像観測を増強するか、物理シミュレータに基づいて実際のパイプラインを使用することにより、これらの問題に対処します。
ただし、前者は2Dデータ増強に制約されていますが、後者は不正確な幾何学的再構成によって引き起こされる不正確な物理シミュレーションに苦しんでいます。
このペーパーでは、3Dガウスを直接操作することにより、多様で視覚的に現実的なデモを生成する新しい方法であるRobosplatを紹介します。
具体的には、3Dガウスのスプラッティング(3DG)を通じてシーンを再構築し、再構築されたシーンを直接編集し、6種類の一般化にわたってデータを5つの手法で拡張します。
異なるオブジェクトのポーズの等量変換。
さまざまな照明条件の視覚属性編集。
新しいカメラの視点のための新しいビュー合成。
多様なオブジェクトタイプの3Dコンテンツ生成。
包括的な実世界の実験は、Robosplatが多様な妨害の下で視覚運動政策の一般化を大幅に強化することを示しています。
特に、追加の2Dデータ増強を伴う数百の実際のデモンストレーションでトレーニングされたポリシーは、平均成功率57.2%を達成しますが、RobosPlatは、現実世界の6種類の一般化にわたって1ショットの設定で87.8%を達成します。

要約(オリジナル)

Visuomotor policies learned from teleoperated demonstrations face challenges such as lengthy data collection, high costs, and limited data diversity. Existing approaches address these issues by augmenting image observations in RGB space or employing Real-to-Sim-to-Real pipelines based on physical simulators. However, the former is constrained to 2D data augmentation, while the latter suffers from imprecise physical simulation caused by inaccurate geometric reconstruction. This paper introduces RoboSplat, a novel method that generates diverse, visually realistic demonstrations by directly manipulating 3D Gaussians. Specifically, we reconstruct the scene through 3D Gaussian Splatting (3DGS), directly edit the reconstructed scene, and augment data across six types of generalization with five techniques: 3D Gaussian replacement for varying object types, scene appearance, and robot embodiments; equivariant transformations for different object poses; visual attribute editing for various lighting conditions; novel view synthesis for new camera perspectives; and 3D content generation for diverse object types. Comprehensive real-world experiments demonstrate that RoboSplat significantly enhances the generalization of visuomotor policies under diverse disturbances. Notably, while policies trained on hundreds of real-world demonstrations with additional 2D data augmentation achieve an average success rate of 57.2%, RoboSplat attains 87.8% in one-shot settings across six types of generalization in the real world.

arxiv情報

著者 Sizhe Yang,Wenye Yu,Jia Zeng,Jun Lv,Kerui Ren,Cewu Lu,Dahua Lin,Jiangmiao Pang
発行日 2025-04-17 17:59:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Novel Demonstration Generation with Gaussian Splatting Enables Robust One-Shot Manipulation はコメントを受け付けていません

Disentangling Polysemantic Channels in Convolutional Neural Networks

要約

機械的解釈は、(畳み込み)ニューラルネットワーク(CNN)の個々のコンポーネントの分析と、決定メカニズムを表すより大きな回路をどのように形成するかに関係しています。
CNNは、異なる概念をエンコードするポリマンティックチャネルを頻繁に学習し、解釈を難しくしているため、これらの調査は困難です。
これに対処するために、特定の種類のポリマンティックチャネルを複数のチャネルに解くアルゴリズムを提案し、それぞれが単一の概念に応答します。
私たちのアプローチは、同じチャネル内の異なる概念を使用して、前のレイヤーに異なるアクティベーションパターンを示すことを利用して、CNNの重みを再構築します。
これらのポリマンティックの特徴を解き放つことにより、CNNの解釈可能性を高め、最終的に機能の視覚化などの説明技術を改善します。

要約(オリジナル)

Mechanistic interpretability is concerned with analyzing individual components in a (convolutional) neural network (CNN) and how they form larger circuits representing decision mechanisms. These investigations are challenging since CNNs frequently learn polysemantic channels that encode distinct concepts, making them hard to interpret. To address this, we propose an algorithm to disentangle a specific kind of polysemantic channel into multiple channels, each responding to a single concept. Our approach restructures weights in a CNN, utilizing that different concepts within the same channel exhibit distinct activation patterns in the previous layer. By disentangling these polysemantic features, we enhance the interpretability of CNNs, ultimately improving explanatory techniques such as feature visualizations.

arxiv情報

著者 Robin Hesse,Jonas Fischer,Simone Schaub-Meyer,Stefan Roth
発行日 2025-04-17 13:37:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Disentangling Polysemantic Channels in Convolutional Neural Networks はコメントを受け付けていません