DEFT: Differentiable Branched Discrete Elastic Rods for Modeling Furcated DLOs in Real-Time

要約

自律ワイヤーハーネスアセンブリには、高精度と信頼性で複雑な分岐ケーブルを操作するためにロボットが必要です。
このプロセスを自動化する上での重要な課題は、これらの柔軟な構造と分岐構造が操作中にどのように振る舞うかを予測することです。
正確な予測がなければ、ロボットが組み立て操作を確実に計画または実行することは困難です。
既存の研究により、単一スレッドの変形可能な線形オブジェクト(DLOS)のモデリングが進歩しましたが、これらのアプローチを分岐した変形可能な線形オブジェクト(BDLOS)に拡張することは、基本的な課題を提示します。
BDLOSのジャンクションポイントは、複数のシングルドロモデルを接続するだけでは適切にキャプチャできない複雑な力の相互作用とひずみ伝播パターンを作成します。
これらの課題に対処するために、このペーパーでは、差別化可能な物理学ベースのモデルと学習フレームワークを組み合わせた新しいフレームワークである縁石のDLOSをリアルタイム(DEFT)でモデル化するための差別化可能な離散分岐弾性ロッドを提示します。
BDLO操作。
包括的な一連の実世界の実験は、最先端の代替案と比較した精度、計算速度、および一般化可能性の観点からDeftの有効性を示しています。
プロジェクトページ:https://roahmlab.github.io/deft/。

要約(オリジナル)

Autonomous wire harness assembly requires robots to manipulate complex branched cables with high precision and reliability. A key challenge in automating this process is predicting how these flexible and branched structures behave under manipulation. Without accurate predictions, it is difficult for robots to reliably plan or execute assembly operations. While existing research has made progress in modeling single-threaded Deformable Linear Objects (DLOs), extending these approaches to Branched Deformable Linear Objects (BDLOs) presents fundamental challenges. The junction points in BDLOs create complex force interactions and strain propagation patterns that cannot be adequately captured by simply connecting multiple single-DLO models. To address these challenges, this paper presents Differentiable discrete branched Elastic rods for modeling Furcated DLOs in real-Time (DEFT), a novel framework that combines a differentiable physics-based model with a learning framework to: 1) accurately model BDLO dynamics, including dynamic propagation at junction points and grasping in the middle of a BDLO, 2) achieve efficient computation for real-time inference, and 3) enable planning to demonstrate dexterous BDLO manipulation. A comprehensive series of real-world experiments demonstrates DEFT’s efficacy in terms of accuracy, computational speed, and generalizability compared to state-of-the-art alternatives. Project page:https://roahmlab.github.io/DEFT/.

arxiv情報

著者 Yizhou Chen,Xiaoyue Wu,Yeheng Zong,Anran Li,Yuzhen Chen,Julie Wu,Bohao Zhang,Ram Vasudevan
発行日 2025-02-26 15:28:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GR, cs.RO | DEFT: Differentiable Branched Discrete Elastic Rods for Modeling Furcated DLOs in Real-Time はコメントを受け付けていません

Leg Exoskeleton Odometry using a Limited FOV Depth Sensor

要約

脚の外骨格が実際の環境で効果的に動作するためには、周囲の地形を知覚し、理解できる必要があります。
ただし、他の脚のロボットとは異なり、外骨格は、人間のユーザーの存在により、深度センサーをマウントできる場所に対する特定の制約に直面しています。
これらの制約は、限られた視野(FOV)とセンサーの動きの大きさにつながり、臭気測定が特に困難になります。
これに対処するために、これらの制限にもかかわらず、外骨格からの固有受容データを深さカメラからポイントクラウドとポイントクラウドを統合して正確な標高マップを生成する新しい匂い測定アルゴリズムを提案します。
私たちの方法は、拡張されたKalmanフィルター(EKF)に基づいて運動学と慣性測定を融合し、カスタマイズされた反復ポイント(ICP)アルゴリズムを組み込んで、標高マップに新しいポイントクラウドを登録します。
脚の外骨格による実験的検証は、私たちのアプローチがドリフトを減らし、純粋に固有受容ベースラインと比較して標高マップの品質を向上させることを示しています。

要約(オリジナル)

For leg exoskeletons to operate effectively in real-world environments, they must be able to perceive and understand the terrain around them. However, unlike other legged robots, exoskeletons face specific constraints on where depth sensors can be mounted due to the presence of a human user. These constraints lead to a limited Field Of View (FOV) and greater sensor motion, making odometry particularly challenging. To address this, we propose a novel odometry algorithm that integrates proprioceptive data from the exoskeleton with point clouds from a depth camera to produce accurate elevation maps despite these limitations. Our method builds on an extended Kalman filter (EKF) to fuse kinematic and inertial measurements, while incorporating a tailored iterative closest point (ICP) algorithm to register new point clouds with the elevation map. Experimental validation with a leg exoskeleton demonstrates that our approach reduces drift and enhances the quality of elevation maps compared to a purely proprioceptive baseline, while also outperforming a more traditional point cloud map-based variant.

arxiv情報

著者 Fabio Elnecave Xavier,Matis Viozelange,Guillaume Burger,Marine Pétriaux,Jean-Emmanuel Deschaud,François Goulette
発行日 2025-02-26 15:46:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Leg Exoskeleton Odometry using a Limited FOV Depth Sensor はコメントを受け付けていません

BEV-LIO(LC): BEV Image Assisted LiDAR-Inertial Odometry with Loop Closure

要約

この作業では、LIDARデータの画像表現を組み合わせた新しいLidar-inertial odometry(LIO)フレームワークであるBev-lio(LC)を紹介します。LIDARデータの画像表現とジオメトリベースのポイントクラウド登録とBEV画像機能を介してループクロージャー(LC)を組み込みます。
ポイント密度を正規化することにより、Lidar PointクラウドをBEV画像に投影し、それにより効率的な機能抽出とマッチングを可能にします。
軽量の畳み込みニューラルネットワーク(CNN)ベースの特徴抽出器を使用して、BEV画像から独特のローカルおよびグローバルな記述子を抽出します。
ローカル記述子は、BEV画像を再注射エラー構築のための高速キーポイントと一致させるために使用されますが、グローバルな記述子はループ閉鎖の検出を促進します。
その後、繰り返された拡張カルマンフィルター(IEKF)内のポイントツープレーン登録とreprojectionエラーの最小化が統合されます。
バックエンドでは、グローバル記述子を使用して、正確なループ閉鎖検出のためにKDトリーインデックス付きキーフレームデータベースを作成します。
ループの閉鎖が検出されると、ランダムサンプルコンセンサス(RANSAC)は、BEV画像マッチングからの粗い変換を計算します。
洗練された変換は、その後、odoMetry因子とともに因子グラフに組み込まれ、局在化のグローバルな一貫性を改善します。
さまざまなライダータイプのさまざまなシナリオで行われた広範な実験は、Bev-lio(LC)が最先端の方法を上回り、競争力のあるローカリゼーションの精度を達成することを示しています。
私たちのコード、ビデオ、補足資料は、https://github.com/hxca1/bev-lio-lcにあります。

要約(オリジナル)

This work introduces BEV-LIO(LC), a novel LiDAR-Inertial Odometry (LIO) framework that combines Bird’s Eye View (BEV) image representations of LiDAR data with geometry-based point cloud registration and incorporates loop closure (LC) through BEV image features. By normalizing point density, we project LiDAR point clouds into BEV images, thereby enabling efficient feature extraction and matching. A lightweight convolutional neural network (CNN) based feature extractor is employed to extract distinctive local and global descriptors from the BEV images. Local descriptors are used to match BEV images with FAST keypoints for reprojection error construction, while global descriptors facilitate loop closure detection. Reprojection error minimization is then integrated with point-to-plane registration within an iterated Extended Kalman Filter (iEKF). In the back-end, global descriptors are used to create a KD-tree-indexed keyframe database for accurate loop closure detection. When a loop closure is detected, Random Sample Consensus (RANSAC) computes a coarse transform from BEV image matching, which serves as the initial estimate for Iterative Closest Point (ICP). The refined transform is subsequently incorporated into a factor graph along with odometry factors, improving the global consistency of localization. Extensive experiments conducted in various scenarios with different LiDAR types demonstrate that BEV-LIO(LC) outperforms state-of-the-art methods, achieving competitive localization accuracy. Our code, video and supplementary materials can be found at https://github.com/HxCa1/BEV-LIO-LC.

arxiv情報

著者 Haoxin Cai,Shenghai Yuan,Xinyi Li,Junfeng Guo,Jianqi Liu
発行日 2025-02-26 15:51:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | BEV-LIO(LC): BEV Image Assisted LiDAR-Inertial Odometry with Loop Closure はコメントを受け付けていません

Hybrid Robot Learning for Automatic Robot Motion Planning in Manufacturing

要約

産業用ロボットは、多様な製造環境で広く使用されています。
それにもかかわらず、ロボットがタスクを変更するための軌跡を自動的に計画できるようにする方法は、かなりの課題を提示します。
マシン、人間、または他のロボットと一緒に作業セル内でロボットが動作する場合、さらに複雑さが生じます。
このペーパーでは、デモンストレーション(RL-LFD)エージェントからのタスクスペース補強学習ベースの学習と、ジョイントスペースベースのディープ補強学習(DRL)ベースのエージェントを組み合わせたマルチレベルのハイブリッドロボットモーション計画方法を紹介します。
高レベルのエージェントは、2つのエージェントを切り替えて、実行可能で滑らかな動きを可能にすることを学びます。
実現可能性は、指定された環境におけるロボットの到達可能性、共同限界、操作性、衝突リスクを組み込むことによって計算されます。
したがって、派生したハイブリッドモーション計画ポリシーは、タスクの制約を順守する実行可能な軌跡を生成します。
メソッドの有効性は、Sim Ulated Roboticシナリオと実際のセットアップで検証されます。

要約(オリジナル)

Industrial robots are widely used in diverse manufacturing environments. Nonetheless, how to enable robots to automatically plan trajectories for changing tasks presents a considerable challenge. Further complexities arise when robots operate within work cells alongside machines, humans, or other robots. This paper introduces a multi-level hybrid robot motion planning method combining a task space Reinforcement Learning-based Learning from Demonstration (RL-LfD) agent and a joint-space based Deep Reinforcement Learning (DRL) based agent. A higher level agent learns to switch between the two agents to enable feasible and smooth motion. The feasibility is computed by incorporating reachability, joint limits, manipulability, and collision risks of the robot in the given environment. Therefore, the derived hybrid motion planning policy generates a feasible trajectory that adheres to task constraints. The effectiveness of the method is validated through sim ulated robotic scenarios and in a real-world setup.

arxiv情報

著者 Siddharth Singh,Tian Yu,Qing Chang,John Karigiannis,Shaopeng Liu
発行日 2025-02-26 17:32:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Hybrid Robot Learning for Automatic Robot Motion Planning in Manufacturing はコメントを受け付けていません

LiDAR Registration with Visual Foundation Models

要約

LIDAR登録は、ロボットマッピングとローカリゼーションの基本的なタスクです。
2つのポイントクラウドを調整することの重要なコンポーネントは、ポイント記述子を使用して堅牢なポイント対応を識別することです。
このステップは、ドメインシフト、季節の変化、およびポイントクラウド構造のバリエーションを含むシナリオで特に困難になります。
これらの要因は、手作りされたアプローチと学習ベースのアプローチの両方に大きく影響します。
このホワイトペーパーでは、サラウンドビュー画像から取得したDINOV2機能をポイント記述子として使用することを提案することにより、これらの問題に対処します。
これらの記述子をRANSACやICPなどの従来の登録アルゴリズムと結合することで、1年以上前にマップが記録された場合でも、3Dマップを使用したLidarスキャンの堅牢な6DOFアライメントを促進することを実証します。
概念的には単純ですが、私たちの方法は、より複雑なベースライン技術よりも大幅に優れています。
以前の学習ベースのポイント記述子とは対照的に、私たちの方法はドメイン固有の再訓練を必要とせず、ポイントクラウド構造に不可知論され、スパースライダースキャンと密な3Dマップの両方を効果的に処理します。
追加のカメラデータを活用することで、NCLTおよびOxford Robotcarデータセットの+24.8および+17.3登録リコールで最適なベースラインを上回る方法を可能にすることが示されています。
https://vfm-registration.cs.uni-freiburg.deの登録ベンチマークと作業のコードを公開します。

要約(オリジナル)

LiDAR registration is a fundamental task in robotic mapping and localization. A critical component of aligning two point clouds is identifying robust point correspondences using point descriptors. This step becomes particularly challenging in scenarios involving domain shifts, seasonal changes, and variations in point cloud structures. These factors substantially impact both handcrafted and learning-based approaches. In this paper, we address these problems by proposing to use DINOv2 features, obtained from surround-view images, as point descriptors. We demonstrate that coupling these descriptors with traditional registration algorithms, such as RANSAC or ICP, facilitates robust 6DoF alignment of LiDAR scans with 3D maps, even when the map was recorded more than a year before. Although conceptually straightforward, our method substantially outperforms more complex baseline techniques. In contrast to previous learning-based point descriptors, our method does not require domain-specific retraining and is agnostic to the point cloud structure, effectively handling both sparse LiDAR scans and dense 3D maps. We show that leveraging the additional camera data enables our method to outperform the best baseline by +24.8 and +17.3 registration recall on the NCLT and Oxford RobotCar datasets. We publicly release the registration benchmark and the code of our work on https://vfm-registration.cs.uni-freiburg.de.

arxiv情報

著者 Niclas Vödisch,Giovanni Cioffi,Marco Cannici,Wolfram Burgard,Davide Scaramuzza
発行日 2025-02-26 18:15:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | LiDAR Registration with Visual Foundation Models はコメントを受け付けていません

Surface-Based Manipulation

要約

知性は脳だけでなく体内にあります。
私たちの体の形は、私たちが物理的な世界とどのように考え、相互作用するかに影響を与える可能性があります。
ロボット研究では、ロボットがさまざまな実生活のシナリオでオブジェクトを操作できるため、物理的な世界との相互作用が重要です。
従来のロボット操作戦略は、主に指型エンドエフェクターに依存しています。
ただし、安定した力や幾何学的制約を確立するのが難しいため、壊れやすい、変形可能、不規則な形状、または滑りやすいオブジェクトを安定した握ることを達成することは困難です。
ここでは、平らな表面をミニマリストの終端として使用して、古典的な把握アプローチから分岐する表面ベースの操作戦略を提示します。
これらの表面の位置と方向を変更することにより、閉ループ制御戦略を使用して、オブジェクトを翻訳、回転、さらには表面全体に反転することさえできます。
この方法は安定した把握に依存していないため、さまざまな形状、サイズ、剛性レベルのオブジェクトに適応することができ、変形可能なオブジェクトの形状を操作することさえできます。
私たちの結果は、複雑な操作の問題を解決するための新しい視点を提供します。

要約(オリジナル)

Intelligence lies not only in the brain but in the body. The shape of our bodies can influence how we think and interact with the physical world. In robotics research, interacting with the physical world is crucial as it allows robots to manipulate objects in various real-life scenarios. Conventional robotic manipulation strategies mainly rely on finger-shaped end effectors. However, achieving stable grasps on fragile, deformable, irregularly shaped, or slippery objects is challenging due to difficulties in establishing stable force or geometric constraints. Here, we present surface-based manipulation strategies that diverge from classical grasping approaches, using with flat surfaces as minimalist end-effectors. By changing the position and orientation of these surfaces, objects can be translated, rotated and even flipped across the surface using closed-loop control strategies. Since this method does not rely on stable grasp, it can adapt to objects of various shapes, sizes, and stiffness levels, even enabling the manipulation the shape of deformable objects. Our results provide a new perspective for solving complex manipulation problems.

arxiv情報

著者 Ziqiao Wang,Serhat Demirtas,Fabio Zuliani,Jamie Paik
発行日 2025-02-26 18:33:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Surface-Based Manipulation はコメントを受け付けていません

ARENA: Adaptive Risk-aware and Energy-efficient NAvigation for Multi-Objective 3D Infrastructure Inspection with a UAV

要約

自律的なロボット検査ミッションでは、コストのかかる障害物に近づいている間、複数の矛盾する目標のバランスをとる必要があります。
現在の多目的パス計画(MOPP)メソッドは、ローカリゼーションエラー、天候、バッテリー状態、通信の問題などの進化するリスクに適応するのに苦労しています。
この手紙は、複雑な3D環境でのUAVの適応リスクアウェアとエネルギー効率の高いナビゲーション(アリーナ)MOPPアプローチを提示します。
私たちの方法により、4D NURBS表現と遺伝的ベースのアルゴリズムを使用して、パレートフロントを生成するために安全性、時間、およびエネルギーを最適化することにより、オンライン軌道適応を可能にします。
新しいリスク認識投票アルゴリズムは、適応性を保証します。
Simulations and real-world tests demonstrate the planner’s ability to produce diverse, optimized trajectories covering 95% or more of the range defined by single-objective benchmarks and its ability to estimate power consumption with a mean error representing 14% of the full power range.
アリーナフレームワークは、重要で進化する3DミッションにおけるUAVの自律性と信頼性を高めます。

要約(オリジナル)

Autonomous robotic inspection missions require balancing multiple conflicting objectives while navigating near costly obstacles. Current multi-objective path planning (MOPP) methods struggle to adapt to evolving risks like localization errors, weather, battery state, and communication issues. This letter presents an Adaptive Risk-aware and Energy-efficient NAvigation (ARENA) MOPP approach for UAVs in complex 3D environments. Our method enables online trajectory adaptation by optimizing safety, time, and energy using 4D NURBS representation and a genetic-based algorithm to generate the Pareto front. A novel risk-aware voting algorithm ensures adaptivity. Simulations and real-world tests demonstrate the planner’s ability to produce diverse, optimized trajectories covering 95% or more of the range defined by single-objective benchmarks and its ability to estimate power consumption with a mean error representing 14% of the full power range. The ARENA framework enhances UAV autonomy and reliability in critical, evolving 3D missions.

arxiv情報

著者 David-Alexandre Poissant,Alexis Lussier Desbiens,François Ferland,Louis Petit
発行日 2025-02-26 18:50:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | ARENA: Adaptive Risk-aware and Energy-efficient NAvigation for Multi-Objective 3D Infrastructure Inspection with a UAV はコメントを受け付けていません

Efficient Federated Search for Retrieval-Augmented Generation

要約

大規模な言語モデル(LLMS)は、さまざまなドメインにわたって顕著な能力を実証していますが、幻覚や矛盾の影響を受けやすく、信頼性を制限しています。
検索された生成(RAG)は、外部の知識ソースでモデル応答を接地することにより、これらの問題を軽減します。
既存のRAGワークフローは、多くの場合、単一のベクトルデータベースを活用します。これは、複数のリポジトリに情報が配布される一般的な設定では非現実的です。
フェデレーションラグ検索の新しいメカニズムであるRagrouteを紹介します。
Ragrouteは、軽量ニューラルネットワーク分類器を使用して、クエリ時に関連するデータソースを動的に選択します。
すべてのデータソースを照会しないことにより、このアプローチはクエリオーバーヘッドを大幅に削減し、検索効率を向上させ、無関係な情報の検索を最小限に抑えます。
MirageとMMLUのベンチマークを使用してRagrouteを評価し、関連文書を取得しながらクエリの数を減らしながらその有効性を示します。
Ragrouteは、クエリの総数を最大77.5%に減らし、通信量は最大76.2%に減少します。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable capabilities across various domains but remain susceptible to hallucinations and inconsistencies, limiting their reliability. Retrieval-augmented generation (RAG) mitigates these issues by grounding model responses in external knowledge sources. Existing RAG workflows often leverage a single vector database, which is impractical in the common setting where information is distributed across multiple repositories. We introduce RAGRoute, a novel mechanism for federated RAG search. RAGRoute dynamically selects relevant data sources at query time using a lightweight neural network classifier. By not querying every data source, this approach significantly reduces query overhead, improves retrieval efficiency, and minimizes the retrieval of irrelevant information. We evaluate RAGRoute using the MIRAGE and MMLU benchmarks and demonstrate its effectiveness in retrieving relevant documents while reducing the number of queries. RAGRoute reduces the total number of queries up to 77.5% and communication volume up to 76.2%.

arxiv情報

著者 Rachid Guerraoui,Anne-Marie Kermarrec,Diana Petrescu,Rafael Pires,Mathis Randl,Martijn de Vos
発行日 2025-02-26 16:36:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.IR, cs.LG | Efficient Federated Search for Retrieval-Augmented Generation はコメントを受け付けていません

Balanced Neural ODEs: nonlinear model order reduction and Koopman operator approximations

要約

バリエーションオートエンコーダー(VAE)は、次元の減少の潜在的な表現を学習するための強力なフレームワークであり、ニューラルオードは一時的なシステムダイナミクスを学習するのに優れています。
この作業は、両方の強度を組み合わせて、時間変化の入力信号で調整可能な複雑さが反応する高速サロゲートモデルを生成します。
非階層的な事前を使用してVAEの次元削減を活用することにより、私たちの方法は、確率的ノイズを適応的に割り当て、自然に既知のNeuralodeトレーニングの強化を補完し、確率論的時系列モデリングを可能にします。
標準的な潜在性は、時変入力を持つシステムの次元削減と闘っていることを示します。
私たちのアプローチは、時間を通じて変分パラメーターを継続的に伝播し、潜在空間で固定情報チャネルを確立することにより、これを軽減します。
これにより、さまざまなシステムの複雑さを学習できる柔軟で堅牢な方法が得られます。
深いニューラルネットワークまたは線形マトリックス。
これにより、次元を事前に定義する必要なく、Koopmanオペレーターの効率的な近似を可能にします。
私たちの方法は、次元の削減と再構成の精度のバランスをとるので、バランスの取れた神経オード(Bノード)と呼びます。
この方法の有効性は、いくつかの学術的および実世界のテストケースで実証されています。
発電所またはムホコのデータ。

要約(オリジナル)

Variational Autoencoders (VAEs) are a powerful framework for learning latent representations of reduced dimensionality, while Neural ODEs excel in learning transient system dynamics. This work combines the strengths of both to generate fast surrogate models with adjustable complexity reacting on time-varying inputs signals. By leveraging the VAE’s dimensionality reduction using a nonhierarchical prior, our method adaptively assigns stochastic noise, naturally complementing known NeuralODE training enhancements and enabling probabilistic time series modeling. We show that standard Latent ODEs struggle with dimensionality reduction in systems with time-varying inputs. Our approach mitigates this by continuously propagating variational parameters through time, establishing fixed information channels in latent space. This results in a flexible and robust method that can learn different system complexities, e.g. deep neural networks or linear matrices. Hereby, it enables efficient approximation of the Koopman operator without the need for predefining its dimensionality. As our method balances dimensionality reduction and reconstruction accuracy, we call it Balanced Neural ODE (B-NODE). We demonstrate the effectiveness of this methods on several academic and real-world test cases, e.g. a power plant or MuJoCo data.

arxiv情報

著者 Julius Aka,Johannes Brunnemann,Jörg Eiden,Arne Speerforck,Lars Mikelsons
発行日 2025-02-26 16:45:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Balanced Neural ODEs: nonlinear model order reduction and Koopman operator approximations はコメントを受け付けていません

Global Graph Propagation with Hierarchical Information Transfer for Incomplete Contrastive Multi-view Clustering

要約

不完全なマルチビュークラスタリングは、現実の世界で広範囲に欠けているマルチビューデータが大規模に欠落しているため、重要な研究問題の1つになっています。
既存の方法は大きな進歩を遂げていますが、まだいくつかの問題があります。1)ほとんどの方法は、欠落データに隠された情報を効果的にマイニングすることはできません。
2)ほとんどの方法は、通常、表現学習とクラスタリングを2つの別々の段階に分割しますが、クラスタリングの結果が学習表現に直接依存するため、これはクラスタリングパフォーマンスに影響を与える可能性があります。
これらの問題に対処するために、階層情報転送を備えた新しい不完全なマルチビュークラスタリング方法を提案します。
まず、ビュー固有のグラフ畳み込みネットワーク(GCN)を設計して、グラフ構造をコードする表現を取得し、コンセンサス表現に融合します。
第二に、GCNの1つの層が一次近隣ノード情報を転送することを考慮すると、欠落データを処理し、深い表現を学習するために、コンセンサス表現を備えたグローバルグラフ伝播が提案されています。
最後に、対照的な学習を備えた重量共有疑似分類器を設計し、ビュー固有の表現学習、階層情報の伝達とグローバルグラフ伝播、および共同最適化のための対照的なクラスタリングを組み合わせたエンドツーエンドフレームワークを取得します。
いくつかの一般的に使用されるデータセットで行われた広範な実験は、他の最先端のアプローチと比較して、方法の有効性と優位性を示しています。
このコードは、https://github.com/kelvinxuu/ghicmcで入手できます。

要約(オリジナル)

Incomplete multi-view clustering has become one of the important research problems due to the extensive missing multi-view data in the real world. Although the existing methods have made great progress, there are still some problems: 1) most methods cannot effectively mine the information hidden in the missing data; 2) most methods typically divide representation learning and clustering into two separate stages, but this may affect the clustering performance as the clustering results directly depend on the learned representation. To address these problems, we propose a novel incomplete multi-view clustering method with hierarchical information transfer. Firstly, we design the view-specific Graph Convolutional Networks (GCN) to obtain the representation encoding the graph structure, which is then fused into the consensus representation. Secondly, considering that one layer of GCN transfers one-order neighbor node information, the global graph propagation with the consensus representation is proposed to handle the missing data and learn deep representation. Finally, we design a weight-sharing pseudo-classifier with contrastive learning to obtain an end-to-end framework that combines view-specific representation learning, global graph propagation with hierarchical information transfer, and contrastive clustering for joint optimization. Extensive experiments conducted on several commonly-used datasets demonstrate the effectiveness and superiority of our method in comparison with other state-of-the-art approaches. The code is available at https://github.com/KelvinXuu/GHICMC.

arxiv情報

著者 Guoqing Chao,Kaixin Xu,Xijiong Xie,Yongyong Chen
発行日 2025-02-26 16:50:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Global Graph Propagation with Hierarchical Information Transfer for Incomplete Contrastive Multi-view Clustering はコメントを受け付けていません