MOREL: Enhancing Adversarial Robustness through Multi-Objective Representation Learning

要約

広範な研究により、ディープニューラルネットワーク(DNN)は、わずかな敵対的な摂動に弱いことが示されています。特定の攻撃手法から生成された敵対的な例で訓練データを増強することに加え、現在の防御戦略のほとんどは、ロバスト性を向上させるために元のモデル・アーキテクチャ・コンポーネントを修正するか、敵対的な攻撃に対処するためにテスト時間のデータ純化を実行する必要がある。本研究では、訓練中に強力な特徴表現を学習することで、元のモデルの頑健性を大幅に向上できることを実証する。我々はMORELという多目的特徴表現学習アプローチを提案し、分類モデルが摂動にもかかわらず、同じクラス内の入力に対して類似した特徴を生成するよう促す。我々の学習手法は、コサイン類似度損失と多正対照損失が、モデルエンコーダからの自然特徴量と敵対特徴量を整列させ、厳密なクラスタリングを保証するために使用される埋め込み空間を含む。同時に、分類器は正確な予測を達成するように動機づけられる。広範な実験を通して、我々は、我々のアプローチが、ホワイトボックスとブラックボックスの敵対的攻撃に対するDNNの頑健性を大幅に強化し、同様にアーキテクチャの変更やテスト時のデータ精製を必要としない他の方法よりも優れていることを実証する。我々のコードはhttps://github.com/salomonhotegni/MOREL

要約(オリジナル)

Extensive research has shown that deep neural networks (DNNs) are vulnerable to slight adversarial perturbations$-$small changes to the input data that appear insignificant but cause the model to produce drastically different outputs. In addition to augmenting training data with adversarial examples generated from a specific attack method, most of the current defense strategies necessitate modifying the original model architecture components to improve robustness or performing test-time data purification to handle adversarial attacks. In this work, we demonstrate that strong feature representation learning during training can significantly enhance the original model’s robustness. We propose MOREL, a multi-objective feature representation learning approach, encouraging classification models to produce similar features for inputs within the same class, despite perturbations. Our training method involves an embedding space where cosine similarity loss and multi-positive contrastive loss are used to align natural and adversarial features from the model encoder and ensure tight clustering. Concurrently, the classifier is motivated to achieve accurate predictions. Through extensive experiments, we demonstrate that our approach significantly enhances the robustness of DNNs against white-box and black-box adversarial attacks, outperforming other methods that similarly require no architectural changes or test-time data purification. Our code is available at https://github.com/salomonhotegni/MOREL

arxiv情報

著者 Sedjro Salomon Hotegni,Sebastian Peitz
発行日 2024-10-03 09:28:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | コメントする

TopER: Topological Embeddings in Graph Representation Learning

要約

グラフ埋め込みはグラフ表現学習において重要な役割を果たし、機械学習モデルによるグラフ構造データの探索と解釈を可能にする。しかし、既存の手法は不透明で高次元の埋め込みに依存することが多く、解釈可能性や実用的な可視化が制限されている。 本研究では、トポロジカルデータ解析に基づく、新しい低次元埋め込みアプローチであるTopological Evolution Rate (TopER)を紹介する。TopERは、グラフ部分構造の進化率を計算することにより、主要なトポロジカルアプローチであるパーシステントホモロジーを単純化し、グラフデータの直感的で解釈可能な可視化をもたらす。このアプローチはグラフデータセットの探索を向上させるだけでなく、グラフのクラスタリングや分類タスクにおいても競争力のある性能を発揮する。我々のTopERベースのモデルは、分類、クラスタリング、可視化などのタスクにおいて、分子、生物学、社会ネットワークのデータセットで最先端の結果を達成、あるいはそれを上回る。

要約(オリジナル)

Graph embeddings play a critical role in graph representation learning, allowing machine learning models to explore and interpret graph-structured data. However, existing methods often rely on opaque, high-dimensional embeddings, limiting interpretability and practical visualization. In this work, we introduce Topological Evolution Rate (TopER), a novel, low-dimensional embedding approach grounded in topological data analysis. TopER simplifies a key topological approach, Persistent Homology, by calculating the evolution rate of graph substructures, resulting in intuitive and interpretable visualizations of graph data. This approach not only enhances the exploration of graph datasets but also delivers competitive performance in graph clustering and classification tasks. Our TopER-based models achieve or surpass state-of-the-art results across molecular, biological, and social network datasets in tasks such as classification, clustering, and visualization.

arxiv情報

著者 Astrit Tola,Funmilola Mary Taiwo,Cuneyt Gurcan Akcora,Baris Coskunuzer
発行日 2024-10-03 01:58:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.AT | コメントする

Uncertainty Quantification with Bayesian Higher Order ReLU KANs

要約

我々は、コルモゴロフ・アーノルド・ネットワークの領域における最初の不確実性定量化法を紹介する。特に、ベイズ法の計算要求から計算効率を向上させるために、(高次)ReLUKANに焦点を当てる。我々が提案する方法は、本質的に一般的であり、エピステミックな不確実性とアレータリックな不確実性の両方にアクセスすることができる。また、他の様々な基底関数への一般化も可能である。我々は、単純な一次元関数や(確率)偏微分方程式の領域への適用を含む、一連のクロージャテストを通して我々の方法を検証する。後者については、確率項を含むことによって生じる関数従属性を正しく識別できることを実証する。この研究をサポートするコードは https://github.com/wmdataphys/Bayesian-HR-KAN にある。

要約(オリジナル)

We introduce the first method of uncertainty quantification in the domain of Kolmogorov-Arnold Networks, specifically focusing on (Higher Order) ReLUKANs to enhance computational efficiency given the computational demands of Bayesian methods. The method we propose is general in nature, providing access to both epistemic and aleatoric uncertainties. It is also capable of generalization to other various basis functions. We validate our method through a series of closure tests, including simple one-dimensional functions and application to the domain of (Stochastic) Partial Differential Equations. Referring to the latter, we demonstrate the method’s ability to correctly identify functional dependencies introduced through the inclusion of a stochastic term. The code supporting this work can be found at https://github.com/wmdataphys/Bayesian-HR-KAN

arxiv情報

著者 James Giroux,Cristiano Fanelli
発行日 2024-10-03 02:21:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, physics.data-an | コメントする

LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models

要約

眼科では、診断や治療計画のために詳細な画像解析に大きく依存している。大規模視覚言語モデル(LVLM)は複雑な視覚情報を理解する上で有望であるが、眼科画像におけるその性能はまだ十分に検討されていない。我々は、眼科画像におけるLVLMを評価するためのデータセットとベンチマークであるLMODを紹介し、解剖学的理解、診断分析、人口統計抽出をカバーする。LMODには、光コヒーレンストモグラフィー、走査型レーザー検眼鏡、眼球写真、手術シーン、カラー眼底写真にまたがる21,993枚の画像が含まれる。我々は、13の最新のLVLMをベンチマークし、それらが眼科画像を理解するには完璧には程遠いことを発見した。モデルは診断分析と人口統計抽出に苦戦し、空間推論、診断分析、領域外クエリの処理、眼科画像のバイオマーカーを扱うための安全対策に弱点があることが明らかになった。

要約(オリジナル)

Ophthalmology relies heavily on detailed image analysis for diagnosis and treatment planning. While large vision-language models (LVLMs) have shown promise in understanding complex visual information, their performance on ophthalmology images remains underexplored. We introduce LMOD, a dataset and benchmark for evaluating LVLMs on ophthalmology images, covering anatomical understanding, diagnostic analysis, and demographic extraction. LMODincludes 21,993 images spanning optical coherence tomography, scanning laser ophthalmoscopy, eye photos, surgical scenes, and color fundus photographs. We benchmark 13 state-of-the-art LVLMs and find that they are far from perfect for comprehending ophthalmology images. Models struggle with diagnostic analysis and demographic extraction, reveal weaknesses in spatial reasoning, diagnostic analysis, handling out-of-domain queries, and safeguards for handling biomarkers of ophthalmology images.

arxiv情報

著者 Zhenyue Qin,Yu Yin,Dylan Campbell,Xuansheng Wu,Ke Zou,Yih-Chung Tham,Ninghao Liu,Xiuzhen Zhang,Qingyu Chen
発行日 2024-10-03 02:29:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

OccRWKV: Rethinking Efficient 3D Semantic Occupancy Prediction with Linear Complexity

要約

3D セマンティック占有予測ネットワークは、3D シーンの幾何学的およびセマンティック構造を再構築する際に優れた機能を実証し、ロボット ナビゲーションや自動運転システムに重要な情報を提供します。
しかし、高密度のネットワーク構造設計によるオーバーヘッドが大きいため、既存のネットワークは精度と遅延のバランスをとるという課題に直面しています。
このペーパーでは、Receptance Weighted Key Value (RWKV) からインスピレーションを得た効率的なセマンティック占有ネットワークである OccRWKV を紹介します。
OccRWKV は、セマンティクス、占有予測、および機能融合を個別のブランチに分離し、それぞれに Sem-RWKV ブロックと Geo-RWKV ブロックを組み込んでいます。
これらのブロックは、長距離の依存関係をキャプチャするように設計されており、ネットワークがドメイン固有の表現 (つまり、セマンティクスとジオメトリ) を学習できるようになり、予測精度が向上します。
現実世界の 3D 占有のまばらな性質を利用して、特徴を鳥瞰図 (BEV) 空間に投影することで計算オーバーヘッドを削減し、効率的な特徴強化と融合のための BEV-RWKV ブロックを提案します。
これにより、パフォーマンスを損なうことなく 22.2 FPS でのリアルタイム推論が可能になります。
実験では、OccRWKV が SemanticKITTI データセットで最先端の手法を上回っており、最良のベースラインである Co-Occ よりも 20 倍高速でありながら 25.1 の mIoU を達成し、ロボットでのリアルタイム展開に適していることが実証されています。
自律航行の効率。
コードとビデオはプロジェクト ページ https://jmwang0117.github.io/OccRWKV/ で入手できます。

要約(オリジナル)

3D semantic occupancy prediction networks have demonstrated remarkable capabilities in reconstructing the geometric and semantic structure of 3D scenes, providing crucial information for robot navigation and autonomous driving systems. However, due to their large overhead from dense network structure designs, existing networks face challenges balancing accuracy and latency. In this paper, we introduce OccRWKV, an efficient semantic occupancy network inspired by Receptance Weighted Key Value (RWKV). OccRWKV separates semantics, occupancy prediction, and feature fusion into distinct branches, each incorporating Sem-RWKV and Geo-RWKV blocks. These blocks are designed to capture long-range dependencies, enabling the network to learn domain-specific representation (i.e., semantics and geometry), which enhances prediction accuracy. Leveraging the sparse nature of real-world 3D occupancy, we reduce computational overhead by projecting features into the bird’s-eye view (BEV) space and propose a BEV-RWKV block for efficient feature enhancement and fusion. This enables real-time inference at 22.2 FPS without compromising performance. Experiments demonstrate that OccRWKV outperforms the state-of-the-art methods on the SemanticKITTI dataset, achieving a mIoU of 25.1 while being 20 times faster than the best baseline, Co-Occ, making it suitable for real-time deployment on robots to enhance autonomous navigation efficiency. Code and video are available on our project page: https://jmwang0117.github.io/OccRWKV/.

arxiv情報

著者 Junming Wang,Wei Yin,Xiaoxiao Long,Xingyu Zhang,Zebin Xing,Xiaoyang Guo,Qian Zhang
発行日 2024-10-01 20:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

An Approach to Elicit Human-Understandable Robot Expressions to Support Human-Robot Interaction

要約

人間とロボットの自然でシームレスなコラボレーションには、ロボットの意図を理解することが不可欠です。
ロボットに非言語コミュニケーション手段を確保することは、直感的かつ暗黙的な対話の基礎となります。
このために、私たちは人間が理解できるロボット表現を導き出し、設計するアプローチを提供します。
非ヒューマノイド ロボットのコンテキストでアプローチの概要を説明します。
私たちは人間の模倣と演技を、ジェスチャー誘発の 2 段階の研究と組み合わせました。第 1 段階では表現を引き出し、第 2 段階ではそれが理解できることを確認しました。
単純な 6-DoF ロボット アームの式を導き出すアプローチの 2 つの研究 (N=16 \& N=260) を通じて応用例を示します。
これにより、注意を引くことへの好奇心や関心を示すロボットの表現をデザインできることを示します。
私たちの主な貢献は、ロボットのための理解可能な表現を生成および検証し、より自然な人間とロボットのインタラクションを可能にするアプローチです。

要約(オリジナル)

Understanding the intentions of robots is essential for natural and seamless human-robot collaboration. Ensuring that robots have means for non-verbal communication is a basis for intuitive and implicit interaction. For this, we contribute an approach to elicit and design human-understandable robot expressions. We outline the approach in the context of non-humanoid robots. We paired human mimicking and enactment with research from gesture elicitation in two phases: first, to elicit expressions, and second, to ensure they are understandable. We present an example application through two studies (N=16 \& N=260) of our approach to elicit expressions for a simple 6-DoF robotic arm. We show that it enabled us to design robot expressions that signal curiosity and interest in getting attention. Our main contribution is an approach to generate and validate understandable expressions for robots, enabling more natural human-robot interaction.

arxiv情報

著者 Jan Leusmann,Steeven Villa,Thomas Liang,Chao Wang,Albrecht Schmidt,Sven Mayer
発行日 2024-10-01 21:01:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | コメントする

Two-Finger Soft Gripper Force Modulation via Kinesthetic Feedback

要約

私たちは、触覚センサーに依存せずに、2 本指グリッパーの柔らかい指と物体との間の接触力を調整する方法を研究します。
この研究は、接触検出に関する以前の結果のフォローアップです。
ここで、私たちの仮説は、指と物体の接触が検出されると、指の曲げ測定値と接触の瞬間の曲げとの間の望ましい差を維持するコントローラーが、接触力を維持および調整するのに十分であるというものです。
このアプローチは、単一のオブジェクトに接触しているときに両方の指に同時に適用できます。
私たちは仮説の検証に成功し、接触力とピーク引き抜き力の大きさと、乗算係数で表される望ましい差との関係を特徴づけました。
すべての結果は実際の物理デバイス上で実行されます。

要約(オリジナル)

We investigate a method to modulate contact forces between the soft fingers of a two-finger gripper and an object, without relying on tactile sensors. This work is a follow-up to our previous results on contact detection. Here, our hypothesis is that once the contact between a finger and an object is detected, a controller that keeps a desired difference between the finger bending measurement and its bending at the moment of contact is sufficient to maintain and modulate the contact force. This approach can be simultaneously applied to both fingers while getting in contact with a single object. We successfully tested the hypothesis, and characterized the contact and peak pull-out force magnitude vs. the desired difference expressed by a multiplicative factor. All of the results are performed on a real physical device.

arxiv情報

著者 Stephanie O. Herrera,Tae Myung Huh,Dejan Milutinovic
発行日 2024-10-01 21:19:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

RoTip: A Finger-Shaped Tactile Sensor with Active Rotation

要約

近年の光学式触覚センサー技術の進歩は、主にセンシング精度の向上とセンシング方式の範囲の拡大に重点が置かれています。
より巧みな操作の要件を満たすためには、触覚センサーをより動的にする動きがあるはずです。
この論文では、独立して制御されるジョイントとその表面全体で接触を感知する機能を備えた独自に設計された、新しい視覚ベースの触覚センサーである RoTip を紹介します。
センサーの回転機能は、物体の表面に接触しながらセンサーを動かすことができるため、日常の物体、特に薄くて柔軟な物体を操作する場合に特に重要です。
操作実験は、私たちが提案する RoTip が剛体および柔軟な物体を操作できることを実証しており、指全体の触覚フィードバックとアクティブな回転機能により、より複雑で正確な操作タスクを探索できる可能性があります。

要約(オリジナル)

In recent years, advancements in optical tactile sensor technology have primarily centred on enhancing sensing precision and expanding the range of sensing modalities. To meet the requirements for more skilful manipulation, there should be a movement towards making tactile sensors more dynamic. In this paper, we introduce RoTip, a novel vision-based tactile sensor that is uniquely designed with an independently controlled joint and the capability to sense contact over its entire surface. The rotational capability of the sensor is particularly crucial for manipulating everyday objects, especially thin and flexible ones, as it enables the sensor to mobilize while in contact with the object’s surface. The manipulation experiments demonstrate the ability of our proposed RoTip to manipulate rigid and flexible objects, and the full-finger tactile feedback and active rotation capabilities have the potential to explore more complex and precise manipulation tasks.

arxiv情報

著者 Xuyang Zhang,Jiaqi Jiang,Shan Luo
発行日 2024-10-01 21:28:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Human-Robot Co-Transportation with Human Uncertainty-Aware MPC and Pose Optimization

要約

本稿では、移動ベースとロボットアームを備えたロボットマニピュレータに基づく人間とロボットの共同輸送のための新しい制御アルゴリズムを提案する。
主な焦点は、ロボットの全身運動学とポーズの最適化を通じて人間の不確実性に適応することです。
人間の不確実性を明示的にモデル化し、ロボット アームのポーズを最適化するために通常の MPC よりも追加の変数を含む拡張モデル予測制御 (MPC) 定式化を導入します。
私たちの方法論の中核には、2 段階の反復設計が含まれます。各計画期間で、候補セットからロボット アームの最適な姿勢 (関節角度の組み合わせ) を選択し、推定制御コストを最小限に抑えることを目指します。
この選択は、不確実性を考慮した離散代数リカッティ方程式 (DARE) を解くことに基づいており、移動ベースとロボット アームの両方に最適な制御入力も通知されます。
提案されたアプローチの有効性を検証するために、不確実性を考慮した DARE の理論的導出を提供し、さまざまな軌道やノイズ レベルなどのさまざまな条件下でフェッチ ロボットを使用してシミュレーション実験とハードウェア実験を実行します。
結果は、私たちが提案したアプローチがベースライン アルゴリズムを上回るパフォーマンスを示していることを示しています。

要約(オリジナル)

This paper proposes a new control algorithm for human-robot co-transportation based on a robot manipulator equipped with a mobile base and a robotic arm. The primary focus is to adapt to human uncertainties through the robot’s whole-body kinematics and pose optimization. We introduce an augmented Model Predictive Control (MPC) formulation that explicitly models human uncertainties and contains extra variables than regular MPC to optimize the pose of the robotic arm. The core of our methodology involves a two-step iterative design: At each planning horizon, we select the best pose of the robotic arm (joint angle combination) from a candidate set, aiming to achieve the lowest estimated control cost. This selection is based on solving an uncertainty-aware Discrete Algebraic Ricatti Equation (DARE), which also informs the optimal control inputs for both the mobile base and the robotic arm. To validate the effectiveness of the proposed approach, we provide theoretical derivation for the uncertainty-aware DARE and perform simulated and hardware experiments using a Fetch robot under varying conditions, including different trajectories and noise levels. The results reveal that our proposed approach outperforms baseline algorithms.

arxiv情報

著者 Al Jaber Mahmud,Amir Hossain Raj,Duc M. Nguyen,Xuesu Xiao,Xuan Wang
発行日 2024-10-01 21:54:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Exploring How Non-Prehensile Manipulation Expands Capability in Robots Experiencing Multi-Joint Failure

要約

この研究では、多関節ロック (LMJ) の障害が発生してもロボットマニピュレーターが操作タスクを実行できるようにするための戦略として、非把握的マニピュレーション (NPM) と全身インタラクションを検討しています。
LMJ は、2 つ以上のジョイントが動作不能になる重大なシステム障害です。
これらはロボットの構成と制御空間に制約を課し、その結果、把握のみのアプローチの能力と範囲が制限されます。
このアプローチには、次の 3 つのコンポーネントが含まれます。i) ロボットの故障が制約されたワークスペースのモデル化、ii) このワークスペース内の NPM アクションの運動力学マップの生成、および iii) シミュレーションインザループ アプローチを使用する操作アクション プランナー
運動力学マップから実行する最適なアクションを選択します。
実験による評価では、私たちのアプローチにより、LMJ ケースにおける故障が制限された到達可能領域を 79% 増加できることが示されています。
さらに、エンドエフェクターが使用できない場合は最大 88.9% の成功率、使用可能な場合は最大 100% の成功率で現実世界の操作を完了する能力を実証します。

要約(オリジナル)

This work explores non-prehensile manipulation (NPM) and whole-body interaction as strategies for enabling robotic manipulators to conduct manipulation tasks despite experiencing locked multi-joint (LMJ) failures. LMJs are critical system faults where two or more joints become inoperable; they impose constraints on the robot’s configuration and control spaces, consequently limiting the capability and reach of a prehensile-only approach. This approach involves three components: i) modeling the failure-constrained workspace of the robot, ii) generating a kinodynamic map of NPM actions within this workspace, and iii) a manipulation action planner that uses a sim-in-the-loop approach to select the best actions to take from the kinodynamic map. The experimental evaluation shows that our approach can increase the failure-constrained reachable area in LMJ cases by 79%. Further, it demonstrates the ability to complete real-world manipulation with up to 88.9% success when the end-effector is unusable and up to 100% success when it is usable.

arxiv情報

著者 Gilberto Briscoe-Martinez,Anuj Pasricha,Ava Abderezaei,Santosh Chaganti,Sarath Chandra Vajrala,Sri Kanth Popuri,Alessandro Roncone
発行日 2024-10-01 22:17:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする