FreeDOM: Online Dynamic Object Removal Framework for Static Map Construction Based on Conservative Free Space Estimation

要約

オンラインマップの構築は、自律的なロボットが未知の環境でナビゲートするために不可欠です。
ただし、動的なオブジェクトの存在により、アーティファクトがマップに導入される可能性があり、ローカリゼーションとパス計画のパフォーマンスを大幅に低下させる可能性があります。
この問題に取り組むために、保守的な自由空間推定(自由)に基づいた静的マップ構築のための新しいオンラインダイナミックオブジェクト除去フレームワークが提案されており、スキャン除去フロントエンドとマップ修復バックエンドで構成されています。
まず、高速計算と効果的なマップ表現のためのマルチ解像度マップ構造を提案します。
スキャン除去のフロントエンドでは、Raycastの強化を採用して、空きスペースの推定を改善し、推定された自由空間に基づいてLidarスキャンをセグメント化します。
マップ修正バックエンドでは、増分空間情報を活用することにより、マップ内の残留動的オブジェクトをさらに削除します。
Semantickitti、Helimos、およびさまざまなセンサーを備えた屋内データセットで実験的に検証されたように、提案されたフレームワークは、視認性ベースの方法の限界を克服し、平均F1スコア改善で9.7%の最先端の方法を上回ります。

要約(オリジナル)

Online map construction is essential for autonomous robots to navigate in unknown environments. However, the presence of dynamic objects may introduce artifacts into the map, which can significantly degrade the performance of localization and path planning. To tackle this problem, a novel online dynamic object removal framework for static map construction based on conservative free space estimation (FreeDOM) is proposed, consisting of a scan-removal front-end and a map-refinement back-end. First, we propose a multi-resolution map structure for fast computation and effective map representation. In the scan-removal front-end, we employ raycast enhancement to improve free space estimation and segment the LiDAR scan based on the estimated free space. In the map-refinement back-end, we further eliminate residual dynamic objects in the map by leveraging incremental free space information. As experimentally verified on SemanticKITTI, HeLiMOS, and indoor datasets with various sensors, our proposed framework overcomes the limitations of visibility-based methods and outperforms state-of-the-art methods with an average F1-score improvement of 9.7%.

arxiv情報

著者 Chen Li,Wanlei Li,Wenhao Liu,Yixiang Shu,Yunjiang Lou
発行日 2025-04-15 11:16:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | FreeDOM: Online Dynamic Object Removal Framework for Static Map Construction Based on Conservative Free Space Estimation はコメントを受け付けていません

The Robotability Score: Enabling Harmonious Robot Navigation on Urban Streets

要約

このペーパーでは、自律ロボットナビゲーションの都市環境の適合性を定量化する新しいメトリックであるロボット性スコア($ r $)を紹介します。
専門家のインタビューと調査を通じて、都市通りの車輪付きロボットのRに寄与する重要な機能を特定し、比較検討します。
私たちの調査結果は、歩行者密度、群衆のダイナミクス、歩行者の流れが最も重要な要因であり、合計スコアの28%を集合的に占めることを明らかにしています。
ニューヨーク市全体のロボット性を計算すると、大きなばらつきが生じます。
最高のRの面積は、ロボットナビゲーションの容易さを予測する上でスコアの妥当性を示している、ロボット性の高い領域での物理ロボットの展開が最も低いRの領域の領域の3.0倍の「ロボット」です。
都市景観を評価するためのこの新しいフレームワークは、確立されたモビリティパターンと都市計画の原則を尊重しながら、ロボットの展開の不確実性を減らすことを目的としており、調和のとれた人間のロボット環境に関する談話に貢献しています。

要約(オリジナル)

This paper introduces the Robotability Score ($R$), a novel metric that quantifies the suitability of urban environments for autonomous robot navigation. Through expert interviews and surveys, we identify and weigh key features contributing to R for wheeled robots on urban streets. Our findings reveal that pedestrian density, crowd dynamics and pedestrian flow are the most critical factors, collectively accounting for 28% of the total score. Computing robotability across New York City yields significant variation; the area of highest R is 3.0 times more ‘robotable’ than the area of lowest R. Deployments of a physical robot on high and low robotability areas show the adequacy of the score in anticipating the ease of robot navigation. This new framework for evaluating urban landscapes aims to reduce uncertainty in robot deployment while respecting established mobility patterns and urban planning principles, contributing to the discourse on harmonious human-robot environments.

arxiv情報

著者 Matt Franchi,Maria Teresa Parreira,Fanjun Bu,Wendy Ju
発行日 2025-04-15 13:11:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | The Robotability Score: Enabling Harmonious Robot Navigation on Urban Streets はコメントを受け付けていません

A Real-time Anomaly Detection Method for Robots based on a Flexible and Sparse Latent Space

要約

多様な環境でロボットが効果的に動作するための需要の高まりは、ロボット操作中にロボットリアルタイムの異常検出技術の必要性を必要とします。
ただし、ロボット工学の深い学習ベースのモデルは、トレーニングデータが限られているため、非常に騒々しい信号機能により、重大な課題に直面しています。
このホワイトペーパーでは、これらの問題に対処するために、まばらなマスクされた自己回帰フローベースの敵対的自動エンコーダーモデルを提示します。
このアプローチは、マスクされたオートレーリングフローモデルを敵対的な自動エンコーダーに統合して、柔軟な潜在スペースを構築し、まばらな自動エンコーダーを利用して、限られた機能空間を持つシナリオであっても、重要な機能に効率的に焦点を合わせます。
私たちの実験は、提案されたモデルが、既存の最先端の方法と比較して、ランダムに配置された缶を使用したピックアンドプレイスロボット操作のレシーバー動作特性曲線の下で4.96%から9.75%高い面積を達成することを示しています。
特に、軽量オブジェクトとの衝突を含むシナリオでは、最大19.67%のパフォーマンスが見られました。
さらに、既存の最先端モデルとは異なり、モデルは1ミリ秒以内に推論を実行し、リアルタイムの異常検出を確保します。
これらの機能により、モデルは動的環境で機械学習ベースのロボット安全システムに非常に適用できます。
コードは、受け入れ後に公開されます。

要約(オリジナル)

The growing demand for robots to operate effectively in diverse environments necessitates the need for robust real-time anomaly detection techniques during robotic operations. However, deep learning-based models in robotics face significant challenges due to limited training data and highly noisy signal features. In this paper, we present Sparse Masked Autoregressive Flow-based Adversarial AutoEncoders model to address these problems. This approach integrates Masked Autoregressive Flow model into Adversarial AutoEncoders to construct a flexible latent space and utilize Sparse autoencoder to efficiently focus on important features, even in scenarios with limited feature space. Our experiments demonstrate that the proposed model achieves a 4.96% to 9.75% higher area under the receiver operating characteristic curve for pick-and-place robotic operations with randomly placed cans, compared to existing state-of-the-art methods. Notably, it showed up to 19.67% better performance in scenarios involving collisions with lightweight objects. Additionally, unlike the existing state-of-the-art model, our model performs inferences within 1 millisecond, ensuring real-time anomaly detection. These capabilities make our model highly applicable to machine learning-based robotic safety systems in dynamic environments. The code will be made publicly available after acceptance.

arxiv情報

著者 Taewook Kang,Bum-Jae You,Juyoun Park,Yisoo Lee
発行日 2025-04-15 13:17:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | A Real-time Anomaly Detection Method for Robots based on a Flexible and Sparse Latent Space はコメントを受け付けていません

PIP-Loco: A Proprioceptive Infinite Horizon Planning Framework for Quadrupedal Robot Locomotion

要約

四足動物の移動のモデル予測制御(MPC)のコア強度は、制約を強制し、地平線上の一連のコマンドの解釈可能性を提供する能力でした。
ただし、計画ができるにもかかわらず、MPCはタスクの複雑さでスケーリングするのに苦労しており、急速に変化する表面で堅牢な動作を達成できないことがよくあります。
一方、モデルフリーの強化学習(RL)メソッドは、複数の地形でMPCを上回り、緊急の動きを示していますが、本質的に制約を処理したり、計画を実行する能力がありません。
これらの制限に対処するために、固有受容計画をRLと統合するフレームワークを提案し、地平線を通してアジャイルで安全な運動行動を可能にします。
MPCに触発されて、速度推定器とDreamerモジュールを含む内部モデルを組み込みます。
トレーニング中、フレームワークは、専門家のポリシーと、配置された運動行動の改善のための調査を促進する共依存の内部モデルを学習します。
展開中、Dreamerモジュールは、制約を尊重するためにアクションと速度コマンドを適応させ、無限のホリゾンMPC問題を解決します。
内部モデルコンポーネントに関するアブレーション研究を通じて、トレーニングフレームワークの堅牢性を検証し、トレーニングノイズに対する堅牢性の改善を示します。
最後に、シミュレーションとハードウェアの両方で、マルチテレインシナリオ全体でアプローチを評価します。

要約(オリジナル)

A core strength of Model Predictive Control (MPC) for quadrupedal locomotion has been its ability to enforce constraints and provide interpretability of the sequence of commands over the horizon. However, despite being able to plan, MPC struggles to scale with task complexity, often failing to achieve robust behavior on rapidly changing surfaces. On the other hand, model-free Reinforcement Learning (RL) methods have outperformed MPC on multiple terrains, showing emergent motions but inherently lack any ability to handle constraints or perform planning. To address these limitations, we propose a framework that integrates proprioceptive planning with RL, allowing for agile and safe locomotion behaviors through the horizon. Inspired by MPC, we incorporate an internal model that includes a velocity estimator and a Dreamer module. During training, the framework learns an expert policy and an internal model that are co-dependent, facilitating exploration for improved locomotion behaviors. During deployment, the Dreamer module solves an infinite-horizon MPC problem, adapting actions and velocity commands to respect the constraints. We validate the robustness of our training framework through ablation studies on internal model components and demonstrate improved robustness to training noise. Finally, we evaluate our approach across multi-terrain scenarios in both simulation and hardware.

arxiv情報

著者 Aditya Shirwatkar,Naman Saxena,Kishore Chandra,Shishir Kolathaya
発行日 2025-04-15 13:55:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | PIP-Loco: A Proprioceptive Infinite Horizon Planning Framework for Quadrupedal Robot Locomotion はコメントを受け付けていません

MonoRollBot: 3-DOF Spherical Robot with Underactuated Single Compliant Actuator Design

要約

球状のローリングロボットは、検査や宇宙探査などのアプリケーションのために、モバイルロボット工学の分野で大きな注目を集めています。
制限されているローリングロボットの設計は、限られた数のアクチュエーターを利用しながら、自由度が高い自由度で多方向性の推進を達成するのに課題をもたらします。
このペーパーでは、単一のスプリングモーターシステムのみによって駆動される積極的なメカニズムを利用する新しい3度フリードーム(DOF)球状ロボットであるモノロールボットを紹介します。
従来の球体ロボットとは異なり、Monorollbotは最小限の作動アプローチを採用しており、1つのモーターとパッシブスプリングのみに依存して、その運動を制御します。
ロボットは、スプリングダイナミクスとモーター制御の革新的な結合を通じて3-DOFモーションを実現します。
この作業では、Monorollbotの設計について詳しく説明し、設計研究を通じてその動き能力を評価します。
また、回転質量と剛性の特性の変化に基づいて、その移動行動に関する研究を行っています。

要約(オリジナル)

Spherical rolling robots have garnered significant attention in the field of mobile robotics for applications such as inspection and space exploration. Designing underactuated rolling robots poses challenges in achieving multi-directional propulsion with high degrees of freedom while utilizing a limited number of actuators. This paper presents the MonoRollBot, a novel 3-degree-of-freedom (DOF) spherical robot that utilizes an underactuated mechanism driven by only a single spring-motor system. Unlike conventional spherical robots, MonoRollBot employs a minimalist actuation approach, relying on only one motor and a passive spring to control its locomotion. The robot achieves 3-DOF motion through an innovative coupling of spring dynamics and motor control. In this work, we detail the design of the MonoRollBot and evaluate its motion capabilities through design studies. We also do studies on its locomotion behaviours based on changes in rotating mass and stiffness properties.

arxiv情報

著者 Zhiwei Liu,Seyed Amir Tafrishi
発行日 2025-04-15 15:23:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | MonoRollBot: 3-DOF Spherical Robot with Underactuated Single Compliant Actuator Design はコメントを受け付けていません

Improving Swimming Performance in Soft Robotic Fish with Distributed Muscles and Embedded Kinematic Sensing

要約

バイオに触発された水中車両は、従来のプロペラ駆動型の水中車両よりも効率、操縦性、環境互換性の向上をもたらす可能性があります。
しかし、生物学の水泳パフォーマンスを実現するには、分布した筋肉と運動学的フィードバックの両方を備えたソフトロボットスイマーが必要です。
この研究では、独立して制御可能な筋肉と体に沿って埋め込まれた運動学的センシングを備えた柔らかいロボット魚のデザインと水泳の性能を示しています。
柔らかい水泳ロボットは、内部の柔軟な背骨、3つの軸方向に分布したハセル人工筋肉、埋め込まれたひずみゲージ、合理化されたシリコンボディ、およびオフボード電子機器で構成されています。
固定構成では、ソフトロボットは、すべての筋肉の同期拮抗作動を伴う最初の共鳴周波数(2 Hz)の近くで励起されると、7.9 mnの最大推力を生成します。
2番目の共振周波数(8 Hz)近くで興奮すると、同期した筋肉作動は5.0 mnのスラストを生成します。
筋肉作動に連続位相オフセットを導入することにより、2番目の共振周波数での推力は7.2 mnに増加し、単純な拮抗作動性から44%増加します。
連続した筋肉の活性化は、1)尾beat速度と2)水泳運動学の走行波の含有量を4回増加させることにより、推力を改善します。
さらに、2番目の共振周波数(8 Hz)は、テール変位の$ \約25 $%のみを必要とする一方で、最初の共鳴(2 Hz)とほぼ同じくらいの推力を生成します。
これらの結果は、独立して制御可能な筋肉と分布の運動学的センシングのパフォーマンスの利点を示しており、このタイプのソフトロボットスイマーは、感覚運動制御のオープンな課題に対処するためのプラットフォームを提供します。

要約(オリジナル)

Bio-inspired underwater vehicles could yield improved efficiency, maneuverability, and environmental compatibility over conventional propeller-driven underwater vehicles. However, to realize the swimming performance of biology, there is a need for soft robotic swimmers with both distributed muscles and kinematic feedback. This study presents the design and swimming performance of a soft robotic fish with independently controllable muscles and embedded kinematic sensing distributed along the body. The soft swimming robot consists of an interior flexible spine, three axially distributed sets of HASEL artificial muscles, embedded strain gauges, a streamlined silicone body, and off-board electronics. In a fixed configuration, the soft robot generates a maximum thrust of 7.9 mN when excited near its first resonant frequency (2 Hz) with synchronized antagonistic actuation of all muscles. When excited near its second resonant frequency (8 Hz), synchronized muscle actuation generates 5.0 mN of thrust. By introducing a sequential phase offset into the muscle actuation, the thrust at the second resonant frequency increases to 7.2 mN, a 44% increase from simple antagonistic activation. The sequential muscle activation improves the thrust by increasing 1) the tail-beat velocity and 2) traveling wave content in the swimming kinematics by four times. Further, the second resonant frequency (8 Hz) generates nearly as much thrust as the first resonance (2 Hz) while requiring only $\approx25$% of the tail displacement, indicating that higher resonant frequencies have benefits for swimming in confined environments where a smaller kinematic envelope is necessary. These results demonstrate the performance benefits of independently controllable muscles and distributed kinematic sensing, and this type of soft robotic swimmer provides a platform to address the open challenge of sensorimotor control.

arxiv情報

著者 Kevin Soto,Isabel Hess,Brandon Schrader,Shan He,Patrick Musgrave
発行日 2025-04-15 16:48:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Improving Swimming Performance in Soft Robotic Fish with Distributed Muscles and Embedded Kinematic Sensing はコメントを受け付けていません

HAS-RRT: RRT-based Motion Planning using Topological Guidance

要約

階層的なRRTベースのモーションプランニング戦略、階層的な注釈型骨格ガイド付きRRT(HAS-RRT)を提示し、ワークスペーススケルトンに導かれ、モーション計画の問題を解決します。
HAS-RRTは、最大91%のランタイム削減を提供し、競合他社よりも少なくとも30%小さいツリーを構築し、競争力のあるコストのパスを見つけます。
これは、私たちの戦略が、ロボットの有効なモーションプランを効率的に見つけるために、ワークスペースのガイダンスによって示されるパスを優先しているためです。
既存の方法は、ワークスペースのガイダンスに大きく依存しているか、狭い通路を見つけるのが困難です。
Workspace Skeletonが提供する仮定を利用することにより、Has-RRTはより小さなツリーを構築し、競合他社よりも速くパスを見つけることができます。
さらに、HAS-RRTが提供されるワークスペースガイダンスの品質に堅牢であり、ワークスペースのスケルトンが追加の洞察を提供しない最悪のシナリオでは、私たちの方法は照明のない方法と同等に機能することを示しています。

要約(オリジナル)

We present a hierarchical RRT-based motion planning strategy, Hierarchical Annotated-Skeleton Guided RRT (HAS-RRT), guided by a workspace skeleton, to solve motion planning problems. HAS-RRT provides up to a 91% runtime reduction and builds a tree at least 30% smaller than competitors while still finding competitive-cost paths. This is because our strategy prioritizes paths indicated by the workspace guidance to efficiently find a valid motion plan for the robot. Existing methods either rely too heavily on workspace guidance or have difficulty finding narrow passages. By taking advantage of the assumptions that the workspace skeleton provides, HAS-RRT is able to build a smaller tree and find a path faster than its competitors. Additionally, we show that HAS-RRT is robust to the quality of workspace guidance provided and that, in a worst-case scenario where the workspace skeleton provides no additional insight, our method performs comparably to an unguided method.

arxiv情報

著者 Diane Uwacu,Ananya Yammanuru,Keerthana Nallamotu,Vasu Chalasani,Marco Morales,Nancy M. Amato
発行日 2025-04-15 16:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | HAS-RRT: RRT-based Motion Planning using Topological Guidance はコメントを受け付けていません

RoboComm: A DID-based scalable and privacy-preserving Robot-to-Robot interaction over state channels

要約

ロボットのプライバシーを維持しながら、さまざまな組織から信頼されていないロボットの間で信頼を確立するマルチロボットシステムでは、課題です。
最近、スマートコントラクトやブロックチェーンなどの分散型テクノロジーがロボット工学のアプリケーション用に調査されています。
ただし、限られたトランザクション処理と高メンテナンスコストは、そのようなアプローチの広範な採用を妨げています。
さらに、パブリックまたはプライベート許可されたブロックチェーンでのブロックチェーントランザクションは、ロボットのデータとロボットのプライバシーの機密性をさらに維持することに失敗して、公開されています。
この作業では、ロボット間のプライバシーを提供する相互作用のための分散型アイデンティティベースのアプローチをRobocommに提案します。
自己強力のアイデンティティのコンポーネントを使用しました。
ロボットは、サードパーティのサービスに頼ることなく、独立して認証できます。
検証可能な資格情報は、データがブロックチェーン上にある必要がある既存のブロックチェーンベースのアプローチとは異なり、ロボットに関連付けられたロボットに関連付けられたプライベートデータをロボットのハードウェア内に保存できるようにします。
州のチャネルを介したメッセージ交換を許可することにより、スループットを改善します。
ブロックチェーンバックされたソリューションであるため、Robocommは、単一のパーティーに依存することなく、信頼できるシステムを提供します。
さらに、ソリューションの実現可能性を実証するために提案されたアプローチを実装します。

要約(オリジナル)

In a multi robot system establishing trust amongst untrusted robots from different organisations while preserving a robot’s privacy is a challenge. Recently decentralized technologies such as smart contract and blockchain are being explored for applications in robotics. However, the limited transaction processing and high maintenance cost hinder the widespread adoption of such approaches. Moreover, blockchain transactions be they on public or private permissioned blockchain are publically readable which further fails to preserve the confidentiality of the robot’s data and privacy of the robot. In this work, we propose RoboComm a Decentralized Identity based approach for privacy-preserving interaction between robots. With DID a component of Self-Sovereign Identity; robots can authenticate each other independently without relying on any third-party service. Verifiable Credentials enable private data associated with a robot to be stored within the robot’s hardware, unlike existing blockchain based approaches where the data has to be on the blockchain. We improve throughput by allowing message exchange over state channels. Being a blockchain backed solution RoboComm provides a trustworthy system without relying on a single party. Moreover, we implement our proposed approach to demonstrate the feasibility of our solution.

arxiv情報

著者 Roshan Singh,Sushant Pandey
発行日 2025-04-15 17:22:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.NI, cs.RO | RoboComm: A DID-based scalable and privacy-preserving Robot-to-Robot interaction over state channels はコメントを受け付けていません

Train Robots in a JIF: Joint Inverse and Forward Dynamics with Human and Robot Demonstrations

要約

ロボットデモンストレーションの大規模なデータセットの事前トレーニングは、多様な操作スキルを学ぶための強力な手法ですが、特に触覚フィードバックを必要とするタスクのために、ロボット中心のデータを収集する高コストと複雑さによって制限されることがよくあります。
この研究は、マルチモーダルの人間のデモを使用してトレーニング前の新しい方法を導入することにより、これらの課題に対処します。
私たちのアプローチは、操作操作の特定の表現を学習するために、潜在状態表現を抽出するための逆および前方のダイナミクスを共同で学習します。
これにより、少数のロボットデモンストレーションのみで効率的な微調整が可能になり、データ効率が大幅に向上します。
さらに、我々の方法では、視力の組み合わせや操作のためのタッチの組み合わせなど、マルチモーダルデータを使用できます。
潜在的なダイナミクスのモデリングと触覚センシングを活用することにより、このアプローチは、人間のデモンストレーションに基づいてスケーラブルなロボット操作学習の道を開きます。

要約(オリジナル)

Pre-training on large datasets of robot demonstrations is a powerful technique for learning diverse manipulation skills but is often limited by the high cost and complexity of collecting robot-centric data, especially for tasks requiring tactile feedback. This work addresses these challenges by introducing a novel method for pre-training with multi-modal human demonstrations. Our approach jointly learns inverse and forward dynamics to extract latent state representations, towards learning manipulation specific representations. This enables efficient fine-tuning with only a small number of robot demonstrations, significantly improving data efficiency. Furthermore, our method allows for the use of multi-modal data, such as combination of vision and touch for manipulation. By leveraging latent dynamics modeling and tactile sensing, this approach paves the way for scalable robot manipulation learning based on human demonstrations.

arxiv情報

著者 Gagan Khandate,Boxuan Wang,Sarah Park,Weizhe Ni,Jaoquin Palacious,Kate Lampo,Philippe Wu,Rosh Ho,Eric Chang,Matei Ciocarlie
発行日 2025-04-15 17:42:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Train Robots in a JIF: Joint Inverse and Forward Dynamics with Human and Robot Demonstrations はコメントを受け付けていません

VEXP: A Low-Cost RISC-V ISA Extension for Accelerated Softmax Computation in Transformers

要約

変圧器はフローティングポイント(FP)マトリックス総拡大によって支配されていますが、専用のハードウェアまたは多くのコアプログラマブルシステムを介した積極的な加速により、パフォーマンスボトルネックがSoftMaxのような非線形関数にシフトしました。
SoftMaxの加速は、その非点向で非線形の性質のために挑戦的であり、指数は最も要求の厳しいステップです。
これに対処するために、Schraudolphの方法に基づいて新しい近似アルゴリズムを活用するBFLOAT16指数のカスタム算術ブロックを設計し、カスタム指導セットアーキテクチャ(ISA)の拡張を介して、コンピュータクラスターのRISC-Vコアのフローティングポイントユニット(FPU)に統合します。
ソフトウェアカーネルを最適化して拡張機能を活用することにより、ベースラインクラスターと比較して162.7 $ \ Times $ LaTENCYおよび74.3 $ \ TIMES $ ENERGYでSoftMaxを実行し、GPT-2構成のフラッシュ2 Kernelのために8.2 $ \ Times $のパフォーマンス改善と4.1 $ $ \ Times $のエネルギー効率を達成します。
さらに、提案されたアプローチにより、マルチクラスターシステムは、GPT-2、GPT-3、VITなどの事前に訓練された変圧器モデルのエンドツーエンドの推論を効率的に実行し、それぞれ最大5.8 $ \ Times $と3.6 $ \ Times $の削減を、それぞれ再訓練を必要とせずに、それぞれ3.6 $ \ Times $削減を達成します。

要約(オリジナル)

While Transformers are dominated by Floating-Point (FP) Matrix-Multiplications, their aggressive acceleration through dedicated hardware or many-core programmable systems has shifted the performance bottleneck to non-linear functions like Softmax. Accelerating Softmax is challenging due to its non-pointwise, non-linear nature, with exponentiation as the most demanding step. To address this, we design a custom arithmetic block for Bfloat16 exponentiation leveraging a novel approximation algorithm based on Schraudolph’s method, and we integrate it into the Floating-Point Unit (FPU) of the RISC-V cores of a compute cluster, through custom Instruction Set Architecture (ISA) extensions, with a negligible area overhead of 1\%. By optimizing the software kernels to leverage the extension, we execute Softmax with 162.7$\times$ less latency and 74.3$\times$ less energy compared to the baseline cluster, achieving an 8.2$\times$ performance improvement and 4.1$\times$ higher energy efficiency for the FlashAttention-2 kernel in GPT-2 configuration. Moreover, the proposed approach enables a multi-cluster system to efficiently execute end-to-end inference of pre-trained Transformer models, such as GPT-2, GPT-3 and ViT, achieving up to 5.8$\times$ and 3.6$\times$ reduction in latency and energy consumption, respectively, without requiring re-training and with negligible accuracy loss.

arxiv情報

著者 Run Wang,Gamze Islamoglu,Andrea Belano,Viviane Potocnik,Francesco Conti,Angelo Garofalo,Luca Benini
発行日 2025-04-15 14:28:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.LG | VEXP: A Low-Cost RISC-V ISA Extension for Accelerated Softmax Computation in Transformers はコメントを受け付けていません