Hybrid Gripper with Passive Pneumatic Soft Joints for Grasping Deformable Thin Objects

要約

さまざまな物体を把握することは、多用途ロボット システムの開発において依然として重要な課題です。
人間の手は非常に器用で、さまざまな形状、機械的特性、質感を持つ物体をつかんで操作することができます。
人間が 2 本の指を使って布や紙などの薄い物体や大きな物体を掴む方法にヒントを得て、そのような変形可能な物体を掴むのに最適化されたグリッパーの開発を目指しています。
手の柔らかくて柔軟な指先関節が薄い材料にどのように接近して掴むかを観察し、柔らかいコンポーネントと硬いコンポーネントの両方を組み込んだハイブリッドグリッパーの設計が提案されました。
グリッパーは、硬い回転ジョイントの周りに巻き付けられた柔らかい空気圧リングを利用して、柔軟な 2 本指グリッパーを作成します。
紙やその他の物体を扱う際のグリッパーの性能を特徴付け、評価するために実験が行われました。
剛性グリッパーと比較して、提案された設計は把握効率を向上させ、把握距離を最大 8 分の 1 に短縮します。

要約(オリジナル)

Grasping a variety of objects remains a key challenge in the development of versatile robotic systems. The human hand is remarkably dexterous, capable of grasping and manipulating objects with diverse shapes, mechanical properties, and textures. Inspired by how humans use two fingers to pick up thin and large objects such as fabric or sheets of paper, we aim to develop a gripper optimized for grasping such deformable objects. Observing how the soft and flexible fingertip joints of the hand approach and grasp thin materials, a hybrid gripper design that incorporates both soft and rigid components was proposed. The gripper utilizes a soft pneumatic ring wrapped around a rigid revolute joint to create a flexible two-fingered gripper. Experiments were conducted to characterize and evaluate the gripper performance in handling sheets of paper and other objects. Compared to rigid grippers, the proposed design improves grasping efficiency and reduces the gripping distance by up to eightfold.

arxiv情報

著者 Ngoc-Duy Tran,Hoang-Hiep Ly,Xuan-Thuan Nguyen,Thi-Thoa Mac,Anh Nguyen,Tung D. Ta
発行日 2024-10-10 15:04:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Large Language Models for Orchestrating Bimanual Robots

要約

ロボットに複雑な操作タスクを解決する能力を与えることは急速に進歩しているが、効果的な時間的および空間的調整が難しいため、両手を使うロボットが両手を含むタスクを解決するための制御ポリシーを生成することは依然として困難である。
大規模言語モデル (LLM) は、ステップバイステップの推論とコンテキスト内学習という新たな能力を備え、さまざまなロボット タスクにおいて有望な可能性を示しています。
ただし、離散記号の単一シーケンスを介した言語コミュニケーションの性質により、連続空間での LLM ベースの調整は両手作業の場合に特に困難になります。
この課題に取り組むために、LLM を利用してタスク構成を分析し、長期的な両手タスクに対処するための調整制御ポリシーを考案するエージェントである、LAnguage モデルベースの Bimanual ORchestration (LABOR) を紹介します。
NICOL ヒューマノイド ロボットを使用した 2 つのクラスの長期タスクを含む模擬実験を通じて、この方法を評価します。
私たちの結果は、成功率の点で私たちの方法がベースラインを上回っていることを示しています。
さらに、失敗事例を徹底的に分析し、両手ロボット制御における LLM ベースのアプローチについての洞察を提供し、将来の研究トレンドを明らかにします。
プロジェクトの Web サイトは http://labor-agent.github.io にあります。

要約(オリジナル)

Although there has been rapid progress in endowing robots with the ability to solve complex manipulation tasks, generating control policies for bimanual robots to solve tasks involving two hands is still challenging because of the difficulties in effective temporal and spatial coordination. With emergent abilities in terms of step-by-step reasoning and in-context learning, Large Language Models (LLMs) have demonstrated promising potential in a variety of robotic tasks. However, the nature of language communication via a single sequence of discrete symbols makes LLM-based coordination in continuous space a particular challenge for bimanual tasks. To tackle this challenge, we present LAnguage-model-based Bimanual ORchestration (LABOR), an agent utilizing an LLM to analyze task configurations and devise coordination control policies for addressing long-horizon bimanual tasks. We evaluate our method through simulated experiments involving two classes of long-horizon tasks using the NICOL humanoid robot. Our results demonstrate that our method outperforms the baseline in terms of success rate. Additionally, we thoroughly analyze failure cases, offering insights into LLM-based approaches in bimanual robotic control and revealing future research trends. The project website can be found at http://labor-agent.github.io.

arxiv情報

著者 Kun Chu,Xufeng Zhao,Cornelius Weber,Mengdi Li,Wenhao Lu,Stefan Wermter
発行日 2024-10-10 15:07:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

Probabilistic Satisfaction of Temporal Logic Constraints in Reinforcement Learning via Adaptive Policy-Switching

要約

制約付き強化学習 (CRL) は、従来の強化学習 (RL) フレームワークに制約を導入する機械学習のサブセットです。
累積報酬の最大化のみを目的とする従来の RL とは異なり、CRL には、エージェントが学習プロセス中に遵守する必要がある特定のミッション要件や制限を表す追加の制約が組み込まれています。
この論文では、エージェントが学習プロセス全体を通じて望ましいレベルの時相論理制約満足度を確保しながら、報酬を最大化する最適なポリシーを学習することを目的とする、一種の CRL 問題に取り組みます。
私たちは、純粋学習 (報酬の最大化) と制約満足の間の切り替えに依存する新しいフレームワークを提案します。
このフレームワークは、以前の試行に基づいて制約を満たす確率を推定し、学習ポリシーと制約満足ポリシーの間で切り替える確率を適切に調整します。
提案されたアルゴリズムの正しさを理論的に検証し、包括的なシミュレーションを通じてそのパフォーマンスとスケーラビリティを実証します。

要約(オリジナル)

Constrained Reinforcement Learning (CRL) is a subset of machine learning that introduces constraints into the traditional reinforcement learning (RL) framework. Unlike conventional RL which aims solely to maximize cumulative rewards, CRL incorporates additional constraints that represent specific mission requirements or limitations that the agent must comply with during the learning process. In this paper, we address a type of CRL problem where an agent aims to learn the optimal policy to maximize reward while ensuring a desired level of temporal logic constraint satisfaction throughout the learning process. We propose a novel framework that relies on switching between pure learning (reward maximization) and constraint satisfaction. This framework estimates the probability of constraint satisfaction based on earlier trials and properly adjusts the probability of switching between learning and constraint satisfaction policies. We theoretically validate the correctness of the proposed algorithm and demonstrate its performance and scalability through comprehensive simulations.

arxiv情報

著者 Xiaoshan Lin,Sadık Bera Yüksel,Yasin Yazıcıoğlu,Derya Aksaray
発行日 2024-10-10 15:19:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY | コメントする

AO-Grasp: Articulated Object Grasp Generation

要約

キャビネットや電化製品の開閉など、ロボットが多関節オブジェクトと対話できるようにする 6 自由度の把握を生成する把握提案手法である AO-Grasp を紹介します。
AO-Grasp は、AO-Grasp モデルと AO-Grasp データセットという 2 つの主要な貢献で構成されています。
単一の多関節オブジェクトのセグメント化された部分点群が与えられると、AO 把握モデルは、アクション可能な把握点予測器を使用してオブジェクト上の最適な把握点を予測します。
次に、これらの点のそれぞれに対応する把握方向を見つけ、安定した実用的な把握提案を生成します。
新しい AO-Grasp データセットで AO-Grasp モデルをトレーニングします。このデータセットには、合成多関節オブジェクト上の 78,000 個の実行可能な平行ジョー把握が含まれています。
シミュレーションでは、AO-Grasp は 45.0% の把握成功率を達成しましたが、最高パフォーマンスのベースラインは 35.0% の成功率を達成しました。
さらに、さまざまな形状、関節軸、関節状態を持つオブジェクトの 120 の実世界シーンで AO-Grasp を評価しました。AO-Grasp は 67.5% のシーンで成功した把握を生成しますが、ベースラインは 33.3% のシーンでのみ成功した把握を生成します。
シーン。
私たちの知る限り、AO-Grasp は、部品検出や手作業で設計された把握ヒューリスティックを必要とせずに、部分点群から直接多関節オブジェクトの 6 自由度の把握を生成する最初の方法です。
プロジェクト Web サイト: https://stanford-iprl-lab.github.io/ao-grasp

要約(オリジナル)

We introduce AO-Grasp, a grasp proposal method that generates 6 DoF grasps that enable robots to interact with articulated objects, such as opening and closing cabinets and appliances. AO-Grasp consists of two main contributions: the AO-Grasp Model and the AO-Grasp Dataset. Given a segmented partial point cloud of a single articulated object, the AO-Grasp Model predicts the best grasp points on the object with an Actionable Grasp Point Predictor. Then, it finds corresponding grasp orientations for each of these points, resulting in stable and actionable grasp proposals. We train the AO-Grasp Model on our new AO-Grasp Dataset, which contains 78K actionable parallel-jaw grasps on synthetic articulated objects. In simulation, AO-Grasp achieves a 45.0 % grasp success rate, whereas the highest performing baseline achieves a 35.0% success rate. Additionally, we evaluate AO-Grasp on 120 real-world scenes of objects with varied geometries, articulation axes, and joint states, where AO-Grasp produces successful grasps on 67.5% of scenes, while the baseline only produces successful grasps on 33.3% of scenes. To the best of our knowledge, AO-Grasp is the first method for generating 6 DoF grasps on articulated objects directly from partial point clouds without requiring part detection or hand-designed grasp heuristics. Project website: https://stanford-iprl-lab.github.io/ao-grasp

arxiv情報

著者 Carlota Parés Morlans,Claire Chen,Yijia Weng,Michelle Yi,Yuying Huang,Nick Heppert,Linqi Zhou,Leonidas Guibas,Jeannette Bohg
発行日 2024-10-10 15:36:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Deployment of Large Language Models to Control Mobile Robots at the Edge

要約

この論文では、モバイル ロボット工学における自然言語処理 (NLP) と大規模言語モデル (LLM) の適用を通じて、人間とロボットの直感的な対話の可能性を調査します。
この研究は、従来のクラウドへの依存関係を排除したエッジベースの展開にこれらのテクノロジーを使用する実現可能性を調査することを目的としています。
この研究では、特に、クラウド接続を必要とする GPT-4-Turbo のパフォーマンスと、オフライン対応の量子化バージョンの LLaMA 2 (LLaMA 2-7B.Q5 K M) を比較しています。
これらの結果は、GPT-4-Turbo が複雑なコマンドを正確に解釈して実行する点で優れたパフォーマンスを提供するのに対し、LLaMA 2 はコマンド実行の一貫性と信頼性において大きな制限があることを示しています。
制御コンピューターと移動ロボット間の通信は、Raspberry Pi Pico W を介して確立されます。Raspberry Pi Pico W は、インターネットに依存せずにコンピューターからコマンドを無線で受信し、有線接続を介してロボットの Arduino コントローラーに送信します。
この研究は、エッジでの LLM と NLP の実装の可能性と課題を浮き彫りにし、完全に自律的でネットワークに依存しないロボット システムに関する将来の研究の基礎を提供します。
ビデオデモとソースコードについては、https://tinyurl.com/MobileRobotGPT4LLaMA2024 を参照してください。

要約(オリジナル)

This paper investigates the possibility of intuitive human-robot interaction through the application of Natural Language Processing (NLP) and Large Language Models (LLMs) in mobile robotics. This work aims to explore the feasibility of using these technologies for edge-based deployment, where traditional cloud dependencies are eliminated. The study specifically contrasts the performance of GPT-4-Turbo, which requires cloud connectivity, with an offline-capable, quantized version of LLaMA 2 (LLaMA 2-7B.Q5 K M). These results show that GPT-4-Turbo delivers superior performance in interpreting and executing complex commands accurately, whereas LLaMA 2 exhibits significant limitations in consistency and reliability of command execution. Communication between the control computer and the mobile robot is established via a Raspberry Pi Pico W, which wirelessly receives commands from the computer without internet dependency and transmits them through a wired connection to the robot’s Arduino controller. This study highlights the potential and challenges of implementing LLMs and NLP at the edge, providing groundwork for future research into fully autonomous and network-independent robotic systems. For video demonstrations and source code, please refer to: https://tinyurl.com/MobileRobotGPT4LLaMA2024.

arxiv情報

著者 Pascal Sikorski,Leendert Schrader,Kaleb Yu,Lucy Billadeau,Jinka Meenakshi,Naveena Mutharasan,Flavio Esposito,Hadi AliAkbarpour,Madi Babaiasl
発行日 2024-10-10 15:43:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Improving Robotic Arms through Natural Language Processing, Computer Vision, and Edge Computing

要約

この論文では、エッジ コンピューティングと自然言語処理 (NLP) およびコンピューター ビジョンを統合して人間とロボット システムの間のインタラクションを強化する、支援ロボット工学への新しいアプローチのプロトタイプを紹介します。
私たちの概念実証は、自然言語を通じて伝えられる複雑なコマンドを解釈して実行するために、大規模言語モデル (LLM) とビジョン システムを連携して使用する実現可能性を示しています。
この統合は、支援ロボット システムの直観性とアクセシビリティを向上させ、障害のあるユーザーの微妙なニーズにより適応できるようにすることを目的としています。
エッジ コンピューティングの機能を活用することで、当社のシステムは遅延を最小限に抑え、オフライン機能をサポートし、支援ロボットの自律性と応答性を強化する可能性があります。
ロボットアームへの実装による実験結果は、正確な意図解釈と口頭コマンドに基づくオブジェクト操作という点で有望な結果を示しています。
この研究は、障害のある人の生活の質を大幅に向上させることができる、応答性の高いユーザー中心のシステムの作成に焦点を当てた、支援ロボット工学の将来の開発の基礎を築きます。
ビデオデモとソースコードについては、https://tinyurl.com/EnhancedArmEdgeNLP を参照してください。

要約(オリジナル)

This paper introduces a prototype for a new approach to assistive robotics, integrating edge computing with Natural Language Processing (NLP) and computer vision to enhance the interaction between humans and robotic systems. Our proof of concept demonstrates the feasibility of using large language models (LLMs) and vision systems in tandem for interpreting and executing complex commands conveyed through natural language. This integration aims to improve the intuitiveness and accessibility of assistive robotic systems, making them more adaptable to the nuanced needs of users with disabilities. By leveraging the capabilities of edge computing, our system has the potential to minimize latency and support offline capability, enhancing the autonomy and responsiveness of assistive robots. Experimental results from our implementation on a robotic arm show promising outcomes in terms of accurate intent interpretation and object manipulation based on verbal commands. This research lays the groundwork for future developments in assistive robotics, focusing on creating highly responsive, user-centric systems that can significantly improve the quality of life for individuals with disabilities. For video demonstrations and source code, please refer to: https://tinyurl.com/EnhancedArmEdgeNLP.

arxiv情報

著者 Pascal Sikorski,Kaleb Yu,Lucy Billadeau,Flavio Esposito,Hadi AliAkbarpour,Madi Babaiasl
発行日 2024-10-10 15:55:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Dynamic Object Catching with Quadruped Robot Front Legs

要約

この論文では、四足ロボットが後脚で立っている間に前脚を使用して動的に物体を捕捉するためのフレームワークを紹介します。
このシステムは、コンピューター ビジョン、軌道予測、脚制御を統合し、四足動物がオンボード カメラを使用して投げられた物体を視覚的に検出、追跡し、うまくキャッチできるようにします。
物体検出用に微調整された YOLOv8 モデルと回帰ベースの軌道予測モジュールを活用して、四足動物は前脚の位置を繰り返し適応させて物体を予測して迎撃します。
捕球動作には、最適な捕球位置を特定し、デカルト PD 制御で前脚を制御し、適切なタイミングで両脚を閉じることが含まれます。
最適なキャッチ位置を選択するための 3 つの異なる方法を提案し、検証します。1) 予測軌道を垂直面と交差させる、2) 公称位置にあるロボットの脚の中心までの距離が最小となる予測軌道上の点を選択する、
3)ロボットの到達可能な空間をモデル化するガウス混合モデル(GMM)上で最も尤度の高い予測軌道上の点を選択する。
実験結果では、さまざまなシナリオにわたって強力な捕獲能力が実証されており、GMM メソッドが最高のパフォーマンスを達成し、80% の捕獲成功率につながりました。
システムの動作を示すビデオ デモンストレーションは、https://youtu.be/sm7RdxRfIYg でご覧いただけます。

要約(オリジナル)

This paper presents a framework for dynamic object catching using a quadruped robot’s front legs while it stands on its rear legs. The system integrates computer vision, trajectory prediction, and leg control to enable the quadruped to visually detect, track, and successfully catch a thrown object using an onboard camera. Leveraging a fine-tuned YOLOv8 model for object detection and a regression-based trajectory prediction module, the quadruped adapts its front leg positions iteratively to anticipate and intercept the object. The catching maneuver involves identifying the optimal catching position, controlling the front legs with Cartesian PD control, and closing the legs together at the right moment. We propose and validate three different methods for selecting the optimal catching position: 1) intersecting the predicted trajectory with a vertical plane, 2) selecting the point on the predicted trajectory with the minimal distance to the center of the robot’s legs in their nominal position, and 3) selecting the point on the predicted trajectory with the highest likelihood on a Gaussian Mixture Model (GMM) modelling the robot’s reachable space. Experimental results demonstrate robust catching capabilities across various scenarios, with the GMM method achieving the best performance, leading to an 80% catching success rate. A video demonstration of the system in action can be found at https://youtu.be/sm7RdxRfIYg .

arxiv情報

著者 André Schakkal,Guillaume Bellegarda,Auke Ijspeert
発行日 2024-10-10 16:00:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

LiPO: LiDAR Inertial Odometry for ICP Comparison

要約

LiPO と呼ばれる LiDAR 慣性オドメトリ (LIO) フレームワークを導入します。これにより、さまざまな反復最接近点 (ICP) 点群登録方法を直接比較できます。
比較する 2 つの一般的な ICP 方式は、ポイントツーポイント (P2P) とポイントツーフィーチャー (P2F) です。
私たちの経験では、LIO のコンテキスト内では、ロボットが困難な環境を積極的に移動する場合、P2F-ICP は P2P-ICP と比較してドリフトが少なく、マッピング精度が向上します。
ただし、P2F-ICP メソッドでは手動で調整されたハイパーパラメータがより多く必要になるため、P2F-ICP はすべての環境およびモーションにわたって汎用性が低くなります。
さまざまな環境でロボットが使用される現実のフィールド ロボット工学アプリケーションでは、ドリフトが増加しても、より一般的な P2P-ICP 方法が好まれる場合があります。
このペーパーでは、P2P-ICP と P2F-ICP の間のトレードオフをより適切に定量化し、各方法をいつ使用する必要があるかを知らせることを目指しています。
このトレードオフを調査するために、LiPO を使用して ICP 手法を直接比較し、関連するベンチマーク データセットおよびカスタムの無操縦地上車両 (UGV) でテストします。
全体として、P2F-ICP はドリフトを削減し、マッピング精度を向上させていますが、P2P-ICP はドリフトの増加を最小限に抑えながら、すべての環境とモーションにわたってより一貫性があることがわかりました。

要約(オリジナル)

We introduce a LiDAR inertial odometry (LIO) framework, called LiPO, that enables direct comparisons of different iterative closest point (ICP) point cloud registration methods. The two common ICP methods we compare are point-to-point (P2P) and point-to-feature (P2F). In our experience, within the context of LIO, P2F-ICP results in less drift and improved mapping accuracy when robots move aggressively through challenging environments when compared to P2P-ICP. However, P2F-ICP methods require more hand-tuned hyper-parameters that make P2F-ICP less general across all environments and motions. In real-world field robotics applications where robots are used across different environments, more general P2P-ICP methods may be preferred despite increased drift. In this paper, we seek to better quantify the trade-off between P2P-ICP and P2F-ICP to help inform when each method should be used. To explore this trade-off, we use LiPO to directly compare ICP methods and test on relevant benchmark datasets as well as on our custom unpiloted ground vehicle (UGV). We find that overall, P2F-ICP has reduced drift and improved mapping accuracy, but, P2P-ICP is more consistent across all environments and motions with minimal drift increase.

arxiv情報

著者 Darwin Mick,Taylor Pool,Madankumar Sathenahally Nagaraju,Michael Kaess,Howie Choset,Matt Travers
発行日 2024-10-10 16:40:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Unpacking Failure Modes of Generative Policies: Runtime Monitoring of Consistency and Progress

要約

模倣学習によってトレーニングされたロボットの行動ポリシーは、トレーニング データから逸脱した条件下では失敗する傾向があります。
したがって、スケーラブルな展開を促進するには、テスト時に学習したポリシーを監視し、失敗の早期警告を提供するアルゴリズムが必要です。
私たちは、障害の検出を 2 つの相補的なカテゴリに分割する実行時監視フレームワークである Sentinel を提案します。1) 一時的なアクションの一貫性の統計的尺度を使用して検出する、異常な障害。2) ビジョン言語モデル (VLM) を使用する、タスク進行の障害。
) ポリシーがタスクを解決しないアクションを自信を持って一貫して実行することを検出します。
私たちのアプローチには 2 つの重要な強みがあります。
まず、学習されたポリシーは多様な障害モードを示すため、補完的な検出器を組み合わせることで、障害検出の精度が大幅に向上します。
第 2 に、統計的な時間的アクションの一貫性測定を使用することで、マルチモーダルな生成ポリシーが無視できる計算コストで異常な動作を示した場合に、それを迅速に検出できるようになります。
対照的に、時間依存性の低い障害モードを検出するためにのみ VLM を使用します。
私たちは、シミュレーションと現実世界の両方におけるロボットによるモバイル操作ドメインで訓練された普及政策のコンテキストでアプローチを実証します。
時間的整合性検出と VLM ランタイム監視を統合することにより、Sentinel は 2 つの検出器のいずれかを単独で使用する場合よりも 18% 多くの障害を検出し、ベースラインを大幅に上回るパフォーマンスを示します。このため、補完的な障害カテゴリに特殊な検出器を割り当てることの重要性が強調されています。
定性的結果は https://sites.google.com/stanford.edu/sentinel で入手できます。

要約(オリジナル)

Robot behavior policies trained via imitation learning are prone to failure under conditions that deviate from their training data. Thus, algorithms that monitor learned policies at test time and provide early warnings of failure are necessary to facilitate scalable deployment. We propose Sentinel, a runtime monitoring framework that splits the detection of failures into two complementary categories: 1) Erratic failures, which we detect using statistical measures of temporal action consistency, and 2) task progression failures, where we use Vision Language Models (VLMs) to detect when the policy confidently and consistently takes actions that do not solve the task. Our approach has two key strengths. First, because learned policies exhibit diverse failure modes, combining complementary detectors leads to significantly higher accuracy at failure detection. Second, using a statistical temporal action consistency measure ensures that we quickly detect when multimodal, generative policies exhibit erratic behavior at negligible computational cost. In contrast, we only use VLMs to detect failure modes that are less time-sensitive. We demonstrate our approach in the context of diffusion policies trained on robotic mobile manipulation domains in both simulation and the real world. By unifying temporal consistency detection and VLM runtime monitoring, Sentinel detects 18% more failures than using either of the two detectors alone and significantly outperforms baselines, thus highlighting the importance of assigning specialized detectors to complementary categories of failure. Qualitative results are made available at https://sites.google.com/stanford.edu/sentinel.

arxiv情報

著者 Christopher Agia,Rohan Sinha,Jingyun Yang,Zi-ang Cao,Rika Antonova,Marco Pavone,Jeannette Bohg
発行日 2024-10-10 17:09:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, I.2.10 | コメントする

LoRA-Ensemble: Efficient Uncertainty Modelling for Self-attention Networks

要約

現実世界の意思決定における多くの重要なタスクは、校正された不確実性推定値を使用した機械学習アルゴリズムに依存しています。
しかし、現代の手法では、自信過剰で調整されていない予測が生じることがよくあります。
さまざまなアプローチには、認識論的不確実性として知られるモデル自体に関連する不確実性を定量化するために、個別のモデルのアンサンブルをトレーニングすることが含まれます。
明示的な実装では、アンサンブル手法には高い計算コストと高いメモリ要件が伴います。
この特定の課題は、トランスフォーマーなどの最先端のニューラル ネットワークで明らかであり、単一のネットワークですら、コンピューティングとメモリの点ですでに要求が厳しいものになっています。
したがって、個別のアンサンブル メンバーを実際にインスタンス化することなく、アンサンブル モデルをエミュレートする努力が行われます (暗黙的アンサンブルと呼ばれます)。
低ランク適応 (LoRA) に基づいたセルフアテンション ネットワーク用のパラメーター効率の高いディープ アンサンブル手法である LoRA-Ensemble を紹介します。
当初は効率的な LLM 微調整のために開発されましたが、LoRA を暗黙的なアンサンブル アプローチに拡張しました。
すべてのメンバー間で共有される重みを持つ単一の事前トレーニング済み自己注意ネットワークを採用することで、注意予測のためのメンバー固有の低ランク行列をトレーニングします。
私たちの方法は、陽的アンサンブルと比較して優れたキャリブレーションを示し、さまざまな予測タスクおよびデータセットにわたって同等以上の精度を達成します。

要約(オリジナル)

Numerous crucial tasks in real-world decision-making rely on machine learning algorithms with calibrated uncertainty estimates. However, modern methods often yield overconfident and uncalibrated predictions. Various approaches involve training an ensemble of separate models to quantify the uncertainty related to the model itself, known as epistemic uncertainty. In an explicit implementation, the ensemble approach has high computational cost and high memory requirements. This particular challenge is evident in state-of-the-art neural networks such as transformers, where even a single network is already demanding in terms of compute and memory. Consequently, efforts are made to emulate the ensemble model without actually instantiating separate ensemble members, referred to as implicit ensembling. We introduce LoRA-Ensemble, a parameter-efficient deep ensemble method for self-attention networks, which is based on Low-Rank Adaptation (LoRA). Initially developed for efficient LLM fine-tuning, we extend LoRA to an implicit ensembling approach. By employing a single pre-trained self-attention network with weights shared across all members, we train member-specific low-rank matrices for the attention projections. Our method exhibits superior calibration compared to explicit ensembles and achieves similar or better accuracy across various prediction tasks and datasets.

arxiv情報

著者 Michelle Halbheer,Dominik J. Mühlematter,Alexander Becker,Dominik Narnhofer,Helge Aasen,Konrad Schindler,Mehmet Ozgur Turkoglu
発行日 2024-10-10 15:55:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする